>

深度学习,相当于家里多了一双

- 编辑:澳门金莎娱乐网站 -

深度学习,相当于家里多了一双

原标题:深度学习、机器学习与NLP的前世今生

原标题:买了智能电视,相当于家里多了一双“眼睛”

原标题:掌阅超级智能本iReader Smart 发布 董事长成湘均谈产品核心突破点

随着深度学习的发展,自然语言处理领域的难题也得到了不断突破,AlphaGo项目的主要负责人David Silver曾说“深度学习 (DL)+ 强化学习 (RL)= 人工智能(AI)”。目前深度学习在自然语言处理上主要有哪些应用?在工程实践中是否会有哪些瓶颈?

编者按:智能电视兴起之后,电视行业表示,这可能意味着更多的细分节目和更少的恼人广告。但是,隐私倡导者担心消费者被蒙在鼓里,他们的数据会被更多的窃取。原题为“No flipping: How smart TVs are getting quite smart about you”。

运营商世界网 八卦叨/文

图片 1

图片 2

9月6日,掌阅在北京发布了其新品超级智能本iReader Smart。据了解,这是掌阅首款配备电子手写笔的智能本产品,在外观与功能上与此前版本均有很大不同,让人不禁好奇的是,拥有这么多新变化的iReader Smart究竟有怎样亮点呢?

一、为什么做文本挖掘

这一切对数字广告商来说,相对容易。在网络上,他们知道,他们可以根据你浏览过的产品、你在网上进行的搜索以及你在现实世界中的位置向你发送广告。他们知道,他们会得到关于哪些广告能变成网站访问和购买的精确数据。

此次发布的iReader Smart,外观上拥有10.3英寸的墨水屏,其屏幕分辨率为1404×1872,整个机身的体积为246.7mm×177mm,而厚度仅为7.1mm,重量也仅为355g,相当于一瓶矿泉水的重量。

什么是NLP?

传统上,电视广告客户没有这些选择。他们在看起来吸引广泛目标人群的节目上购买了广告时间——比如18岁至50岁的女性——但是他们没有办法瞄准有需求的消费者。他们衡量哪些广告真正激励人们购买的能力也有限。

但据运营商世界网了解,iReader Smart的亮点并不是在此,而是在内置功能上,iReader Smart配备的手写笔是Wacom首款三角电磁笔,据掌阅董事长成湘均介绍,该笔在书写时能达到毫秒级灵敏反应。而在水墨屏表面还有一层防滑面板,在书写时能够模拟真实纸笔书写的摩擦质感。

简单来说:NLP的目的是让机器能够理解人类的语言,是人和机器进行交流的技术。它应用在我们生活中,像:智能问答、机器翻译、文本分类、文本摘要,这项技术在慢慢影响我们的生活。

“尼尔森是一个由调查员组成的专业团队,”创新媒体测量联盟(Coalition for Innovative Media Measurement)的首席执行官简·克拉克(Jane Clarke)说,这个联盟是一个行业组织,成员包括迪斯尼、谷歌和Univision。但是尼尔森“太小,无法在足够高的层次上进行这种大数据匹配,在这种层次上,你可以看到真正发生了什么事情。”(尼尔森没有回复采访请求。)

在发布会上,掌阅董事长成湘均还向与会人士展示了iReader Smart的一键上传掌阅云端功能。成湘均指出,通过这个功能,可以导出到有道云笔记和印象笔记,永久保存自己的笔记,还生成二维码、网址发送给朋友,更是方便了远程办公的商务人士。

NLP的发展历史非常之久,计算机发明之后,就有以机器翻译为开端做早期的NLP尝试,但早期做得不是很成功。直到上个世纪八十年代,大部分自然语言处理系统还是基于人工规则的方式,使用规则引擎或者规则系统来做问答、翻译等功能。

这些数据将会变得更大。得益于智能电视,研究公司IHS Markit估计数字连接的电视机将占今年出货量的70 %,广告商和电视网络正在迅速获得新的见解,了解谁在看什么节目和广告多长时间,以及他们以后是否会购买。营销人员已经掌握了消费者数据,如超市会员卡记录、手机位置数据、个性简介或广告商自己数据库中保存的任何其他信息。现在,公司也可以获得关于你的电视的数据,因为许多智能电视和安装在它们上面的应用程序,通常通过提供节目推荐等功能的服务,可以跟踪你观看的节目和你玩的视频游戏。

好的产品必然是经过千百次的试验、失败才能创造出来。成湘均表示,为了达到好的书写手感,掌阅经过一年的研发,消耗上千个面板加笔尖,才打造出最接近真实纸笔书写的效果。

第一次突破是上个世纪九十年代,有了统计机器学习的技术,并且建设了很多优质的语料库之后,统计模型使NLP技术有了较大的革新。接下来的发展基本还是基于这样传统的机器学习的技术,从2006年深度学习开始,包括现在图像上取得非常成功的进步之后,已经对NLP领域领域影响非常大。

“由于我们的应用程序存在于数百万家庭,我们有大量关于人们观看的数据,”旧金山初创企业Samba TV的首席执行官阿什温·纳文(Ashwin Navin)说。Samba TV为许多流行的智能电视品牌制作应用程序。

同时,在iReader Smart的研发上,成湘均还表示,iReader Smart申请专利达46项,其中自主研发专利就有25项之多。

图片 3

更少,更有针对性的广告

而谈到研发iReader Smart的初衷,掌阅董事长成湘均表示,“帮助阅读的最好方式,是记录下自己的思考和理解”。他认为,“能更好地让喜欢看书的人好好的看书,让爱好写作的人安心写作,这就是我们的初衷,我们最想去做的、最正确的事。”

达观划分的NLP技术层次

隐私倡导者并不认为这是一件好事。立法者也表达了他们的担忧。上月,马萨诸塞州的民主党参议员爱德华·马基(Edward Markey)和康涅狄格州的理查德·布卢门塔尔(Richard Blumenthal)敦促联邦贸易委员会(Federal Trade Commission)调查智能电视隐私方面的问题,此前《纽约时报》和其他媒体报道了Samba和智能电视产业。

此外,运营商世界网了解到,iReader Smart已经在天猫、京东和掌阅APP上架,运营商世界网认为,或许销量就是检验此次发布会成功与否的重要标准,究竟能否获得受众喜爱,我们拭目以待。

当年上小学时有一本书叫《字词句篇与达标训练》,里面讲了字、词、句、篇,我们开始学写字,词是最基础的一级,中文的一个字比英文的一个字母的语义要丰富的多,但表义能力仍然较差。所以中文一般的处理情况都是按照词级别,词级别的分析就有了中文分词、有了命名实体识别这样的层次来做底层处理。

“消费者观看的内容是私人的,不应该认为消费者希望公司跟踪和使用关于他们观看习惯的信息,”他们写道。参议员们呼吁公司“全面而简洁地详细说明”谁可以访问这些数据,如何使用这些数据,以及将采取哪些措施来保护这些数据。

运营商世界网(官方微信公众号tel_world)—— TMT行业知名新锐媒体,一家专注通信、互联网、家电、手机、数码的原创资讯网站。返回搜狐,查看更多

在这个底层处理之上是段落级别,是一句话、一段话、短的文本,对这个级别文本做法又对应了相关的技术,包括:依存文法分析、词位置分析、语义归一化、文本纠错等等功能。但是这个功能也是为它更上级的服务去服务的,达观称之为“篇章”级的应用。

通常,电视和应用程序制造商说,除非你选择分享数据,否则他们不会收集你的数据,他们分享的数据不会链接到任何个人身份信息,而是链接到一个标识符,该标识符可以链接到大量关于你的其他数据。在任何情况下,Navin和其他电视技术人员通常都喜欢强调你所得到的所有东西,以换取你的观看数据。例如,Samba的软件可以根据你已经看过的内容推荐节目供你观看。纳文说,这是一项有价值的服务,当时一项普通的行业统计数据显示,美国人一生中大约有1.3年的时间在换频道。

责任编辑:

大部分同学平时做比赛、做项目关注的点最多是在“篇章”级的应用,底下这些中文分词等都已经有很好的工具了,不用再从头到尾去开发,只要关心上层的应用,把底下的工具用好,让它产生需要的Feature,来做分类、主题模型、文章建模,这种比较高层次的应用。

智能电视行业的人们还说,更多的数据驱动广告可以帮助那些传统收视率难以评估的细分节目,从特别感兴趣的节目到非英语广播:更好的指标和有价值的定向广告可以帮助他们保持活跃。“你可能会认为这有助于培养特定类型观众的小型节目,从这些观众身上以前可能很难赚钱,”克拉克说。

所以,要做好NLP,包括我们公司在内,这三个级别的技术都是自己掌握的。但是如果个人学习使用是有权衡的。某个同学的某一个技术特别好也是OK的,因为现在开源工具,甚至商用工具有很好的效果。如果不要求精度特别高或者有特殊的要求,用这些工具一般是可以达到你的要求。

收集数据的电视也可能意味着更少的广告时间,因为广播公司可以对产生更多数据的更有效的广告收取额外费用。更好的定位也可能意味着广告与观众的相关性更强,重复广告的数量更少。如果有线电视公司和数字电视服务继续推出广告客户向特定观众播放特定商业广告的方式,这一点尤其正确,业界称之为可寻址电视。然后,观看同一节目的两个人可能会看到不同的广告,就像他们会在同一网站上看到不同的广告一样。

每个层次的技术都是完全不同的,而且层次间的技术是有联系,一般的联系是底层是为上层服务。

芝加哥广告数据公司4C Insights的首席执行官兰斯·纽豪斯(Lance Neuhauser)说,业内人士甚至提出了动态产品投放的想法。“你可能会看到咖啡杯看起来像Dunkin’ Donuts,我可能会看到咖啡杯看起来像星巴克,”他说。当然,这正是许多消费者可能会讨厌的事情:面对几十年的观看电视体验,当你在朋友家看电视节目时,它有不同的内容,而不是你自己的苍蝇。

达观数据就是应用这些技术为企业提供文档智能审阅、个性化推荐、垂直搜索等文本挖掘服务。

这不是电视的作用

二、为什么要用深度学习?

对于广告商和营销人员来说,“互联网电视”数据的力量部分来自于与其他数据相连接的能力,比如网络历史或线下购买。 Data Plus Math公司是一家位于波士顿的电视分析公司,它提供了一小段代码,即所谓的“pixel”,市场营销人员可以下载到他们的网站上,以帮助追踪顾客什么时候来访并进行交易;Data Plus Math公司可以将这些在线行为与从智能电视和其他来源获取的数据联系起来ーー就像电视和电脑共享的 IP 地址ーー以确定某个广告的有效性。

深度学习的发展与应用要有一定的基础,上个世纪末互联网时代到来已经有大量的数据电子化,我们有海量的文章真是太多了。有这样的数据之后就要去算它,需要算法进步。以前这个数据量规模没法算,或者数据量太大算起来太慢。就算有更好的算法还是算得很慢时,就需要芯片的技术,尤其我们现在用并行计算GPU,这个加速对各种各样的算法尤其深度学习的算法影响速度非常大。

图片 4

所以一定要有这三个基础——数据、算法、芯片,在这三个核心基础上面做更高级的应用,涉及人的感官——听觉、视觉、语言这三个感官,语音的识别、计算机的视觉、自然语言的处理。

据 eMarketer 称,美国定向电视广告支出正在迅速增长,但在可预见的未来仍将占总支出的一小部分。

1. 深度学习与机器学习

该公司的联合创始人兼首席执行官约翰·霍克特(John Hoctor)说:“在最高层面上,什么让我真正兴奋,什么让我们的客户真正兴奋,这真的显示了电视的作用——就这么简单。”

很多同学会把深度学习和机器学习划等号,实际上它们不是等号。AI的概念非常大,比如:我们用的Knowledge Base知识数据库也是一种AI,它可能没有那么智能。机器学习是AI其中的一小块,而深度学习用又是机器学习中的一小块,我们常见的CNN、RNN都属于深度学习的范畴。

传统的测量公司也一头扎进了电视分析领域。尼尔森及其子公司Gracenote在4月份表示,其自动内容识别软件安装在包括LG在内的8个全球电子品牌的4000多万台智能电视上,该软件可以监控电视上的所有内容,包括通过HDMI电缆传输的任何视频和图像。

同时,也做Logistics Regression知识图谱,因为知识图谱是NLP中一个很重要的应用,无论是生成知识图谱,还是用它做像问答等其他应用都是会用到的。

数据也可能变得相当令人毛骨悚然:2016年,分析巨头ComScore与前特朗普竞选承包商Cambridge Analytica公司合作,将声名狼藉的数据公司的“行为心理学”数据与来自52000个家庭的电视收视数据合并。(两家公司的代表拒绝就合作细节置评。)

我们为什么要用深度学习?

Facebook甚至为电视探索了更好的衡量标准。该公司的两项专利描述了一种能够“倾听”了解手机用户正在观看的电视节目和广告的技术,尽管该公司表示没有部署这些工具的计划。

可以比较一下经典机器学习和深度学习间的差异。

虽然先进和可寻址的电视广告今年吸引了近67亿美元的支出,是去年的两倍,但这仍然是整个电视广告的一小部分。但是这些数字在未来几年可能会激增。去年11月,美国联邦通信委员会(FCC)批准了一个名为ATSC 3.0或下一代电视的新电视广播标准,这将使甚至当地广播公司更容易将广告和其他内容瞄准消费者。预计电视制造商和广播公司今年将开始支持这一标准,尽管没有时间表来逐步淘汰传统广播。

图片 5

然而,尽管该机构的两位民主党委员对切换成本和隐私的担忧存在强烈异议,FCC 投票结果是3-2票,但这一举措还是推出了。FCC主席阿吉特·派(AjitPai)称批评者为“反对者”,称他们“顽固坚持过去”。

比如:做一个分类的问题,这两个分类问题唯一的区别就是特征工程的区别。我们用经典的机器学习算法是上面这条路,输入数据后大家就开始(包括打比赛也)做各种各样的特征工程。有了这样的特征,我们还要根据TF-IDF、互信息、信息增益等各种各样的方式去算特征值,或对特征进行过滤排序。传统机器学习或经典机器学习90%的时间,都会花在特征工程上。

这不太可能平息隐私问题。即使跟踪仅在用户选择加入时进行,隐私保护者说,许多人甚至不熟悉可以监控你观看的电视的想法,而且他们在设置设备时通常不会详细审查这些协议。(通常,你可以选择关闭智能电视的跟踪功能,并且仍然使用它,前提是你知道点击哪些设置。)

而Deep learning颠覆了这个过程,不需要做特征工程。需要各种各样的特征,比如:需要一些长时间依赖的特征,那可以用RNN、LSTM这些,让它有个序列的依赖;可以用局部的特征,用各种各样的N元语法模型,现在可以用CNN来提取局部的文本特征。

批评者警告说,那些经常成为骗子和可疑广告商的目标,他们认为老年人容易上当受骗,并且难以理解新技术,他们可能特别容易受到伤害。

深度学习节省的时间是做特征工程的时间,这也是非常看重深度学习的原因:

“老实说,我认为普通消费者不太清楚,”电子前沿基金会(Electronic Frontier Foundation)的技术政策主任杰里米·吉尔卢拉(Jeremy Gillula)说。“人们不习惯于认为他们的电视基本上是另一台电脑,或者像他们的手机一样,在那里收集数据,主要是因为在过去,电视并不是这样的。”

  • 特征工程做起来很累。
  • 很多实际场景是挖掘出一个好的特征或者对我们系统贡献很大的特征,往往比选择算法影响还大。用基本的特征,它的算法差距不会特别大,最多也就10个点,主要还是特征工程这块,而深度学习很好的解决了这个问题。

去年,联邦贸易委员会和新泽西州总检察长办公室与电视制造商Vizio达成和解,该公司同意支付220万美元,此前该机构称该公司“在电视上安装了软件,在消费者不知情或没有同意的情况下收集1100万台消费电视的收视数据”。当时,Vizio表示,它更新了向消费者披露的内容,并强调其自动内容识别工具没有将查看数据与个人可识别信息配对。Vizio总法律顾问Jerry Huang在一份声明中说,相反,它只测量“总体”数据,以创建衡量观众或行为的总结报告。Vizio没有回应《快公司》的采访请求。

有了深度学习之后,对文本挖掘就有了统一处理的框架,达观把它定义为五个过程:

许多电视和软件制造商表示,他们不分享与个人身份信息直接相关的观众数据。在其隐私政策中,Samba称其共享的数据包括“设备ID、广告ID、IP地址、电子邮件地址或其他标识符的散列/加密版本,或者假名ID”。为了将消费者数据与收视信息结合起来,Data Plus Math依赖于一家所谓的身份图供应商,该供应商可以为广告商和广告技术公司组合不同的信息集合,而不必在没有必要的地方透露个人信息。“我们从未接触过任何PII,”霍克特说。

图片 6

Vizio去年年底签署了一项协议,向Data Plus Math提供数据。该公司表示,在其隐私政策中,它不允许其“数据合作伙伴”试图识别个人观众,尽管他们可以确定与电视共享IP的设备是否访问了特定网站或物理位置,或者人口统计数据,包括与电视IP相关的“性别、年龄范围或收入范围”。

  1. 文本数据。
  2. 预处理,预处理很重要,大家在工作中拿到的数据都是经过清洗过程的,“达观杯”算法大赛的数据是我们帮大家清洗过的。比赛中做到的字、词都是各种各样的ID,是预处理的一部分。
  3. 有了预处理之后,我们可以选择各种各样的网络。
  4. 后处理,比如业务需要分类,分类最终的结果是通过不通过,这都是后处理的过程。
  5. 应用,应用的方向有文本分类、情感分析、中文分词、命名实体识别、机器翻译。

结语

几乎所有任务都可以拿Deep learning来做,它的适应性和它的广度非常好,例如:传统的机器学习做文本分类需要特定的算法,而这个算法不可能做命名实体识别的事情。

智能电视及其数据也很容易受到黑客的攻击,他们可能会想方设法利用智能电视进入网络,窃取带宽发起拒绝服务攻击,或者如果智能电视装有摄像头或麦克风,甚至将智能电视变成间谍设备。去年,维基解密发布了大量美国中情局文件,声称该机构可以将电视变成监控设备,即使它们看起来关闭了。(安全专家建议检查你的隐私权限,保持你的智能电视软件的更新,如果内置网络摄像头不在使用中,就对其进行物理覆盖。)

2. 通过Vector Representationns 进行低纬度连续空间的字词表示

尽管消费者可以说已经习惯于在网上冲浪时被跟踪,但其他媒体习惯通常被视为隐私。华盛顿市报纸报道了1987年最高法院提名人罗伯特·博克(Robert Bork)的视频租赁历史,部分是为了回应博克对宪法隐私权的质疑,国会通过了一项法律,即《视频隐私保护法》(Video Privacy Protection Act),保护未经授权披露这些记录。在乔治·布什(George W. Bush)政府时期,《爱国者法案》(Patriot Act)中允许执法人员查阅图书馆记录的条款受到了广泛的批评。

在深度学习在NLP领域火起来之前,最有代表性的一个研究,对每个人影响最大的工作就是Word2Vec,把一个字、一个词变成向量来表示,这是对我们影响非常大的工作。

尽管如此,电视和广告技术公司仍然乐观地认为,他们可以找到一种方法,在不违反隐私法规或不影响消费者的情况下,向广告商提供和网络一样的数据。他们说,一般来说,这意味着明确让消费者在充分了解潜在利弊的情况下,允许跟踪和瞄准目标。

这件事情的好处是什么?

“需要一点时间来确定消费者对分享哪些数据点感到满意,”4C的纽豪斯说。“我认为,如果不遵守基于许可的营销规则,你就会遇到问题。”

在之前我们以词为单位,一个词的表示方式几乎都是one hot。 one hot序列有一个致命的缺点,你不能计算相似度,所有人算出来都是“0”,都是一样的,距离也都是一样的,因此它不能很好的表示词之间的关系。

原文链接:

过去像威海市、潍坊市、枣庄市这三个城市对计算机来说是完全不一样的东西,而我们使用Word2Vec做这件事情有两个好处:

编译组出品。编辑:郝鹏程返回搜狐,查看更多

第一,这个词如果有1万维的话,1万维本来存储它就是一个非常稀疏的矩阵、而且很浪费,我们就可以把它变得更小,因为我们的Word2Vec里面一般的向量都在 512以内。

责任编辑:

本文由技术发布,转载请注明来源:深度学习,相当于家里多了一双