外贸网站建设|外贸网站制作|多语种(言)网站建设|小语种网站建设

外贸网站建设

抢座热线： 0571-8583 3276 / 3274

借助神经网络技术谷歌的语音识别想超过人类

2014-12-25 09:27:00

谷歌语音识别Google Now

　　与数字助理交流是一件有趣的事情，它给人的感觉就像固执的孩童。如果你曾经对着Xbox或Siri大喊大叫，你或许已经失去希望。

　　但研究人员表示，语音识别和人工智能领域最近取得的突破，很快就能大幅提升这些电子产品的理解力，使之更好地与我们展开沟通。谷歌工程师约翰·沙尔克维克(Johan Schalkwyk)表示，这种全新的设备不仅能听懂我们的意思，还能结合上下文和语调的细微差别理解深层含义。

　　沙尔克维克正在谷歌从事一项野心勃勃的研究项目，希望创造一套能够利用该公司海量数据的语音系统。他表示，他们目前正在实验室里测试的一个项目，使得电脑可以听懂并“思考”人们的语言。

　　最近在语音识别和机器学习领域的各种发明，将给语音识别带来巨大变化。Siri的一位主要发明人表示，工程师都在狂热地开发语音识别技术，使之具备足够的智能，与用户展开真正的对话。“语音识别的所有领域都已经实现了很大进步。”Siri底层技术开发公司SRI International副总裁威廉·马克(William Mark)说，“这种对话互动目前已经成为前沿技术。”

　　蒂姆·图塔尔(Tim Tuttle)等待这一天已经很久了。他1997年获得了麻省理工学院的博士学位，并任职于该校的人工智能实验室。10年来，他先后在硅谷多家公司任职，最终于2010年创办了自己的Except Labs公司。图塔尔的公司去年开始设计一套系统，向移动应用中增加复杂的语音指令。例如，当用户走进超市时，可以通过这项功能获知他要买的扫帚位于哪条走廊。

　　“一年前，我们在做基准，我们当时认为这不可能实现。但一切都变了。我们的公司已经对语音加倍下注，主要是因为近期所看到的各种技术进步。”图塔尔说，“与人类水平相当或高于人类水平的语音识别系统将实现商业化。”

　　但首先，还是先来回顾一下历史：两年半以前，谷歌和多伦多大学的研究人员发表了一篇颇有影响力的论文，内容是用“深度神经网络”来指导计算机语音技术。几个月后，微软与IBM也合作发表了另外一篇论文，被谷歌工程师杰夫·迪恩(Jeff Dean)称作“语音研究领域20年来的最大进步”。

　　这些研究使得一项数十年前诞生的数字神经网络发明再度复活。这项技术1980年代就在大数据预测和分析领域实现了不俗的表现，但当时却受到计算机速度的制约。神经网络直到最近才变成可行的方案，这主要得益于计算机处理速度的加快，以及新型软件模式的发展。

　　谷歌实验室也开展了类似的研究。6个月前，该团队从这种名为“前馈神经网络”的古老方法入手，推动了神经网络技术的复活。这项技术使得系统可以储存更多信息，并处理更长、更复杂的序列。谷歌这项突破源自对底层代码的简化，可以在同一套系统中保留更多观点和观念，从而让用户更容易问出复杂的问题，获得有意义的答案。“系统复杂性可能对长期发展构成伤害。”沙尔克维克说。

　　谷歌的系统目前使用上下文、物理位置和其他因素进行假设，以此判断语音的真正含义——整个过程与人类大脑的思维模式相仿。谷歌的最新网络技术可以提升这一过程的效率，从而处理比以往更大的数据量，回答更复杂的问题。

　　为了解释语音识别技术在未来的工作方式，沙尔克维克提到了谷歌山景城总部几公里之外的一间高级越南餐厅。这家名为Xanh Restaurant的餐厅对典型的语音识别构成了挑战，因为Xanh这个名字(发音为“扎恩”)很难识别。“如果我能找到它在地图上的位置，然后说，‘这是一家餐馆，它位于加州。’那么范围就会立刻缩小。”沙尔克维克说，“借助语义技术，我们便可大幅改善质量。”

　　这听起来似乎很简单，但对电脑来说，听到一个单词，然后把它放到句子上下文中去辨识，再与地理信息相结合，是十分困难而且耗费时间的。如今，谷歌语音搜索已经可以正确识别餐馆。沙尔克维克表示，谷歌今后将可以处理其他一些同样野心勃勃的问题。

　　沙尔克维克表示，在谷歌内部，语音识别技术已经实现了空前的进步。虽然谷歌的重大进步还要再等一两年才能应用到用户的手机中，但这个项目已经催生了很多可以应用于谷歌其他项目的技术。“开发登月项目的同时，还会同时设计出另外一百项有用的技术。”沙尔克维克说。

　　沙尔克维克表示，谷歌语音识别技术3年前只能认出3/4的口语单词。但得益于创新速度的加快，谷歌手机应用现在可以正确识别12/13的单词。据图塔尔介绍，要不了多久，“我们就将生活在一个没有键盘的世界里。”

更多

看过此文章的网友还看过

Google Chrome 39.0.2171.71 正式发布14-11-26: 今天，谷歌浏览器 Chrome迎来39.0 正式稳定版更新，具体版本更新至：39.0.2171.71，该版本原生支持Mac 64位、一系列全新的扩展应用程序以及扩展API、此外该版还带来了大量内核稳定性和性能优化。

Google Chrome将从明年1月默认屏蔽所有NPAPI插件14-11-26: Google官方博客宣布Chrome浏览器将从明年1月起默认屏蔽所有NPAPI插件，明年4月关闭对NPAPI插件的支持，2015年9月完全移除支持。Google是在今年9月宣布Chrome/Blink浏览器将逐步停止支持通用的跨平台插件架构Netscape Plugin API（NPAPI），理由是有助于改进浏览器的稳定性、安全性和速度，减少代码库的复杂性。

百度首席科学家吴恩达谈百度人工智能项目进展情况14-11-25: 吴恩达（Andrew Ng）是人工智能领域的大牛之一。他是Google人工智能部门的其中一位创始人，是2012年Google通过自主学习识别猫图像的深度学习神经网络”DistBelief“的研发团队成员。他还是在线免费学习网站 Coursera 的联合创始人。6个月前，百度在硅谷设立人工智能中心，聘请了吴恩达（Andrew Ng）担任负责人。近日吴恩达接受了华尔街日报的采访，谈到了百度的一些人工智能研究项目的进展情况。

谷歌推出屏蔽广告服务：是自残还是新战略？14-11-24: 今天一则三四百字的短消息，让许多人吃一惊。央广网北京11月23日消息，谷歌近期推出了一项名为“捐助者”屏蔽广告的服务，只要用户每个月花一美元到三美元，就可浏览无广告内容。这在业内看来，谷歌此举无疑是自杀，要知道谷歌每年五百多亿美元的营收，其中百分之八九十来自于谷歌广告业务。如果每个谷歌用户都使用“捐助者”服务？谷歌盈利神话还会存在吗？

Twitter升级搜索功能：支持搜索任何历史推文14-11-21: 据国外媒体报道，Twitter即将可以让用户搜寻过去8年其平台上发送的5000亿条推文中的任何一条。相比之前的检索功能，这可以说是一大升级。

雅虎取代谷歌成美国版火狐浏览器默认搜索引擎14-11-20: 北京时间11月20日早间消息，雅虎已经取代谷歌，成为火狐浏览器在美国的默认搜索引擎。雅虎CEO玛丽莎·梅耶尔(Marissa Mayer)正在寻求更多的合作，以提升雅虎的流量和营收。

Google图像字幕技术：自动描述照片内容14-11-19: Google在图像搜索领域又进了一步。据外媒报道，Google已经公布了一个新的字幕系统，它可以识别照片上的内容，并自动对它以自然语言进行描述并标记。

Gmail和Inbox 八卦一下为啥谷歌要有两个邮箱 14-11-17: 11月17日，据科技博客网站TechCrunch报道，2年前——也就是谷歌的Gmail团队决定着手开发一款独立的电子邮件应用(就是最近公布的Inbox)前后，谷歌对Gmail进行了一次重大改版。与谷歌的所有产品一样，改版后的Gmail首先在公司内部让员工试用。

外贸网站建设|外贸网站制作|多语种(言)网站建设|小语种网站建设