在移动互联网时代,语音录入逐渐取代文字录入,成为和用户和智能手机交互的主要收入。谷歌(微博)、苹果、微软等科技巨头,也在语音助理工具上展开争夺。
日前,在语音技术上一直比较低调的中国搜索引擎百度公司,在美国发表了相关技术,自称其语音识别技术,在正确率上已经超过了谷歌、苹果等公司。不过百度的语音识别技术何时能够推出消费型产品,还不得而知。
去年五月份,百度邀请到人工智能专家吴恩达,担任百度首席科学家,吴恩达在美国硅谷建立了百度的研发机构,但是他们的研发内容,并未对外公开。此次发布的语音识别技术,也让人们有机会了解百度的人工智能研究现状。
百度共有十个人的语音识别研究小组(负责人为Awni Hannun)在美国康奈尔大学图书馆的网站arXiv.org上,发表了一篇有关语音识别研究的论文,百度自称取得了重大进展。
吴恩达称,按照客观的衡量正确率的标准,百度的语音识别技术已经超过了谷歌和苹果的技术。
百度的语音识别技术研究项目,名为“Deep Speech”。据介绍,在噪音较大的背景下,百度语音识别技术的表现优于同业。
吴恩达介绍说,在噪音环境下,百度语音识别的表现,超过了谷歌语音识别API,微软的“必应语音”技术,以及苹果。在正确率上,百度能够高出十个百分点。
百度并未自称自擂,该公司也拿出了一些学者专家的评论作为“证据”。
美国卡耐基梅隆大学的研究人员Lan Lane表示,百度在语音识别上进行的研究,将会给未来的语音识别带来重大突破。
据美国福布斯网站的报道,百度的语音识别技术,采用了人工智能的一个分支技术——深度学习。相关的软件和系统,试图模仿人类大脑识别语音的方式。
据悉,在研究中,百度一共采集了9600人的长度达7000小时的语音。
对于智能手机用户而言,他们最关注的是百度自称的先进技术,何时能够转化成为最终的手机应用软件。
目前在全球智能手机市场,谷歌、微软以及苹果在语音识别产品的开发和成熟度上,占据优势。其中,苹果Siri知名度最高,随后谷歌也逐步推出了GoogleNow工具,微软紧随其后,也推出了名为Cortana的语音助理工具。
就在几天前,微软还针对安卓系统,推出了名为Torque的语音助理工具,在安卓上微软并未沿用WP操作系统上的Cortana。
由于智能手机屏幕较小,文字录入不便,越来越多的用户使用语音识别进行文字输入,各种语音助理工具也让“声音”成为一种上网检索信息的手段。
在中国国内,讯飞公司在语音识别技术上占有优势地位,该公司已经推出了成熟的语音输入法等产品。
百度目前在国内推出的手机输入法中,也已经支持了语音识别录入,但是这一技术来自何方,是否和百度在硅谷的人工智能研究有关,目前还不得而知。
据悉,百度的硅谷研究中心位于雅虎公司所在的桑尼维尔市,百度研发团队的另外一块牌子是“硅谷人工智能实验室”。在深度学习研究上,百度公司在中国北京还设立了一个“北京深度学习实验室”。
据悉,百度的深度学习研究,起步于2003年,当年公司成立了“百度深度学习研究院”,涉及到图像识别、图像搜索、语音识别、自然语言处理、智能语义、机器翻译和精准广告等领域。