余凯称,百度多媒体部定位于“绘声绘色 亦框亦云”,主要从事语音、视觉等多媒体技术的研发,并将这些技术与百度其他的产品线整合。
据了解,百度多媒体部由百度基础技术领域首席科学家王海峰领导,知名人工智能专家余凯等数十人组成,其中半数以上拥有博士学历。虽然与Google Now 70多人的研发团队相比,规模尚小,但余凯称,百度多媒体部将继续在全球范围内吸引人才,扩大规模。
同时,余凯还首度对外展示了该团队在语音、图像等多媒体技术的最新技术成果。其中,语音团队已经掌握高精准语言模型、高精准声学模型、海量模型高速解码等核心技术。
目前,多项语音技术已经实现了产品端应用,百度4月份上线的移动语音搜索客户端、6月份推出的百度语音输入法也都源自百度多媒体部的研发成果。
按照百度的规划,百度已计划逐步将多媒体技术通过API接口开放给第三方开发者。
8月中旬,百度CEO李彦宏在第18届ACM知识发现与数据挖掘学术年会上,提出“希望计算机学术界解决的九大难题”,其中前三大难题为OCR文字识别、语音识别、基于内容的图像搜索。
来源:互联网 转载于临企外贸网站制作新闻频道