百度、斯坦福研究表明 语音输入比打字快3倍且准确率更高

 2016-08-25 14:52   中新网

  近日,百度、斯坦福大学和华盛顿大学共同完成了一项有关智能手机输入方式对比的研究,该研究利用百度深度语音识别技术Deep Speech 2与32名测试者进行“人机对战”。研究结果表明,智能手机利用语音输入的速度比键盘输入快3倍,且输入准确率更高。

  研究人员发现,相比于传统的键盘输入,语音输入方式在速度及准确率方面更具优势。利用语音输入英语和普通话的速度分别是传统输入方式的3.24倍和3.21倍。此外,通过加入纠错功能后,语音输入英语及普通话的准确率进一步提高,达到96.43%和92.35%,输入速度仍为传统方式的3倍和2.8倍。该研究将语音输入方式的评估细化到了字符级,充分展现了语音输入方式的优势,帮助技术研发者进一步优化语音输入的效果。除此之外,技术人员还研究了如何在详细数据分析和定向响应的基础上,进一步提高语音输入的效率和准确率。

  如今,用户输入的使用习惯正在由键盘到语音转变,研究发展有效的语音交互接口迫在眉睫。斯坦福大学计算机科学专业教授James Landay表示:“过去十年,语音识别技术被寄予厚望,但实际表现却不尽如人意。近两年,受益于大数据和深度学习技术的不断发展,语音识别技术突飞猛进,速度及准确性都有了长足进步。除了打字发邮件或短信外,我们还在将语音用于更多方面。比如语音启动和图形触控操作相结合的交互界面等。”

  此次参与研究的Deep Speech 2发挥出色,是百度布局语音技术的最好体现。2014年底,百度首席科学家吴恩达及其团队便发布了第一代深度语音识别系统Deep Speech,该系统使用了端对端的深度学习技术,主要专注于提高嘈杂环境下的英语语音识别的准确率。通过使用批处理技术将DNNs部署在GPUs上,Deep Speech的语音识别表现出了极高的训练效率。目前,该系统语音识别准确率达到97%,且支持超过26万亿次浮点运算,可在几天内完成深度语言的集中训练。2015年11月,Deep Speech2被美国权威杂志《麻省理工科技评论》列为2016年人类十大突破技术之一。

  除了强大的技术研发能力,百度还积极推进语音技术的普及。无论是Carlife、还是度秘,乃至应用到搜索、地图等领域的语音技术,都极大优化了产品体验并方便了人们生活。除此之外,百度还通过自身的语音技术开放平台,将技术能力免费开放,通过SDK、API等不同的接入方式供企业及开发者使用,进一步刺激语音识别技术的创新应用开发。其中,行业用户包括小米、联想、特斯拉、陌陌、康佳、SONY、惠普、海尔等。未来,随着语音技术的不断发展,语音接口会变得更为实用和有效,人们将更为便捷的与身边的设备进行自然的交流。