阿里云语音技术再获重大进展:识别速度提升3倍

[摘要]12月12日,阿里云智能语音技术总监鄢志杰在开发者社区中透露,团队在语音识别声学模型研究上再获重大进展。通过改进的LC-BLSTM模型,使其规模庞大的线上语音识别服务的解码速度提升了3倍,并同时获得了更高的精度。

12月12日,阿里云智能语音技术总监鄢志杰在开发者社区中透露,团队在语音识别声学模型研究上再获重大进展。通过改进的LC-BLSTM模型,使其规模庞大的线上语音识别服务的解码速度提升了3倍,并同时获得了更高的精度。

LC-BLSTM算法是深度学习中的一种,一般的深度学习算法只能看到上下文的一点点,BLSTM理论上可以看到无穷远的上下文,所以可以更好的理解人类的语言。

但传统的BLSTM在语音识别任务上,会带来很大的解码延迟,只能用于离线语音识别,无法用于在线实时解码。而阿里云此前上线的LC-BLSTM则很好的解决了延迟问题,也是该算法在工业界的全球首次落地。

阿里云又是如何将解码速度再次提升3倍的?鄢志杰并未透露更多细节。

对于行业内的识别率之争,鄢志杰泼了一盆冷水:夸张的准确率只可能在非常受限的场景下获得。如果在一个热烈讨论的会议室,掏出手机做会议记录,别说97%,断断续续勉强看懂就不错了。

“在众多真正有意义的场景下,语音识别的准确率远没有新闻标题上宣传的那么高,脱离现实场景去谈准确率统统都是耍流氓。”鄢志杰说,我认为语音行业的“圈内人”应该更严肃的去思考,我们在学术研究上到底在哪些方面取得了实质性的进展,在工业应用上到底在哪些方面实实在在的帮助到大众。

上个月,搜狗、百度、科大讯飞分别召开发布会,公布了自己在语音识别技术方面的成绩,三家都对外界称,自己的语音识别系统“准确率达到97%”。

鄢志杰在阿里云研究领域主要包括语音识别、语音合成、说话人识别验证、OCR/ 手写识别、机器学习算法等。长期担任语音领域顶级学术会议及期刊的专家评审,并拥有多项美国及PCT专利,目前是 IEEE senior member。




版权声明:

凡本网注明”来源:中国软件网(http://www.soft6.com)”的所有作品,版权均属于中国软件网或昆仑海比(北京)信息技术有限公司,未经本网书面授权,不得转载、摘编或以其它方式使用上述作品。

任何行业、传播媒体转载、摘编中国软件网(http://www.soft6.com)刊登、发布的产品信息及新闻文章,必须按有关规定向本网站载明的相应著作权人支付报酬并在其网站上注明真实作者和真实出处,且转载、摘编不得超过本网站刊登、转载该信息的范围;未经本网站的明确书面许可,任何人不得复制或在非本网站所属的服务器上做镜像。

本网书面授权使用作品的,应在授权范围内使用,并按双方协议注明作品来源。违反上述声明者,昆仑海比(北京)信息技术有限公司将追究其相关法律责任。