阿里人工智能技术重大突破:连破中、英文语言处理两项世界纪录

[摘要]阿里巴巴披露了自然语言处理技术取得的两项新成绩:在全球顶级的知识库构建测评KBP2017中,斩获英文实体发现测评全球冠军;在中文语法错误自动诊断大赛(Chinese Grammatical Error Diagnosis,以下简称 CGED)三个level中全面夺得冠军,核心指标比其他参赛机构高出一倍。
日前,阿里巴巴披露了自然语言处理技术取得的两项新成绩:在全球顶级的知识库构建测评KBP2017中,斩获英文实体发现测评全球冠军;在中文语法错误自动诊断大赛(Chinese Grammatical Error Diagnosis,以下简称 CGED)三个level中全面夺得冠军,核心指标比其他参赛机构高出一倍。

上述两项成绩均来自司罗领导的iDST自然语言处理团队。司罗现任iDST自然语言处理首席科学家,曾为美国普渡大学计算机系终身教授。这支团队支持了阿里巴巴内部的大量自然语言处理工作以及在阿里云上的输出。

两场比赛中,KBP是由NIST(National Institute of Standards and Technology,美国国家标准与技术研究院)指导、美国国防部协办的赛事,主要任务为从自然书写的非结构化文本中抽取实体,以及实体之间的关系。这次测评吸引了全球20多支顶尖团队参与,包括IBM Research, BBN, Stanford Univ, CMU Univ, UIUC Univ, Columbia Univ, 腾讯等。

测评要求AI算法在“读完”一篇英文文章后,构建一个物理世界的命名实体和实体之间关系的知识库,如“克林顿和希拉里之间是夫妻关系”、“克林顿毕业于耶鲁法学院”这样一个个实体的关系。

另一场比赛,中文语法错误自动诊断大赛(Chinese Grammatical Error Diagnosis,以下简称 CGED)由IJCNLP联办,今年已是第四届。比赛的背景是:学习中文的外国人数不断增加,由于中文的博大精深,外国友人在中文写作中会出现语法错误。主办方挑选了一些外国友人写的中文作文片段,希望参赛者用人工智能算法自动识别里面的语法语义错误。

因为语法纠错任务涉及到很多自然语言的基础技术,如分词、句法分析、词法分析、依存关系以及语义分析等,是对研究机构综合技术实力的全面考验。

参与比赛的技术均来自阿里巴巴实际业务中。在阿里巴巴内部,自然语言处理技术已经被广泛应用,每天有多达600亿次的请求。比如,司法拍卖中AI能够根据拍卖文档抽取出汽车品牌、型号、注册日期、房产地址、小区等信息,不再需要人工填写。AI还能够读取商品说明书后,解答顾客的一些提问。

司罗表示:“很荣幸能够同全球的同行分享阿里巴巴的研究成果,人工智能在对于自然语言的理解还处在起步阶段,要实现真正的语义理解还需要5-10 年的跨越。我们正在积极和同行业顶尖机构学习交流,推动行业发展”。

司罗认为,自然语言处理是实现强人工智能的非常重要的一环,而且重要性会越来越显现。感知层面的事情越来越成熟了,认知层面也得跟上了。虽然有很大的鸿沟摆在面前,但这是必须要跨越的。“因为NLP 技术是达到强人工智能的路上必须攻克的关键节点”。




版权声明:

凡本网注明”来源:中国软件网(http://www.soft6.com)”的所有作品,版权均属于中国软件网或昆仑海比(北京)信息技术有限公司,未经本网书面授权,不得转载、摘编或以其它方式使用上述作品。

任何行业、传播媒体转载、摘编中国软件网(http://www.soft6.com)刊登、发布的产品信息及新闻文章,必须按有关规定向本网站载明的相应著作权人支付报酬并在其网站上注明真实作者和真实出处,且转载、摘编不得超过本网站刊登、转载该信息的范围;未经本网站的明确书面许可,任何人不得复制或在非本网站所属的服务器上做镜像。

本网书面授权使用作品的,应在授权范围内使用,并按双方协议注明作品来源。违反上述声明者,昆仑海比(北京)信息技术有限公司将追究其相关法律责任。