“达观杯”文本智能处理挑战赛完美落幕

[摘要]9月17日, 达观杯 文本智能处理挑战赛颁奖盛典在上海正式举行。本次比赛历时74天,由达观数据主办,Datacastle承办、机器之心和浦东软件园
9月17日,“达观杯”文本智能处理挑战赛颁奖盛典在上海正式举行。本次比赛历时74天,由达观数据主办,Datacastle承办、机器之心和浦东软件园协办,并得到了复旦大学、上海交通大学、东南大学的合作支持,以及 CIO 时代、中国中文信息学会、51CTO、CSDN 等行业和媒体合作伙伴的大力支持。

最终比赛角逐出的十强团队:TNT_000_、未提交参与排名、会说话的机器狗、随缘比赛、地表最强、CIKE-华腩鲤、NLPRookie、redhand、彳亍口巴、万里阳光号。颁奖当天十支获胜队伍带着各自在比赛中的技术实践心得前来现场,颁奖盛典也因此成为了精彩的技术交流盛宴。

本次算法比赛累计近3500人报名,3000队伍参赛,14127次提交,吸引了包括微软,腾讯,阿里巴巴、百度、京东、携程、小米、中国移动,以及著名金融巨头、运营商、军工行业等354个国内外知名企业的技术人员,以及来自斯坦福、北大、清华、复旦等国内外知名高校的学生。

达观数据创始人陈运文致辞分享

在颁奖典礼现场,达观数据创始人陈运文倾心分享了自己曾经参加各大国际算法比赛的经历:“创办达观数据之前,我曾和大家一样,喜欢写算法,打比赛,但在成立达观数据之后,我发现让算法在实际工业中发挥作用需要做更多的工作。想要灵活应用好在学校里学习的基础算法,需要更多的应用练习。这也是我们做达观杯的初衷,给更多算法爱好者提供真实的场景练习,让技术在真实的场景中发挥它最大的价值。探索技术在行业的应用场景是达观数据持续在做的事情。”

达观数据联合创始人张健分享

本次赛题任务为”建立模型通过长文本数据正文(article),预测文本对应的类别(class)”,本次算法大赛命题人达观数据联合创始人张健也在现场分享了命题的初衷。

自然语言处理一直是人工智能领域的重要话题,而人类语言的复杂性也给 NLP 布下了重重困难等待解决。长文本的智能解析就是颇具挑战性的任务,如何从纷繁多变、信息量庞杂的冗长文本中获取关键信息,一直是文本领域难题。随着深度学习的热潮来临,有许多新方法来到了 NLP 领域,给相关任务带来了更多优秀成果,也给大家带来了更多应用和想象的空间。比赛中达观数据提供了一批长文本数据和分类信息,张健表示,从比赛结果来看,选手们做了非常多的尝试与应用,取得了很好的效果。

十强分享,精彩连连

本次比赛的十强选手,现场分享了他们在比赛过程中的经历,如何对算法调参,如何突破效果瓶颈 ,每支团队分享结束后,观众席中举手提问的人络绎不绝,预计的演讲分享成为了算法交流的盛会。

优胜团队:万里阳光号、NLPRookie、彳亍口巴、redhand 代表分享

季军团队:CIKE-华腩鲤、随缘比赛、地表最强 代表演讲分享

季军团队CIKE-华腩鲤的成员谈星伟在分享最后总结了他们在比赛中对文本分类算法的发现:当使用了较好的词权重衡量方法时,传统的向量空间模型仍然有一定竞争力;基于LSTM的模型容易受噪声影响,在文本长度较长的情况下,适当使用数据增强能够提升效果; 模型之间的差异性越大,融合之后的结果就会越好,传统模型和深度学习模型融合之后能提高1个百分点; 融合模型较少的时候,直接使用等权重概率融合就会有很好的结果。

亚军团队:未提交参与排名、会说话的机器狗 代表分享

比赛冠军团队代表演讲分享

冠军团队TNT_000_的成员肖小粤在比赛分享了他们的“获胜秘诀”:

“在本赛题场景下,我们在网络结构上的创新与改进所带来的提升是显著的,这也是我们这次队伍能够排名第一的关键点之一。第二点是训练一个比较好的embedding不仅能够加快网络的训练,并且效果俱佳。这也是一些队伍的深度学习模型没有达到预期的关键原因之一。第三,传统模型对于融合的提升是巨大的。这与后期深度学习融合提供极大差异性,带来了很好的稳定效果。

颁奖盛典,荣耀时刻

本次比赛主办方达观数据也为各优秀的参赛选手准备了丰厚的奖金和直通面试机会。

冠军团队:TNT_000_

比赛有始终,技术交流无止境。

颁奖结束后,季军团队【随缘比赛】成员朱翔宇DOTA表示:

“虽然是最后10天才加入的,但是我收获很大,短短的一两周感受到了主办方的负责,最后一周关键时期出现的问题也在达观工作人员的帮助下解决了,很感谢。”

“达观杯”是达观数据发起的,专为技术和算法爱好者举办的线上算法比赛。至今已顺利筹办两届,吸引了4000多名选手参加。从第一届个性化推荐算法挑战赛到本次文本智能处理挑战赛,达观数据希望在技术与应用场景之间搭建互通的桥梁,让优秀的技术在解决实际问题中发挥最大价值。




免责声明:

本站系本网编辑转载,会尽可能注明出处,但不排除无法注明来源的情况,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系, 来信: liujun@soft6.com 我们将在收到邮件后第一时间删除内容!

[声明]本站文章版权归原作者所有,内容为作者个人观点,不代表本网站的观点和对其真实性负责,本站拥有对此声明的最终解释权。