【人工智能】AI竞赛,到底有什么价值?

[摘要]2017年12月24日,CCF第五届 大数据与计算智能大赛(Big Data & Computing Intelligence Contest, BDCI) 在江苏常熟落下帷幕,获奖团队合
2017年12月24日,CCF第五届“大数据与计算智能大赛(Big Data & Computing Intelligence Contest, BDCI)”在江苏常熟落下帷幕,获奖团队合计分享了超过100万人民币的奖金。据悉,本届大赛历时90天,发布了12道大数据与计算智能赛题,共吸引参赛队伍6675支,参赛人数达14991人,比2016年增长40%。

 

对于这类竞赛目前还没有统一的叫法,有叫大数据竞赛的,有叫算法竞赛的,有叫AI竞赛的,其实质差不多,在此暂且统一称之为AI竞赛吧。乘着大数据和AI的东风,相应的比赛也获得了很高的关注度。另一方面,我接触了一些业内人士,对AI竞赛的价值还存在一些困惑乃至质疑:企业在AI方面的应用是有较高的门槛的,主要由学生构成的参赛群体是否具备足够的知识储备和解决问题的能力;AI竞赛到底能给企业和参赛团队提供什么样的价值?

 

带着这些问题,我深度参与了本届BDCI大赛,并采访了出题企业、赛事举办方和多支参赛团队,试图获得一些答案。在此,我将在本次大赛上获得的信息和一些思考分享给大家。

 

一群学生真的能解决问题吗?

 

这类AI竞赛主要是由学生和部分在职人员参与,要分析竞赛的价值,首先必须回答的问题就是这些参赛人员能力足够吗?这是最开始的逻辑,如果参赛选手的知识水平和能力距离真实的需求差距很大,那么竞赛的整个逻辑就讲不通,最终只能沦为一种形式。其实大家对于主要由学生构成的参赛团体能否具备足够的知识和能力来帮企业解决其业务问题是怀有疑问的,我对此也是持质疑的态度。为此,在这次AI竞赛中,我特地与多组参赛团队进行了交流,询问他们关于比赛的看法、遇到的困难,以及如何在众多对手中脱颖而出等问题。

 

我们来分析一下要较好的完成一个赛题,需要经过哪些关键环节,如果参赛者的能力水平已经足够支撑其完成这些环节,那么就基本具备参赛的能力要求。一般而言,参与一场AI竞赛主要的动作包括:

 

第一, 对赛题进行理解,尤其是大致了解企业提供的数据,包括数据特征变量、目标变量的分布,并分析变量之间的相关度,发现一些高相关或共线性的特征。

 

第二, 数据处理和清洗,数据特征值缺失的处理,如果数据中包含文本则需要进行数据清洗。

 

第三, 特征工程,包括特征变换和特征编码。针对一些长尾分布的特征,需要进行幂变换或者对数变换,使得模型能更好的优化。对于离散的类别特征,往往需要进行必要的特征转换/编码才能将其作为特征输入到模型中。

 

第四, 算法模型的选择、融合和验证,对于某类AI问题比如计算机视觉、语音识别、自然语言理解等,有大量开源算法模型,每个模型都有其优势和局限,要解决特定的问题往往需要多个算法模型进行融合,而不同算法模型的选择和融合对结果的影响很大,这也是一个解决方案的关键。当然,比较厉害的团队可以根据问题开发一些新的算法模型。

 

第五, 参数设置。选好了算法模型后,最重要的工作就是参数设置,不同的参数往往导致结果差异巨大,也是区分不同参赛团队实力的重要因素。

 

在上面的几个步奏中,前面两个步奏属于准备工作,关键的是后面三步。区分不同方案优劣的关键,是特征工程、算法模型的选择和融合、参数设置,这也是不同团队实力的主要体现。回到开始那个问题,要参加这样一个AI竞赛,或者说要用AI技术解决企业的业务问题,需要具备哪些知识和能力,学生群体具备这样的知识和能力吗?

 

大体上来看,一个合格的AI开发者需要具备的能力包括:计算机科学基础和编程能力,这需要学习一些计算机的基础课程并学习一些编程语言;数理基础,主要是概率论和数理统计,大学在本科一二年级时一般会开设相关的课程;数据处理、数据建模的基本能力,这个学习一些相关课程也能基本具备,关键的是培养对数据的敏感度和分析能力;一些通用算法的学习和理解,尤其是机器学习、深度学习方面的算法,大部分算法都可以通过开源渠道获得,入门门槛不高,学习的时间和本身天赋导致最终能力的差异;软件工程能力,要解决一个业务问题,需要具备一定的软件工程能力,这个门槛也不高,并且随着经验的积累能力也逐步提高。事实上,企业内部要用AI技术来解决其业务问题、开发新的应用程序,对开发人员也基本是这些要求,只是他们具有更多的业务知识并且技术更熟练而已。

 

通过与参赛团队与企业的沟通,改变了我对开发AI技术方案的看法。在我原来的认知中,觉得AI技术方案的开发是一个进入门槛很高的事情,即使不是某个大企业的技术大牛,也得是某个名校的博士。其实,AI开发这件事情,进入门槛并不是那么高,具备基本的编程能力、数据处理分析能力,并能应用机器学习算法,原则上就可以进行类似的开发。当然,进入门槛不高并不代表谁都可以做,更不代表谁都能做的好。

 

参赛者分布情况

 

根据这次CCF “大数据与计算智能大赛(Big Data & Computing Intelligence Contest, BDCI)”的参赛情况来看,除了近一半的学生外,还有34%是在职选手,以及12%的自由职业者。在选手采访中,我也接触到大量在职技术人员,包括科大讯飞、电信运营商等企业,甚至还有部分来自政府部门的技术人员。值得提出的是,从这次的参赛人员来看,其学历普遍较高,硕士占据一半以上,还有5%的博士,另外主要是本科,这类人群是基本具备了AI应用开发的知识和能力要求的。并且从学校来看,大部分参赛者都来自于985和211高校,代表了国内最高素质的参赛者。

 

另一个有意思的数据是参赛者的专业分布,根据主办方提供的数据,大部分的参赛者来自于计算机相关的专业,但是还是有大量的参赛者来自于其他专业,比如材料科学、电气工程、自动化工程、通信工程、数学、软件工程等,甚至还有部分来自于航天工程、测绘与地理、物理学、医学、人文与社会科学等与计算机科学不太相关的学科。广泛的专业分布其实是一个好现象,要解决真实的业务问题,就需要不同专业背景的人才来开阔思路,程序和算法只是工具,给予其意义的是业务和场景内涵。事实上,其他专业的参赛者同样具有很强的竞争力,在这次AI竞赛者就有诸多非计算机专业的选手获得了很好的成绩。

 

总体上来看,这类AI竞赛的参赛者,是基本具备技术开发的知识和能力储备的,虽然相比于大企业内的资深技术人员还略显稚嫩,但其创新能力更强,思路更开阔。从赛事举办方的统计情况来看,参赛者年龄主要集中在18~25岁,其次是26~30岁,这是最富有激情与创造意识的年纪,完全有可能在某些方面获得超越企业内部研发人员的表现。

 

不是“过家家”,而是真实AI应用场景解决方案

 

通过这次赛事,我获得的另一个感受就是,比赛不是“过家家”,大部分的赛题都有真实的业务内涵。多数企业都是带着问题来的,想借助优秀的方案解决自己的困惑,至少能得到一些解决问题的思路。

 

以蚂蚁金服出的赛题“商场中精确定位用户所在店铺”为例,目前手机端的定位主要是GPS,但是GPS定位偏差达到10米以上,并且室内的GPS定位能力不好,目前室内精准的用户定位还没有成熟的解决方案。但是,室内精准用户定位本身是具有很大应用价值的,基于此可以衍生出广泛的商业应用前景。比如当用户走入商场的某家餐厅时,手机会自动弹出该餐厅的优惠券;走入商场服装店时,手机可以自动推荐这家店里用户喜欢的衣服;路过商场一家珠宝店时,手机可以自动提示用户想买的一款钻戒已经有货了;离开商场停车场时,手机在用户的许可下可以自动交停车费总。总之,在正确的时间、正确的地点给用户最有效的服务,是各大互联网公司智能化拓展的新战场,而室内精准的用户位置定位则是关键。

 

把视角放大一点看, 应用场景已经成为AI企业商业落地的关键。中国软件网出版的《2018中国AI应用、平台与生态洞见报告》指出,AI市场已经从技术、资本时代,进入到应用时代,将AI技术与合适的应用场景匹配起来,是各个AI厂商接下来几年最重要的动作。

 

中国AI产业演进路线

中国软件网

《2018中国AI应用、平台与生态洞见报告》

 

应用场景千千万万,如何筛选好的算法模型来提升场景体验,不仅需要过硬的技术本领,也需要很强的创造意思。“头脑风暴”是产生创意的重要方式,举办一次AI竞赛,就是一次大规模的头脑风暴。相比于企业内部的工程师和业务人员而言,在校学生和或者来自于其他企业、机构的参赛者,更可能跳出原来的思维框架,找到更富有创意的解决方案。

 

相对于企业独立研发,AI竞赛是一种高性价比的互补方案

 

依据一定的技术基础和业务场景需求,企业大多通过独立组织相关人才与资源,进行技术研发并给出解决方案。AI竞赛给企业提供了另一种选择——将自身的问题、数据打包成赛题,通过竞赛来收集大量的解决方案,从中筛选合适的方案和团队。诚然,很多时候通过竞赛得到的答案并不能全部解决企业的业务需求,但收集的解决方案依然是有价值的,至少能给企业提供最终解决问题的思路。那么,AI竞赛作为一种替代方案,对企业而言其性价比如何?在此我们还是以蚂蚁金服为例进行分析,要获得室内精准定位方案,蚂蚁金服可以独立研发,即使采取腾讯的套路,多个团队分别研发进行竞赛,由于人才和资源的限制团队数量不会超过5个。另一方面,通过这次CCF“大数据与计算智能大赛(Big Data & Computing Intelligence Contest, BDCI)”,有1545支队伍为其提供解决方案,这在企业内部是不可想象的。

 

不同赛题的参赛选手和团队数量

 

在此,我们将这两种方式进行更具体的对比。

 

对比项

自主研发

AI竞赛

团队数量(个)

3~5

1545

人力投入

数十人

3个以内竞赛对接人员

时间

不定,一般不少于半年

3个月

其他资源

办公场地、电脑、服务器等

几乎不需要其他投入

资金投入

人员工资和办公支出,数百万

百万级

最终收益

可能获得较好的解决方案

可能获得较好的解决方案,思路更开阔,创新性更强,但解决方案的实用价值差一些,需要进一步加工。

除此之外,企业还能获得亟需的人才,并在业界树立品牌,扩大影响力。

 

从上面的对比可以看出,企业独立研发面临两个问题,团队有限导致思路容易受限制,资金和资源投入相对更大。与之相比,通过AI竞赛的方式,企业能以较低时间和资金成本,获得大量的解决方案。值得提出的是,这两种方式各有优劣,并且企业内部开发依然具有不可替代性。通过AI竞赛获得解决方案虽然打开了思路,但离成熟的业务解决方案还是有一定差距,这需要企业内部研发、业务人员进一步的开发与完善。这两类途径可以互补,企业依然以内部开发为主,将这类AI竞赛作为一个重要的补充,在开阔思路的同时,物色优秀的选手作为招募对象,同时也提升企业的品牌影响力。

 

据悉,通过这次的AI竞赛,蚂蚁金服资深技术专家,负责蚂蚁金服大数据平台的机器学习和人工智能相关工作的刘晓辉从参赛选手中就物色了几个好苗子,一些选手的赛题思路和实现方法大大超出了预期。

 

赛题、历练和友谊,是比奖金更有吸引力的东西

 

上面从企业角度,分析了AI竞赛的价值,下面我将从参赛选手角度,来看看这类竞赛的价值。为什么要参加竞赛,这是参赛者关心的问题,也是主办方需要回答的问题,因为这直接决定了AI竞赛对优秀人才的吸引力,而参赛者的质量直接决定了整个竞赛的质量。

 

在一般的认知中,吸引参赛者的因素首先是奖金,其次是进入理想企业的机会。通过与这次BDCI大赛选手的广泛交流,我对这个问题也有了一些全新的认识。其实,相比于奖金和职业机会,参赛者更关注赛题本身的质量、整个竞赛过程给自己的历练,以及收获的来自队友和对手的友谊。

 

对于AI竞赛,不只是企业和赛事举办方筛选参赛者,参赛者本身也会对赛事和赛题进行选择。对于一个AI竞赛,参赛者首先关注的就是赛题本身:这个赛题是不是有实际的业务价值,赛题难度如何,与自己的专业、研究领域或者目前工作是否相关,出题的企业背景如何,该赛题给出的数据质量如何等,这些是参赛者最关心的问题。那些互联网巨头发布的本身具有一定业务内涵且富有挑战、企业能给出大量高质量数据的赛题,往往更能获得参赛者的亲睐。

 

这里,我重点分析一下出题方给出的数据对于参赛者的价值。在AI领域,数据与算法是科学研究与产品技术研发的核心。高质量训练数据对机器学习模型的建立和优化有关键性的作用。大规模、高水准且具有真实场景内涵的标注数据集,是推动AI科研和技术前进的关键驱动力。对于有志于投身AI相关领域的人员,这些高质量的数据是珍贵的,尤其是在校学生,很难接触到这些来自真实商业世界的高质量数据。以语音识别为例,对于学校这类学术单位来说,最大的问题是没有足够的资源收集、清洗、标注大量的语料;而对小公司和创业团队来说,语料和计算力都是问题。

 

通过参加BDCI这类AI竞赛,出题企业会提供大量相关数据,供参赛选手分析使用。以室内商家精准定位赛题为例,蚂蚁金服提供在2017年8月份大概100家商场的详细数据,包括用户定位行为和商场内店铺等数据(已脱敏),参赛队伍可以对其进行数据挖掘和必要的机器学习训练。另外,蚂蚁金服还提供2017年9月份的商场内用户数据来做评测,检测参赛者的算法是否能准确的识别出当时用户所在的店铺。对于在校学生、科研人员以及其他企业的研发人员而言,这些数据是非常难得的。

 

在采访的参赛队伍中,大部分都是由学生或在职人员独立参赛、独立组队,有一个参赛团队比较独特,他们是由一个辅导老师带领团队,团队内部既有研究生也有本科生。其辅导老师认为,参与这类AI竞赛并不是对学生学业的耽搁,相反是一个很好的学习机会。他坦言,队伍中一些低年级学生还不具备独立参与这类竞赛的能力。但是,他认为不是因为有足够的能力才来参赛,而是通过参赛来快速培养相应的能力。

 

在此,我分别就学校学习和参加AI竞赛这两种方式对学生的历练价值做一比较:

 

比较项目

学校和科研院所

AI竞赛

数据资源

数据资源较少,数据陈旧,数据价值低

真实的业务数据,数据质量高,且经过前期的数据处理和清洗,数据标准化程度高

技术历练

学术化,侧重单一技术、算法模型的掌握

侧重应用,且是多种算法和技术的融合

导向

对过程负责,结果是论文

对结果负责,方案的优劣要经过实践的检验,输出的是实际的技术解决方案

辅助

个别导师的指导,同学间的讨论

多个专家的指导,队友和其他参赛选手之间的讨论与相互借鉴

 

除了上面说的那些因素外,还有很多参赛者(尤其是优秀参赛者)是抱着征服与体验的目的来参与比赛的。对于那些长期“混迹”于各类竞赛的“老司机”而言,凭借自身实力,打败乃至碾压数量众多的对手,攻克具有挑战性的难题,这本身就是很有吸引力的事情。

 

参加的比赛多了,参赛选手渐渐地也形成了一个圈子,他们很多人都相互了熟识。竞赛团队之间虽然经历着激烈的角逐,但是“打归打”感情却很好。很多团队在决赛答辩的时候,都表示了对队友和对手的感谢。一个有趣的现象是,在一个竞赛中是对手的几个人,在另一个比赛中却有可能组成一个团队进行亲密无间的合作,这次夺得蚂蚁金服赛题冠军的“演员”团队,就是原来的对手组成的。对于他们而言,能认识一些志同道合的小伙伴就已经是一笔很大的财富,毕竟千金易得知己难求。

 

无论结果如何,经历过、奋斗过,就已经是很好的一段人生体验了。根据主办方的统计,在这次提交的43384份结果中,有10841份都是在深夜(22:00~6:00)提交的,这可以看出大家的热情与付出。

 

 

创投孵化,AI竞赛的“星辰大海”

 

我曾在《创投孵化才是大数据竞赛平台最好的归宿》这篇文章中提到,大数据竞赛平台将会转向AI竞赛平台,并且创投孵化才是其未来最应该发展的商业模式。参加这次BDCI大赛,进一步印证了我的这一看法。在我的设想中,竞赛平台、企业、参赛团队、投资机构充分联动(有时候也需要一定的专家指导),共同孵化在竞赛中胜出且有商业前景的项目和团队。

 

目前来看,无论对于国外的Kaggle,还是这次AI竞赛的承办方DataFountain,以及阿里天池、DataCastle、科赛网等,创投孵化都是全新的商业模式。并且,目前国内的几家AI竞赛平台这方面的意识都还不强。DataFountain和阿里天池上面的竞赛业务和商业属性最强,但阿里平台大多是为了解决阿里的技术、业务和人才问题,本身进行创业项目孵化的意向不足,其他几家也没看到这方面的强有力作为。即使DataFountain承办的这次BDCI大赛,通过与各方的交流,都没有了解到较强的创业项目孵化的意向。

 

国内的AI竞赛平台,大多还处于单纯的赛事承办阶段,下一步大多想通过发展人才社区来推动培训和招聘业务,然后才考虑创投孵化,我觉得这三件事情本身是没有严格的阶段属性的,现在就应该发展创投孵化业务,只是要协调各方资源并设计好协作机制。

 

最近观察到一个有意思的现象,创新工场与搜狗、今日头携手发起了一场AI竞赛——“AI Challenger全球AI挑战赛”。作为一个投资机构发起这类赛事必然是从创投角度出发的,但是创新工厂发起这类赛事并独立运作后期的创业孵化,还是有些局限。合理的方式应该是某个独立的第三方AI竞赛平台发起竞赛,聚集多家企业和投资机构,共筛选并投资项目,这样中立性会更强一些。

 

以这次BDCI大赛上明略数据发布的赛题“让AI当法官”为例,在该赛题中,希望通过AI和大数据技术,系统通过阅读大量案件,自动提供判决建议。其实,大部分普通人都是有法律需求的,比如租房产生的纠纷、车辆碰撞纠纷、消费者维权纠纷等,在这些场景中聘请专业律师不划算,但依然需要一些法律方面的知识和建议。如果有一个APP,只需向其输入自身遇到的情况,就能自动分析用户目前面临的处境,给出法律建议,并推送一些类似的案例给用户提供参考,这类应用必然是有市场需求的。明略数据这个赛题如果再衍生一下,就有可能培养出这方面的创业项目和团队。

 

更进一步的,传统互联网和移动互联网领域本身已经有成熟的赛道,投资机构只需在所跟踪的赛道赛选择项目和团队就行;与之不同的是,AI领域无论技术还是应用都很新,赛道本身就不够成熟。在这样的情况下,由投资机构、企业和专家共同探讨得出一些具有潜力的应用领域,专门针对这些领域设计赛题,通过AI竞赛的方式获得好的解决方案和团队,并通过投资和业务培养的方式来孵化相应的创业项目,进而达到培育赛道的目的。对于投资机构而言,通过这样的方式可以降低其总体投资成本,并与企业、AI竞赛平台共同分担风险,后期参与AI赛事的企业也是理想的项目收购方,这有利于投资机构退出机制的安排。

 

对于参赛者而言,能投身于创新创业事业,是比参加竞赛更有价值的事情。毕竟,赢得市场肯定比应赢得一场比赛更令人兴奋。

 

技术与商业的结合,推动AI产业加速发展

 

一件事情要有较大的发展空间,必然是要推动整个产业的发展的。那么,AI竞赛在推动中国AI产业方面可以有哪些作为呢?

 

据《乌镇指数:全球人工智能发展报告》,在全球人工智能专利数量方面,中国以15745个紧跟在美国26891个之后位列第二,日本以14604个排名第三,并且这三国占总体专利的73.85%。另有数据显示,世界上43%的人工智能论文都是中国人写的。根据美国白宫此前发布的《国家人工智能研究与发展策略规划》来看,从2013年到2015年,SCI收录的论文中,“深度学习”或“深度神经网络”的文章中,按照文章数量计算,中国已经超越美国成为世界第一。正如中国软件网《2018中国AI应用、平台与生态洞见报告》指出的那样,AI市场已经由技术、资本时代进化到应用时代,AI应用的发展成为推动整个产业的关键。在这样的情况下,充分调动我国在AI领域的人才优势,以AI竞赛的方式推动产学研的联动,对于推动AI应用创新具有重要意义。

 

基于真实的商业应用场景来组织相关的AI竞赛,可以在如基于地理位置的应用、网站和移动分析、精准营销、VR和AR应用、区块链应用、智能硬件应用、物联网应用等广泛地领域提供支持。以这次BDCI大赛为例,本次大赛搜集了来自蚂蚁金服、360搜索、国双科技、明略数据、方一信息、佳格数据、零点有数、量子数聚、法海风控、泰一指尚等10家企业提供的12道产业一线赛题,涉及图像识别、卫星影像识别、文本挖掘、自然语言处理、情感分析、网络舆情分析、模式识别等大数据与人工智能技术领域。这类赛事的举办,对于推动AI领域的应用创新无疑具有积极的作用。

 

值得提出的是,国内的AI竞赛虽然尚存数据质量不足、赛后项目孵化关注不够等问题,但是场景非常丰富,一些优势的平台正在通过优质的业务服务来补足。我相信随着赛事承办方的进一步完善,未来这些问题能够得到解决。期望国内更多高水准AI竞赛的出现,对中国的AI人才培养、创新创业推动和产业进步作出新的贡献。
 




免责声明:

本站系本网编辑转载,会尽可能注明出处,但不排除无法注明来源的情况,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系, 来信: liujun@soft6.com 我们将在收到邮件后第一时间删除内容!

[声明]本站文章版权归原作者所有,内容为作者个人观点,不代表本网站的观点和对其真实性负责,本站拥有对此声明的最终解释权。