联想大数据团队取得Kaggle顶尖数据科学竞赛优异成绩

[摘要]近日,联想大数据团队在全球知名的Kaggle数据科学竞赛中,以优异的表现在 网站流量预测 (Web Traffic Time Series Forecasting)竞赛项目跻
近日,联想大数据团队在全球知名的Kaggle数据科学竞赛中,以优异的表现在“网站流量预测”(Web Traffic Time Series Forecasting)竞赛项目跻身前15名。该竞赛云集了全球数据科学领域的众多高手,获得这一突破性的成绩是对联想大数据技团队技术与实践能力的有力证明。

由Google赞助的Kaggle竞赛致力于推动数据科学与机器学习的前沿发展,是该领域所有专业人士的试炼厂,考验数据相关理论知识在实践中所需的各项能力。

此次联想大数据团队参与的“网站流量预测”竞赛项目重点,是预测多个时间序列未来价值的问题,这一直是该领域最具挑战性的问题之一。更具体地说,这个竞赛项目的目标是测试参与者所设计的最先进的方法,预测约145000维基百科文章的未来网络流量问题。

因此,联想大数据团队面对的最大挑战就是,网站数量和流量庞大,并且是关于不同主题、使用不同语言(中文、英文、德语、西班牙语、日语、法语)、又分为不同的浏览媒介(PC、手机等)和不同的浏览对象(人类、爬虫)。这些复杂的组合使得这些网站的浏览量有着非常不同的表现,极难通过单一的模型来刻画,而由于数量过多,分别建模又不可行;不仅如此,需要预测未来60天每天的流览量,时间距离远且单位小。

针对这一挑战,联想大数据团队积极备战近两个月时间,最终拿出的方案是准备多个不同的模型,在模型选取过程中加入一些自适应性,即根据不同模型在历史数据上的表现、数据的分布特征,时间距离让算法自行选择最优模型,并且这些模型有着不同的侧重点,比如有的更注意周期性,有的更注意近期的局部表现,将这些模型进行集成。

最终,这一思路和方案得到了认可,在该竞赛项目中获得第12名的好成绩,取得历史性突破。展望未来,这一技术突破有望运用于供应链管理(如产品销量预测等),或者其他的时间序列预测类场景,能够发挥重要的业务价值。

联想大数据获奖团队成员表示:“很高兴能够在这一国际数据赛事中取得好成绩,并得到业界的认可。大家以绝不服输的精神,把专注、严谨和精湛的专业素质在比赛过程中发挥出来。这次给我们的最大启发,就是更多地走到实践中,积累丰富的知识,灵活地运用到各种场景中,发挥真正的价值。”

请扫描二维码

关注联想大数据微信公众号

联想工业互联网平台官方网站:www.LeapAI.com




免责声明:

本站系本网编辑转载,会尽可能注明出处,但不排除无法注明来源的情况,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系, 来信: liujun@soft6.com 我们将在收到邮件后第一时间删除内容!

[声明]本站文章版权归原作者所有,内容为作者个人观点,不代表本网站的观点和对其真实性负责,本站拥有对此声明的最终解释权。