万山数据鲁四海:政务大数据自助挖掘

[摘要]大数据应用有两个场景,AI与 BI。两者都是通对数据的感知、理解、挖掘,然后形成决策支持,最终反馈到“行动”中去;只不过AI对行动的“影响”是自动化的。不管是AI还是BI,都需要大数据回答我们这几个问题:过去发生了什么,现在正在发生什么,为什么发生,将来要发生什么。

2017年4月15-16日,由中国新一代IT产业推进联盟指导、CIO时代学院主办、CIO时代APP承办的“第二期政府CIO论坛”在北京宽沟会议中心顺利举行,本次活动的主题是“政务大数据的应用”,部分政府CIO班学员、政府信息化负责人等聚集于此,共同参与本次活动的探讨与研究。中国新一代IT产业推进联盟技术分委会秘书长、首席数据官联盟发起人、北京万山数据首席架构师鲁四海带来了题为《政务大数据自助挖掘》的主题分享。以下为演讲实录:

\
中国新一代IT产业推进联盟技术分委会秘书长、
首席数据官联盟发起人、北京万山数据首席架构师鲁四海

各位朋友大家好,我这次主要汇报三个方向内容:第一是个人对大数据的理解;第二和政府合作通过大数据促进传统行业转型升级的案例;第三是我们在技术方面遇到的难点及我们的技术实现的路径,希望各位专家们能够给我们多提一些意见。

大数据应用有两个场景,AI与 BI。两者都是通对数据的感知、理解、挖掘,然后形成决策支持,最终反馈到“行动”中去;只不过AI对行动的“影响”是自动化的。不管是AI还是BI,都需要大数据回答我们这几个问题:过去发生了什么,现在正在发生什么,为什么发生,将来要发生什么。而这些又都是通过透视业务活动中产生的数据得到的。举例来说,未来的商业,谁能更多的搜集业务过程中的数据并加之有效分析挖掘,谁就占得先机;谁在产品运行过程记录了更多的数据,结合机器学习等技术进行深度挖掘,谁的产品就更有优势。

不难看出,大数据核心环节是数据理解、挖掘。对于政务大数据平台来说,除了考虑系统管理人员、政务管理人员两类用户外,更多得需要考虑数据分析人员的诉求。大数据平台的魅力所在是让分析人员便捷的进行数据挖掘。如果分析人员不能自主的进行数据挖掘,那么数据的价值、大数据平台的价值都将大打折扣。

下面我们举个例子来说,数据挖掘和数据分析人员在整个大数据利用过程中的重要性。鱼腥草,在我家乡有很多野生的,想吃的时候拿把锄头上山,很快就能背一背篓回去。但这确实是一个好东西,可以煮汤当茶水喝清热解暑,可以做成美味的凉菜,加到调料里更是别有一翻风味,还可以做成药品治病。我想说,这东西长在山上的时候毫不起眼,经过不同的工艺加工后,就完成不一样了。正如数据本身是没有“价值”的,只有经过不同角度的分析挖掘,反馈到不同的“行动”中去,才能将其价值发掘出来。

\

前段时间我们北大CIIM-泸州电子商务大数据开放实验室通过大数据对白酒电商行业发展进行分析。其中有一部分内容就是对各电子商务网站上陈列的产品信息、用户评论进行分析。就这个数据来讲,公开的,谁都见过,谁都能通过正常渠道获取。但不同的分析师分析出来的结果是大不相同的。我们一开始的时候就是自选一个熟悉的角度对这些数据进行分析,结果就这点数据,就出现了上百分析维度。

电子商务大数据开放实验室由北大CIIM中心和泸州电商产业园共建,很重要的一项功能就是提供一个能让分析师自助分析大数据平台,让分析师从不同的角度进行数据挖掘,为政府提供决策支持,为产业发展提供数据支撑,为传统行业转型提供建议。

在泸州白酒行业存在很大一批OEM厂商,由于供应链和品牌厂商的影响,转型压力巨大,也有不少想发展电商,但找不着好的路径和标杆,从这次的数据分析中就能看到如果有一定品牌知名度,洋河是一种不错的发展方式,如果从零拓展一个品牌,那么江小白无疑是值得学习的。

我们对互联网销售的白酒的酒精度分布进行分析,发现35度以下的酒呈明显的上升态势,这是为什么呢,通过对用户数据进行分析后发现,电商酒类消费者女性用户和85、90后用户越来越多。对于企业来讲就意味着市场需求要发生变化,产品要做出相应的调整。

对用户评论进行分析,我们发现影响用户体验最主要的三大因素是:真假、价格、包装,做电商产品,这几个方面的的保障,也就变得非常重要。

计划下一步和流通溯源大数据结合,开展更深度的分析,为企业、政府提供更有价值的数据。

前面讲到大数据的价值,需要分析师从不同的角度进行挖掘,分析师的精力要聚焦在数据挖掘上,所以需要一个敏捷分析平台。这个敏捷分析平台应该是什么样子,我们一开始也有一些争论,同时延伸到了对敏捷BI的思考。比如这个平台是不是就是敏捷BI?又是不是仅是一个在线的报表工具?是不是只要实现拖拽就意味着敏捷?最后发现没这么简单,我们真正需要的平台要具备以下特点:

1、实现可管控的开放数据集;

2、分析人员可以通过平台直接对开放数据集进行数据挖掘;

3、分析人员在平台上分析的结果可以进行分享交流,集体讨论并优化;

4、数据集、分析结果均可以实现动态更新;

5、移动化,一是操作界面可以自适应不同的屏幕,二是阅读界面能针对不能设备定制;

6、支持多租户;

7、我们需要系统安全可控、可以便捷地进行二次。

通过考察,我们最终选择了开源BI工具--SpagoBI。它是目前全球唯一一个100%开源的。它的主要功能有以下几点:

大数据支持:可以构建自己的大数据分析平台,处理任何格式的数据,甚至可以对非结构化数据进行分析。

内存计算:可以自己建立一个交互式的管理驾驶舱。通过一个动态的和交互的方式浏览你的数据,使您在业务的各个方面快速做出决策。

多租户:即单个 SpagoBI 实例服务多个组织(租户)。在多租户架构中,每个租户可独立拥有和管理自己的用户、文件、配置和参数。

自助分析:只要通过点击几下鼠标和简单拖拽动作,就可以立马得到您所要的分析报表。

即时分析、假设分析、地理位置分析等多功能。

SpagoBI各组件之前耦合度低,各种引擎均使用该领域内主流的开源工具进行集成,对于学习和应用的成本较低,同时解决了很多兼容性的问题。SpagoBI存在的问题现在还没有中文版,资料也基本是英文的。我们在做这个项目的过程中,同时对SpagoBI进行了汉化,重要的部署、操作资料也进行了翻译,很快整理之后都将通过Spago86社区进行公布。

\
\

我的汇报就到这,感谢各位。




免责声明:

本站系本网编辑转载,会尽可能注明出处,但不排除无法注明来源的情况,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系, 来信: liujun@soft6.com 我们将在收到邮件后第一时间删除内容!

[声明]本站文章版权归原作者所有,内容为作者个人观点,不代表本网站的观点和对其真实性负责,本站拥有对此声明的最终解释权。