思迈特软件副总裁徐晶:数据挖掘加持下,商业智能的未来发展趋势

[摘要]11月14日,由中国软件网主办,海比研究、光明网联合主办的“洞见2020中国企业服务年会”在北京香格里拉饭店隆重开幕。
  11月14日,由中国软件网主办,海比研究、光明网联合主办的“洞见2020中国企业服务年会”在北京香格里拉饭店隆重开幕。思迈特软件副总裁徐晶出席会议并发表主题演讲。以下为演讲全文:
  

  徐晶(思迈特软件副总裁):各位中国软件网的朋友曹总,尊敬的同行,很高兴有这个机会,分享一些自己个人的观点。我的PPT整理的比较简单,希望大家有一些启发,最后希望大家能够记住我们这个品牌,Smartbi。

  我特别想感谢一下我们摄影师,我们这个团队,能把我马上变得这么高大上,而且能瘦一点。

  我们公司名字叫做思迈特软件,是广州的一家公司。今天正好是我们八周年生日,下午我们公司有很多活动。我们公司成立八年以后,客户群有三大类:

  一、金融类客户。

  包括中国银行、民生银行、泰康人寿、中信证券等等。

  二、企业类客户。

  占我们大概1/3。

  三、政府类客户。

  我们的客户比较多,我就不说了,二维码可以扫描一下。既然我的题目《数据挖掘对商业智能未来的影响》,我想商业智能首先这个概念,先表达一下自己的理解。因为我自己从毕业到现在一直在做BI的工作,我对它的理解分为三层:

  第一层:数据准备。

  我们做BI很久以前,都是从ETL开始,数据准备现在成为BI的一个标配。

  第二层:数据分析。

  第三层:这个环节里可以有很多种做法,我先抛到后面去说。中间有三层不同的类型。最后做完数据分析,有一个应用,这种应用有很多方式(共享、报告、交流、协同),都属于共享,这是BI大方面包含的哪些内容。

  概念介绍完以后,我们再看看为什么现在说BI?因为我已经说了十几年,我之前很多人还在讲BI,这个词为什么还这么火,我们看看数据就知道了。

  Gartner大家都很了解,今年初做过一项全球统计,大家愿意把钱预算花到哪里去?这个表不知道有没有见过。我解读一下,就是说CIO很多地方可以投资,增加预算,在什么地方增加预算最多呢?就是在BI和数据分析上。有45%(将近一半)的CIO,都愿意在上面增加预算。这说明数据分析对于企业来说是多么关键。

  第二个数据,IDC。全球在这个领域上整体的业务规模多大?有24个。就这么大一个盘子,还以10%的速度在增长。我们国内速度更快,中国的BI市场增长,年增长在30%左右,这是几个外部机构第三方评估出来的。未来我们可以达到百亿规模,BI领域还是非常、非常热。

  热,我觉得要冷静思考一下,我想说自己的观点。我怎么思考呢?很冷静。它肯定属于一个增长,如果是说现在数据分析或者BI,能够满足客户需要了,还会增长吗?我觉得就要平静了。之所以有这样一个高速增长,说明我们现在还没有满足客户的需求,这是显而易见的。

  在这个情况下,新技术、新产品、新概念,应该说是层出不穷。从我毕业到现在经历了好多、好多概念的冲击,我想梳理一下,还是用比较权威的一种概念分类:传统BI、自助BI和智能BI,这三个阶段从暴露的所有文章来看和报告来看,都是从左向右的关系。这是一个替换的关系吗?我觉得需要在里面进行思考,为什么会这么提?

  这个细节大家注意,这个图里面后面包含两个虚线,我也在思考为什么出现这样一个设计,这是我今天演讲的关键。BI在干什么样的事情,其实解决让企业里的更多人,去用到数据分析,能享受数据分析带来的结果(价值)。

  再一个,能够真正给我提供很深度的,满足我的深度要求。我们二象限分开,一个水平、一个垂直,可以看很清楚了。传统BI,刚才是一个水平线的三个阶段,我们重新来看。

  传统BI,在人比较少的应用。因为一般来说,传统BI都由第三方定制开发出来,是给领导看的,用的人比较少,所以在象限的左侧。深度呢?应该说用的还不错,并不是那么高。我们用这个思维来看,自助BI或者智能BI放在什么地方呢?我放在这个位置,会什么会放得稍微靠下一点呢?为什么放在右边一点呢?因为自助让业务人员来用,业务人员自己来做数据分析(报表、图形、仪表盘)。你可能把一个比较复杂的计算公式扔给业务人员去算吗?按技术来说,我们比较强大的能力会赋予业务人员呢?不可能的。有兴趣的可以聊我们现在大客户用到自助分析的已经碰到一些问题了。

  也就是说,能满足自助分析的程度比较低,能做的事很简单,可以让更多人用到。你们注意中间这个车了没有?这个细节很有意思。

  刚才说传统BI是由第三方开发出来的东西,像不像我们去打,网约车,让别人给我开车。自助BI正好是我们自己开车,自驾车、私家车,更多人掌握这个能力以后,可以自己开车了,这个比喻是非常有意思的。

  智能BI呢?刚才说数据挖掘会把商业智能引到哪里去?我想智能BI肯定往一个好的方向(右上角)越靠右边越好,怎么理解呢?首先,我们先把这个概念抛开,不是说一定的数据挖掘,我们应该说人工智能或者AI。

  首先,智能化要向右边发展,让更多人去用,怎么才能用起来呢?要降低操作门槛,这里有一个小的视频,是不是能播出来?我们试一下。

  (播放视频)

  这是我们为了让更多的业务人员用自然语言交互的方式,摆脱鼠标来进行数据分析,我们的一种探索,这个界面录像是两年之前,我们领导的一个女儿配的音,挺有意思。

  还有一种方式是数据挖掘,既然提到数据挖掘,肯定有人会知道数据挖掘是什么东西,要去建模的。建模的过程,在以前传统BI的时候谁做呢?必须有一个数据挖掘的团队帮你做。

  现在怎么做呢?现在由业务人员和我们的技术顾问坐在一起,一步一步进行数据分析来做数据建模。这里有一个小的录像,可以放一下。

  (播放视频)

  这个没有声音,就是一个操作过程,非常简单。我们在每一步都可以对它进行数据检查,输出结果,你可以操作执行的每一步,对里面的算法每一个进行调整,整个过程都是可视化的方式完成,这就降低了操作门槛。只有这样才能在象限里尽量靠右,让更多人去用它。

  第二个方向,既然是一个象限,向右我们知道怎么做了。向上呢?怎么变得更强大一点呢?我们要深度挖掘数据本身的价值。

  一是算法层面,各种各样的算法要变得更可配置、更组件化,更好去设置,这是一方面。我就不说了,咱们常见的算法都在这边。

  二是让我们建模过程,也能变得更加智能,更方便。我们在某一个组件的配置上,算法配置上,能不能自动优化参数。咱们知道,算法最重要是参数。参数是很重要的事情,来回调。如果系统自动帮你调好呢?这是第一。

  第二,数据挖掘产生的很多模型,这个模型能不能被下次别人所用呢?这些问题阻碍数据挖掘能够普及的一些关键问题。我们希望这方面进行尝试。

  可以说从两个纬度向右边,更多人用起来;向上边,变得更智能。我自己感觉,经过了30多年BI这个词以前,以前的那个I,终于现在开始变得智能一点了。因为在这之前,基本上我们看到都还是报表,可视化的仪表盘,其实都还是报表,都是一些统计的东西,缺乏智能化。只有刚才我给大家描述的那种,变得更加成熟以后,我们就真正智能起来了。

  那刚才我在前面比喻的时候,用到了私家车的概念,我们打车变成私家车(未来还有智能驾驶),但未来一定是只有智能驾驶吗,我们可以想一下现在智能交通未来会把大家私家车全部收走吗,你会叫不到车吗。我想是不会的,未来这个时代是智能时代,但他一定是包容的。他会让各种各样的人都在上面能够找到自己的位置,去选择自己想要的结果或者工具。

  其实BI也是一样的,未来的智能化的BI,他不是只有一个选择,就只是你说话就可以完成。他一定是承载各种各样的东西在上面的,所以我们也做了一些自己的探索、摸索,我们看看是不是以中台的方式提还是更合适。那我这里面提的一个关键字叫做数尽其用,人尽其才。

  用思路、思想能把我们所有的功能、工具整合在一起,那包括刚才说的上面三个方面,一个是数据准备的方面,怎么访问数据,怎么去关联数据,像目前BI的发展,前面浪潮的也说了,我们数据在保留现在的规格之上,就可以马上进行关联数据分析,未来也是一样。

  不是说你一定需要一个很健全的数据参物才能做数据分析,他是什么时候都可以基于数据源开始的。他的数据访问能力非常的强,而且自带数据处理的能力,像刚才我们在一个流式数据分析的建模的过程中,都可以做数据处理,包括嵌入自己的语句进行处理都是可以的。

  当然还允许用户自己做数据提取封装,第二层面就是数据分析。数据分析的话,用网上那种比较含糊的概念就是我们可以做报表,我们可以做数据可视化,我们可以做各种各样的钻取分析,下钻上钻,我们还可以做数据挖掘,这些都应该属于数据分析层所解决的问题。

  刚才我T形图里面,最起码用报表来表述,用分析的方式去切割,去找到原因,用一种挖掘的方式去预测未来,这三个层面的需求都应该在这个阶段完成,这是数据分析。最后我们还要把他去很好的暴露出来,分享出来,这个是很重要的。

  数据准备的话,我们要做哪些事情。为了数据质量能够足够多,足够用,不断去训练他的功能让他变得更方便,能把数据你原始的东西抓过来进行整理。然后还可以类似资产管理一样提供导航。你能知道,让用户能知道,让每个业务人能知道,很快能找到自己的数据在哪。我要的数据系统里有没有,这些东西都应该是准备工作去完成的,没有这些前提,后面所有的数据分析可视化、数据挖掘都是假的。

  那这个是基本基础的工作,当然还要考虑各种性能的问题。那数据链接的能力要求访问各种各样的数据源,我们公司也刚测过,跟高斯DB一级的测试,当然用户最重要的是可以用这样一种可视化拖拽的界面能够随时对我所拥有的数据源(有权限的)进行跨户的查询,把两个数据源直接放在一起进行关联分析,让他自己去完成。

  同时把这个查出的数据还直接扔到一个数据库里面,我们叫数据集市,这样的话其实我们看以前所有一个BI项目,过程中需要用到的一些数据处理、整合、数据建模的工作其实都用工具层本身就能完成,现在做得越来越多。

  数据分析的工作刚刚说了很多,我想数据分析一定是多样的,有的人他需要,像我们银行客户很多,他们很多客户都需要……或者大的客户,集团性的客户他们首先需要的数据明细的查询(跟这片子没关系,我单说的)他们需要明细数据,数据服务层面的东西我先要拿到,拿到数这个是他们第一需求,第二个需求就是我能做各种各样的报表,这个大家都玩Excel或者都知道Excel,都知道报表是怎么回事儿。

  当然还有一种是做分析,我们可以用各种各样的传统的Olub去想,或者Excel表去想,这种分析的能力也非常重要,需要给用户的交互的能力不断的筛选,去切数据。当然我们还要考虑他的性能,我刚才说的一个性能问题,提了好几次,我再提醒大家一下。

  刚才说的几个阶段里面,传统BI到自主BI阶段,打车变成私家车。他带来的很大问题就是我们现在目前交通环境恶化是大量车构成的,如果只有打着那一车,公交车你会堵车吗。不会的。在资源有限的情况下,如果大力发展所有都是私家车,一定会堵,那企业里面的数据分析也是一样的。

  所以这个比喻非常有意思,给我们很多启发。如果我们在企业里面真的让业务人员,应该叫肆无忌惮的去做透支分析或者各种各样的可视化分析的时候,你的系统资源会消耗得非常快,这个在我们的大客户里面也出现过。

  那怎么去平衡数据查询的性能,是我们特别考虑的一件事情,所以我们才会融入什么高速缓存、抽取各种各样的概念,或者我们的功能。当然很重要的一步就是业务人员,大家能看懂的,就是拖拖拽拽能够实现一个仪表盘的数据分析,这是一个非常非常简单的操作。但是非常有效。

  这个目的破除了IT的瓶颈,这个大家在网上都能看到。那最后就是数据的报告,我所做的所有的数据分析或者说业务人员自己做的数据分析怎么去用。应该好多种用法,我们常见的就是在手机端上去看,这是一个必备的功能,大概在5年之前,我们的金融客户还是考虑安全原因不上移动端,但这两年都纷纷上移动端了,包括银行、证券都是这样的。

  移动端是必须的,第二就是说,大屏幕,刚才我们前面也能看到一些大屏幕,大屏幕是什么样,我们也能看得到。当然还有一种,我们各种各样的数据最后呈献给领导的时候,都是放在word和PPT里面的,如果领导说你的数据不对,你需要怎么办,或者你发现错了怎么办,要重新把所有的数据跑一遍,然后重新截图过来。

  那如果说,这种数据分析的结果,数据可以一键刷新,是不是非常方便。所以他应该都属于数据报告的范畴。我是举些例子,我们就不讲了。这个是比较有特色的一个案例,我们根据民生银行的阿拉丁的项目总结出来一个思想,就是共享。

  刚才我说了私家车的问题,自助分析云越来越多,就像私家车越来越多,堵车了。堵车怎么办,他应该去分流,他应该整合资源,比如说共享,如果我坐的车,顺风车,我的车开出来,我把路线告诉别人,别人可以来搭车这样的话,资源得到复用了,这样路上也没那么堵了。

  其实数据分析也是一样的,民生阿拉丁有一个叫付信商店的一个东西,就可以让业务人员自己的分析成果发布到这里面来,发送到了以后,让别人可以看得到,可以点评,可以交流,他所分析的,实际上模型是一个思路,不是数据。我根据他的思路套到我的数据上面,这是我想要的结果了,他用这种分享的机制,其实化解了很多性能的压力,我个人认为。第一是化解性能的压力技术上角度讲,第二就是他真的是促进一种文化。让大家对数据分析形成一个共识,他很有用,我们要经常去用他,不断去学习。这个是非常重要的。而不是说在工具本身有多好。

  这是我们公司的公众号,我们是思迈特软件,我们产品的名字叫SMARTBI,咱们看前面SMART,所以我们的口号叫更聪明的大数据分析软件,快速挖掘数据价值。谢谢大家。

  (文字根据现场讲话整理,未经本人审阅)




版权声明:

凡本网注明”来源:中国软件网(http://www.soft6.com)”的所有作品,版权均属于中国软件网或昆仑海比(北京)信息技术有限公司,未经本网书面授权,不得转载、摘编或以其它方式使用上述作品。

任何行业、传播媒体转载、摘编中国软件网(http://www.soft6.com)刊登、发布的产品信息及新闻文章,必须按有关规定向本网站载明的相应著作权人支付报酬并在其网站上注明真实作者和真实出处,且转载、摘编不得超过本网站刊登、转载该信息的范围;未经本网站的明确书面许可,任何人不得复制或在非本网站所属的服务器上做镜像。

本网书面授权使用作品的,应在授权范围内使用,并按双方协议注明作品来源。违反上述声明者,昆仑海比(北京)信息技术有限公司将追究其相关法律责任。