当前位置:首页 > 云计算 >

东软毛军:东软SaCa助力大数据分析与展现

发布时间:2015-04-30 16:48:10 来源:中国软件网 作者:
[摘要]东软SaCa咨询总监毛军在会上发表了以“东软SaCa助力大数据分析与展现”为主题的精彩演讲。

第八届中国软件渠道大会于4月28日在京隆重召开,除了上午10位行业专家分别针对各高端领域进行了洞察性分析,下午首设移动应用与云计算、 “互联网+”、大数据三大分论坛,并行展示新技术带来的变革,为与会者带来一次新技术的听觉设宴。

大数据分论坛由中关村大数据产业联盟副秘书长陈新河主持,共有6位行业专家发表了演讲。东软SaCa咨询总监毛军在会上发表了以“东软SaCa助力大数据分析与展现”为主题的精彩演讲。(以下内容根据现场速记整理,如有不妥请谅解!)

东软集团-毛军_副本

毛军:大家好,首先感谢主办方,感谢曹总让有机会给大家介绍东软SaCa云应用平台,我今天分享的主题是“东软SaCa助力大数据分析与展现”,先介绍一下相关背景。移动互联网改变了人们的生活,人们每天可以在互联网上,基本上可以在线做任何事情。随之而来的就是数据的爆炸式的增长,这些数据的增长之后我们需要对数据进行存储、处理、分析和再现。与之对应的你需要有一个专门支撑的平台,需要找到合适的云计算的平台来做这样的事情,所以总体来看所有这些东西都是我们耳熟能详的,在互联网领域正在发生的事情。大家可能会问这和你们东软有什么关系,我们是做解决方案的,在过去20多年时间里,我们和各行各业的客户一起做了大量的解决方案,我们做了很多不同的企业的应用程序。现在我们发现一个问题,就是说传统企业技术架构,有向互联网技术架构趋同的趋势,所以最近很多客户提出了大量的需求,这个需求就涵盖在这些领域,比如说云计算、大数据、移动互联网、社交网络等等这样一些需求。所以我们就觉得这是一个趋势,这是什么趋势呢?是企业应用的互联网化这样一个趋势。

那是什么驱动了企业应用互联网化呢?这种变革主要的驱动力我认为来自IT技术不断发展带来的潜能,主要有几个方面:

首先移动终端的快速普及,就使得传统应用使用者,由操作员、管理员变成了普通的消费者,这样一来企业应用的使用者,它的用户量,用户范围就极大的扩张了,而且对企业应用用户体验有更高的要求。

第二个就是企业的内部数据,和UGC数据和开放外部数据聚合会产生新的业务形态。

第三个是社交网络,社交网络使得人与人之间,企业与企业之间,企业与客户之间的距离无限缩短,实时互动。

还有面向对环境,对位置,对个人健康,对用户行为这样一些信息的感知,使得人与物连接到了一起,最重要的特别是云计算,云计算技术不断的成熟和普及,使得为企业构建上述这些新一代技术成为可能,并且我们可以以最低的成本实施。所以我们认为这种技术的融合,它才驱动了企业应用的互联网化这样一个变革,这也是我们开发东软SaCa云应用平台的一个初衷。

前面讲这些背景,什么是SaCa?SaCa是面向企业应用互联网化的云应用平台,它实际上代表着英文的单词。这些单词其实也体现着它的特点,它是一个安全的、社交化的,能够具备主动服务能力的,互联的,基于云计算技术的,云应用平台。实际上SaCa现在在东软已经非常成熟了,而且它里面是一个大的品牌,包括14个产品,还在不断的发展。这14个产品包含着五个方面,云数据、大计算、情景感知等等,2015年东软将会针对东软SaCa面向我们的合作伙伴,一起构建整个生态系统,为客户提供更好的一些服务。所以今年我个人的工作重心也会调整到相关方向,也希望大家和我们一起合作共赢。会后大家可以加我的微信,一起交流合作互动,这么讲有点像小广告。

说到广告就应该有一些行动和表示,今天大家上午听了这么多的讲座,也都比较疲惫,这段时间有点困,给大家一点小的互动游戏,互动游戏就是发红包,这个红包必须发到我们这个群里,说发就发。我们接着介绍,因为SaCa里面有14个产品,主要是围绕大数据,因为咱们的论坛是大数据论坛,主要给大家介绍三个产品,对应到数据的分析、展现和支撑。中间部分是SaCa做数据分析的,是推荐品牌,分析之后推荐。然后SaCa下面这一快是数据展现平台,这个是做数据的分析处理展现的一个支撑的云管理平台,主要是这三个平台。

首先我们看一下SaCaRealRec他是切实推荐平台,是智慧商务平台。是基于客户洞察进行精准营销,精细化分析的,可以帮助用户业务快速增长。主要用在用户行为分析、个性化推荐和精准营销三个方面。用户行为分析,我们可以洞察用户,提升用户的体验,提高转化率。比如说可以适用一些网站,移动APP智能终端的行为分析。比如说有一个客户是国内三大保险公司之一,他们有财险电商平台,2013年平台营业额达到了60亿,大家可以想象一下这样巨大的客户量,他们的反映就比较缓慢,他就用SaCaRealRec来做,他整合了内部的CIM,产品库和理赔,构建了触网客户的分析平台,帮助公司快速堆叠潜在需求,这是用户行为分析这样一个场景。个性化推荐场景也和明确,就是从千人一面到千人千面,这一定是未来的方式,所以我们每个人都有自己的个性化需求,满足这些个性化的,更精细化的需求,是它能够去做的。

再就是精准营销,这个场景是我们主要能发现一些新的客户,发觉潜在价值,这是精准营销的一个案例。比如说证券公司也是国内的一个知名证券公司,在社交领域兴起之后,客户成立了他们的互联网营销部门,通过纯手工的方式运用新媒体,这个效果和价值肯定都是非常低效的。最后采用SaCaRealRec做精准定位,做营销推送,所以每天开户的数量能得到很好的提升。

刚才给大家介绍的是SaCaRealRec,就是它做大数据的分析,分析完了之后这个数据怎么展现?这也是一个专门的话题。一说数据的展现,大家首先想到的是什么?首先想到的是报表,我们经常都用,那么国外的报表是横平竖直的,国内的报表比较复杂,但是报表一般来讲只能展现一些院士的数据,就是把很多数据给到你,你自己去分析,是这么一个情况。但是大家可以想我们客户的领导决策人,有这么多精力和时间做这样的事情吗?尤其是在大数据当中采集的数据做报表是很费劲的,所以现在有一个高级可视化的平台,我刚才介绍的报表是有不同场景可以使用的。它的场景主要是侧重于什么呢?一句话是说它基于非常规的图表,去挖掘数据尤其大数据背后隐藏的价值,也就是说它不会把大量的原始数据全部推给你,让你自己去看,他会直接把结论给到你,这个结论通过一些比较好看、易懂的一些图表的形式给到你,这样一看你就知道是什么结论,对我们决策者就非常有帮助了。

这些图在PPT里不能交互,实际上这些图的交互能力很强,你把鼠标点上去都有很多互动性的,也可以做很多关联关系。这个图是个玫瑰花图,通过颜色,颜色是一种维度展现数据,圆弧的长度是一个维度,可以展现不同维度的数据。我们举个例子,假设这代表一些科研机构投入查出比,我们用这个长度代表他们的人员规模,用这个长度代表他们挣的钱。那这个扇形区域,就比下面的更高一点,更好一点。这个图里面并没有给出更系的数据,但是作为决策者他就想知道谁比谁强,就OK了。

太阳辐射图,这是我们非常真实的案例,每个月我们都会开产品经理例会,我们想知道每个产品人员分布是怎么样的,哪些做研发,哪些做策划、调研等等,它可以将多个维度数据整合在一起。你点开可以展开很多领域,比如说这边可以变大,再展开,可以来回赚取有这么个功能。

日历图,传统方式我们如果想去看不同年份的对比,一般我们可以用柱形图,或者饼图,但是你看不到每天的情况。通过这个图你可以看到,一每一行是一年,一年里面有12个框,每个框里有30个小方格,这是4×365的数据量,你不用看具体每一天的数据,他可以帮你选择出来。你现在不用关心,你关心的是一个趋势,一个形态,一个形式,这是我们关系的。所以说这每一个小单元格用不同的颜色代表着一种趋势,能让你了解,比如说这段时间飘红了,说明什么事情变成严重了,业务办理量大了。而且你可以针对不同的年代,比如说今年的今天,和去年的今天做一个对比。

还有日历热图,这是我们给中国移动做的,1—12月份每天的数据量都在上面显示,不同的业务办理繁忙程度用不同的颜色表示,鼠标放上去其他部分就会变暗。

大规模散点图,这可以支持大数据,这里面每一个点其实都是代表一个数据量。我们互联网行业或者一个企业的应用程序,当他高并发访问的时候,每分钟可能会有很多请求过来,短时间内看到每一个点就是一个请,可能短时间内会形成巨大的请求访问量,所有点在一起就可以分析了。如果是健康应用程序的话,它请求的响应时间应该是很短的,纵坐标是响应时间,所以正常情况下这些点都应该是在下面。但是如果有一些请求很长时间没有响应,这个点显然就应该在上面。所以我们管理员通过这个图可以在后端实时监控到,并且了解每一个点的情况。比如说这个点有一些问题,选中之后可以进一步挖掘,查看这个点。比如说这个请求3分钟才响应,点进去可以知道是什么问题导致的,可以很快的解决。

另外标签云,我们分析了一年论坛大家讨论的话题,话题多的字体就更大一些。

弦图,这里面有很多城市,北京和上海。比如说这代表航班,从北京的航班有这么多,上海的航班这么多,从北京到上海的航班是这个值,所以这是一个双向的关系。当然我们这个演示效果不是很好,如果在网页上嵌入的话是交互性质的,鼠标放上去,双向的数据带是高亮显示的。

这里面还有很多其他的图,这些图只是一个表现形式,最重要的是说我们有这样一个理念,基于这样的分析展现平台帮助我们客户更好的展现我们结论性的数据,这是最重要的。可以看一些案例,这是国家电网的客服电话间红系统,95598的客户服务中心,这里面的数据是实时变化的,就是电话的接入量。这个案例也比较有意思,这是面向一个开发团队的,我们可以看这里面有一个MIS系统,里面有很多模块。我们可以分析,过去一周大家都用了哪些模块,我们可以看到填日报这个用的最多。我们点填日报,看一下详细情况,发现有这么多人填了,这是多图联动。这是填日报的情况,我们想看一下周五那一天都谁填日报了,我们选中这个。刚才用的是大规模散点图,选择周五,这个人填日报填的最多,因为字体最大。我们就选中他再看一下,这个图发现就很有意思了,这个人他周一到周四都没有填,到周五都填完了,这违规行为,这种情况不需要通过报表展现,直接通过可视化挖掘和展现就可以知道一些结论性的东西,很有意思。

另外运营深4G入网情况分析,这个就不详细介绍了。这是湖北省妇幼健康服务信息分析平台,还有针对一个集团的2014年度的销售汇总,这里面使用的是流图。流图纵坐标永远是,这个集团里有这么多部门,这表示什么意思?不同的年份,一年12个月,这些部门为集团所带来的销售额,或者说业绩占集团总量的百分比情况,所以它像河流一样,可能会越流越宽,也可能越流越窄。如果越来越窄,就认为这个部门效益不是很好,在集团里面业绩占比情况无足轻重。如果越来越宽,我们觉得值得发展,应该是这样的情况。

前面给大家介绍了两个平台,一个是大数据的分析平台,一个是高级数据可视化平台。大家可以想一下,大数据前端不管是分析也好,处理也好,这些东西尤其数据量一大,你肯定要做一个分布式的环境来做对应。这里面一旦涉及到比较复杂的环境,就涉及到资源,资源从哪儿来?当然在数据中心里面,但是已经不是传统的数据中心了,现在都是云化的数据中心,这些资源是通过云化方式组织在一起的。你为了能做好大数据,一定要有一个云计算平台来支持它,这是一个趋势。现在不管你说互联网的公有云平台,还是我们企业内部的私有云平台,一定要用这样的平台做。因为云计算本质上不会给你解决新的问题,但是一定能给你降低成本,降低风险。比如说当业务量比较大的时候,好多大数据再处理,我处理不过来了,原来我只用三个服务器处理,处理不过来怎么办?传统方式是你得买第四个服务器,但是基于云的环境不用这么做,因为我们是大的云,所有资源都整合共享,它大的资源池,需要更多资源的时候,就通过云平台资源调动给他,他不用再回收给别人用,这里面就有一个大的优势,就是弹性支撑能力。

说到云计算就有话题了,云的话题更大,我们今天主要讲云的管理。为什么说云的管理对云计算非常重要?因为大家知道云计算里面最重要的是云将传统数据中心改造成了云化数据中心之后,实际上这个数据中心的资源被打散了。以前服务器是服务器,数据库是数据库,应用程序是应用程序,作为一个管理员完全知道应用程序存在哪个服务器上,但是在云上他不知道,不能实时知道,因为资源被打散了。这个应用程序可能有十个虚拟机做的环境,可能还会实时动态调用,这样一来各个层次之间的关系就非常动态化、复杂化,这种情况管理人员如果不通过一些管理工具去做的话,他很难手工完成。所以我们就做了这样的平台,叫做云管理平台。所以我们认为云计算最重要是管理,把资源管理有效的时候,云计算才是真正靠谱的云计算平台,这是很重要的。否则一旦出现问题就是大问题了。

什么叫管理呢?其实管理包括两个层面的含义,一个是交付一个是监控,这个图里面有不同层次的服务,我们经常说的IaaS、SaaS、PaaS,我们要给到客户。怎么给到他这是交付的能力,什么是服务?水和电就是服务,怎么给到千家万户?叫服务提供能力。第二个能力,你给完水和电之后,这两个不能总停吧,服务的可靠性不行。所以你为了水和电不停,必须实时监控,所以我们要实时监控这些服务。构建器的监控和运营器的监控,就是管理,我们云管理平台就做这两件事。

这里面第一个场景就是资源的集中监管,比如说我们现在正在做一个大数据的分析处理,下面用到了好多不同的东西。首先有应用程序,应用程序可能依赖于服务器、数据库,可能安装在虚拟机上,服务器可能和一些交换机、路由器连接。一个应用程序在运营的时候是不容易的,所以我们用户体验不到,大家作为管理人员很操心,因为有太多东西都跟它相连。所以为了保证大数据应用程序做好,保证云化数据中心所有的资源都非常到位,非常靠谱,所以我们要去监管,监管的对象就包括这些东西,它是在一个门户里面将所有的进行监管,这样的平台叫综合管理平台。以前管理员不是这么做的,以前管理员要管数据库,可能要打开数据库的控制台,看一下主机服务器,每天要选很多东西,打开很多工具,现在不用了,直接在一个门户里就搞定了,一个界面将整个数据中心的平台全部监管,这就带来非常大的方便,而且因为我们跟传统软件不一样,它是基于云化数据中心的监管,所以针对不同类型的资源关系能帮你梳理的非常清楚,这个很有价值。

第二个是服务自助申请,可能我们需要一些动态资源去支撑它,比如说客户需要一个Hadoop环境怎么做?在另外一个门户,这个门户里面你去操作,你说需要什么环境,几核CPU,多大内存,几分钟依赖你环境的复杂度,这个环境就给到你了。你里面安装什么东西可以自己选,它帮你自动安装配置好,很快这样的自动化环境就拿到了,基于这个环境可以做一些应用和操作等等。

第三个是应用的交付和弹性支撑,这里面很重要的一点就是弹性支撑的能力,就是我刚才讲到当我们任何应用程序,我们之前事先无法预知有多大的并发量,比如说北京奥运会的时候这个时候大家都会用,我买多少台服务器够?可能在这个时间不够,过了这个时间就没人用了,所以你基于云整合这些资源。当某一个时间点到来的时候,你进行资源的弹性调配和分配,这样上面的大数据应用程序就可以保证健康的运行。

因为时间关系,我们要守时,今天介绍了三个产品是SaCa家族里的,刚才介绍的产品介绍的比较快,每一个产品是专门的话题。因为我之前说了,我们有五个领域,移动互联网、云计算、情景感知、大数据、每个产品都是一天到半天交流的课题,所以今天主要是给大家介绍其中三个产品。后续如果大家对其他这些产品感兴趣,可以直接联系到我们,我们可以给大家提供一些材料,我们可以适当的去交流这些话题。今天我介绍的内容就到这儿,谢谢大家!

第八届中国软件渠道大会与您相约5月25日沈阳站,诚邀您莅临参会!

【返回首页】