当前位置:首页 > 云计算 >

世存信息孙小祥:DataSpider:让公司内部决策更便捷

发布时间:2015-04-30 16:52:25 来源:中国软件网 作者:
[摘要]世存售前总监孙小祥在会上发表了以“DataSpider:让公司内部决策更便捷”为主题的精彩演讲。

第八届中国软件渠道大会于4月28日在京隆重召开,除了上午10位行业专家分别针对各高端领域进行了洞察性分析,下午首设移动应用与云计算、 “互联网+”、大数据三大分论坛,并行展示新技术带来的变革,为与会者带来一次新技术的听觉设宴。

大数据分论坛由中关村大数据产业联盟副秘书长陈新河主持,共有6位行业专家发表了演讲。世存售前总监孙小祥在会上发表了以“dataSpider:让公司内部决策更便捷”为主题的精彩演讲。(以下内容根据现场速记整理,如有不妥请谅解!)

世存信息-孙小祥_副本

孙小祥: 感谢主办方,也感谢各位专家的演讲,世存是一家从事数据工作的原厂,我们专注于做批量实时做数据的处理、迁移等等工作,我们也是从传统领域转变的过程。我们是应对企业内部和企业之间的大数据技术架构,我其实一直在等前面的嘉宾去讲这部分,但是没有讲到。前几年大家在炒作大数据是一个概念,根本没有落地,2014年的数据来说的话,我们全球数据量在增长,这是一个趋势。2020年40GB的节点,到现在来看可能都不够,过于保守了。从2014年投资来说,从全球来看2013年只有64%企业想投大数据,2015年超过八成的客户都可以考虑。但是问题来了,投资在扩大,但是完成部署的只从8%增长到13%,在投资的浪潮当中也有些人保持了克制,还是观望态度。

从行业来说大数据从哪里来的?国外的话是从谷歌发展起来的,他拿到了大量数据,并应对这些数据进行分析、预测,并且投到产品当中得到很好的客户反馈,包括客户反馈的体验,包括经济效益的反馈,它自然灾这个浪潮当中处于领军地位,它发表了包括新的框架、技术,引领了原来这些传统行业,在感知当中选择了不同的方式,去顺应大数据。有一些是自身就产生了很大的数据,比方说我是银行,我是金融业,我是政府。还有一些是什么?虽然不产生数据但是可以利用数据,包括IT厂商,类似通讯业的数据保存厂商。

在这个环节当中,大数据从概念提出,就是谷歌的三篇论文,到现在就十几年的时间。大量厂商投入,包括领军厂商的集团涌现,不再是一家争鸣,百家、万家都不为过。谈到大数据,技术部分就不细讲了,谷歌MR架构大家都很熟悉,它的出现可以认为是一个颠覆性的东西。它把从数据的移动到了算法的移动,数据太大了所以我们把程序做分布式移动,很快可以说是席卷全球,有这种大数据需求的方方面面。同样的缺点也很明显,虽然1.0版本很成功,但是它同样有一些批量的能力比较强,但实时性比较差,实时性比较差对互联网企业来说是比较尴尬的问题。不可能今天各位点开了电商的网站,今天买这个东西的时候,电商都没有给我推荐我要买的是哪个品牌,15天之后他才推荐,这显然是不可以接受的。所以这样的东西,对于现在的情况来说稍微闲置了一点。

开源部分Hadoop大家都在谈1.0很少有人在用了,大家都在谈Hadoop2.0,3.0的时间还没有定。从1.0到2.0就是加了一层资源管理,资源管理我认为是它从原来单纯的MR的支撑,到了MR和其他技术混合的方式。它混合的目的是什么?就是我以这样一个所谓的兼容并蓄,或者说软件行业经常说的我没有一招鲜吃遍天的概念,不可能以一个框架打通全球各个行业,每个领域不管你是实时还是高并发,还是大的图象处理,还是音视频处理我都能通吃,从开源社区来说不认可有一个事情可以做到所有的方方面面。它更认可的是什么?你可以通过有效的,比方是我是整体框架,在有效细分市场内,通过少量的定制、配置可以完全的80%的应用,20%需要做定制化的解决和开发。主流的框架大家应用比较多的,包括内存计算部分,包括流计算部分的,它实际上补充的就是基于原来Hadoop1.0、2.0批处理能力比较强,但是还不够强,实时性确实比较差。

大家来说,或者厂商的反馈来说对Hadoop的演化是反应非常激烈的,潮水般的涌上这个平台,你不在船上就会被浪潮所抛弃。从1.0到2.0到3.0,这个图标太多太多了,怎么让这个船驶到你的客户,我想得到我客户的认可,我的技术、产品能为客户产品它的价值,包括增值服务,包括市场份额等等。前面我们谈到了世存也是在这条船上的跟随者,Hadoop2.0有混合技术,一定会对这个细分领域有很好的引导。对于世存类产品,Hadoop家族来说有几块。大家都在谈无云不成汇,但是云不是万能的,还有大量的客户现在或者未来3—5年不大的,所以海度可以让您在所谓的这样的环境下做一些工作。我们也不可能放弃云客户,这部分增长的速度越来越快,我们可以和云做一个很好的互动。您的数据这里面有大数据的概念,数据到了TB、PB级,还有网络架构的概念,新的网络能不能让您整个业务支撑住?这里面谈的有点偷换概念了,这个SaaS我认为就是我在这里可以把它当做SaaS使用。

最重要的是我今天谈到的,主推的产品它可以支撑很好的性能,如果您还停留在原来的EI领域,还对您以前IT投入念念不忘,我暂时还不想上大数据这条船,但是我保留所谓大数据兼容能力的话,您可以选择它,因为它的保值能力非常强。data spider对原有那一套可以依旧玩儿的很好,如果我们拥抱所谓的大数据概念,基于开源Hadoop社区的话我们可以用data spider,可以用数据基于Hadoop做一些支持,它是怎么做到的呢?稍候讲。

还有安全方面,中国所谓的后发国家,当时谈金砖四国,现在谈中华民族伟大复兴。后发国家就有一个尴尬的想法,别人总对我们有不太好的这种念想,国家还是要做中国化的加强,各个方面。海度也好,WebFT、WebConnect也好,就是强化批量能力,批量可以做到以往常用的传输特性,API的支持。4V的概念就不谈了,基于老的概念,大数据一个是大,一个是杂,一个是价值低,这些东西都需要在我有效的时间内处理,我不可能无穷无尽的等待,所以data spider的实时性在这方面有一个比较大的增强,通过基于海度的产品也补强了自己在批量能力的短板。通过跟传统技术的结合,让大家得到了比较理想的照顾80%客户的批量,和实时能力的综合。编码来说数据是不动,全部可以在Hadoop这个平台上,现在我们已经支持到了PB级以上。有人说这个数据量并不够大,我们可以看一下,微软也只是做到了PB级以上。MR不够用,去年六、七月份他们就发布了,人家都说了谷歌是一家略显猥琐的公司,十年前的东西终于出来了,因为他有技术壁垒也要寻求商业价值体现。在这里面他们也在做这样的事情,当然我们data spider也不是今年在做的,也做了五、六年了。

虽然大家在不同的理念,不同的团队里做这样的事情,但是想法还是比较接近的。MR既然批量量上不足,大家希望在有限时间内得到这样的结果,那对于我们流的处理,对实时性的要求处理,对大数据PB级以上的处理是要求有一个比较好的支撑的。国密算法可能是各位在中国推广业务的必选项了,国家在这块的支持也比较多,我们在国密当中也是为了保证大家在大数据方面安全的后顾之忧,最后感谢各位,谢谢!

第八届中国软件渠道大会与您相约5月25日沈阳站,诚邀您莅临参会!

【返回首页】