从Hadoop到CDP,Cloudera数据云能否重上巅峰?

[摘要]Cloudera是一家容易让人忽视的公司,这不仅源于相当数量的用户对于开源界的不了解,更源于云计算厂商对于大数据技术的挤压。这样,当Cloude...
Cloudera是一家容易让人忽视的公司,这不仅源于相当数量的用户对于开源界的不了解,更源于云计算厂商对于大数据技术的挤压。这样,当Cloudera再一次浮现在用户面前,用数据云去开辟一番新天地时,也许我们需要重新去给它一个新的定位。

Hadoop创造的起源

提起Cloudera的创立,就不得不谈Hadoop。由于开源界往往并不为更多的用户所知,所以就算是Hadoop之父Doug Cutting,知名度可能也不算高。但在开源技术界,Doug Cutting却是被不少人认为是可以和Linux之父Linus比肩的人物。

2006年,Doug Cutting预感到研发出的数据处理技术有着更大的潜力,便把MapReduce和HDFS从Nutch中独立出来,合成一个后开源了,取名为Hadoop。

同年,为了进一步发展Hadoop,Doug Cutting决定加入互联网公司里最大的雅虎。Doug Cutting当时可能并没有意识到,一个大数据时代的序幕就这样被拉开了。因为当时的雅虎,正在面对谷歌的围攻,如何在低成本的条件下让雅虎搜索更智能,是雅虎必须迈过去的坎。为此雅虎开始尝试Hadoop,Hadoop的集群规模很快过千。Doug Cutting也有机会与雅虎副总裁Amr Awadallah相识。

Amr Awadallah从中看到了商机,并于2008年最终与几个志同道合的人一起,创立了Cloudera。而Doug Cutting一年后也加入到了Cloudera,出现CTO。

转眼到了2011年,作为Hadoop的发祥地,雅虎公司将整个Hadoop团队全体的拆分出去,正式成立一家名字叫做Hortonworks的公司。到了2018年,同为开源平台的Cloudera与Hortonworks公司宣布以52亿美元的价格合并。

2013年,Mike Olson信心十足的写下了《The Cloudera Model》,表示Cloudera已经找到了Hadoop上成功的商业模式。那时的Cloudera,可以说是大数据领域最耀眼的星。2014年,Cloudera正式进入中国。

今天,Cloudera大中华区总经理徐晋这样介绍了Cloudera:“Cloudera现在定位成为一家企业数据云的公司,我们的产品100%开源。创立12年来,我们致力于服务全球几千家头部或者大中型的客户,目前全球最大的十家银行里面有八家是我们的客户,在全球各个国家大概有将近40多家政府机构在使用Cloudera的大数据平台,而在汽车制造行业,前十位的汽车制造都在应用Cloudera的产品。此外我们还覆盖到了高科技行业、医药行业。”

而谈及国内市场,徐晋给出了这样的数字:国内最大的20家银行中,有12家是Cloudera的客户。三大电信运营商全部采用了Cloudera的产品,排名前十的券商里Cloudera已与其中八家建立了业务联系,在国内最大的七家保险公司里面有六家采用了Cloudera的产品。在传统强项——汽车制造行业之中,排名前十的厂商都是Cloudera的客户。

云计算融合危机

表面看上去光鲜亮丽的数字,却不能掩盖Cloudera的业务方向从Hadoop向数据云转型的周折。而周折的原因,除了少部分来自于Hadoop内部不同厂商之间的竞争,更多则来自于云计算对于整个IT产业的颠覆。

在Cloudera刚刚成立的2008年,产业内和用户都没有对云计算带来的变革有深刻认识。但在接下来的时间里,云在吞噬一切,这不仅包括有托管的Hadoop,还有公有云厂商自研的替代产品。在这种挤压之下,2018年,在怒斥云厂商为吸血鬼而收效甚微之后,Redis和Mongo两家公司直接修改了开源协议,不再允许云厂商提供托管服务。而Cloudera却利用CDP走上了一条独具特色的发展之路。

在公有云厂商大肆攻城拔寨之余,客户的需求正在发生改变,客户变得更加关心稳定性、数据安全性,他们有自己的机房,拒绝被云厂商锁定。于是,混合云成了这类用户的不二选择。

于是我们看到了一系列有趣的现象,类似于AWS的Outposts、Azure的Azure Stack和谷歌的Anthos这样的公有云厂商,也在攻入混合云市场,只不过它们的终点在云,不在混合。另一类如红帽的Openshift、VMware,试图在各大公共云厂商基础上搭建一个通用混合云平台,终点在混合,不在云。此外,就是如Cloudera这样的开源应用厂商自己搭建的混合云。而Cloudera这样做所依赖的重器,就是CDP(Cloudera Data Platform)。

谈及这个问题,徐晋介绍说:“目前对企业的CIO和CEO们来说,最大的挑战是如何用一个平台真正赋能他们的业务,并真正把数据转化成为真正可见的价值。他们现在一方面面临数据越来越多,数据存放无处不在的问题;另一方面却又面临另一个难题——如何形成一个统一的数据战略,通过一个统一的数据管理平台真正把数据这第五种生产要素通过加工提炼后,形成业务价值。”

而为了破解这个难题,徐晋表示:“我们希望在五个方面能够赋能企业的客户。第一个方面是在数据安全,我们希望客户能够确保一致的数据安全性。第二方面是管理好影子IT。通过如云原生的数据技术来增加整个IT部门的敏捷性,解决IT跟业务需求方面的迟滞。第三方面是关于赋能跨公私有云的云原生服务,我们希望用户无论在公有云、私有云或祼金属应用中,都能够得到一致的体验。第四我们希望可以帮用户连接完整的数据生命周期,也就是我们提供的不仅仅是局限在某个点的解决方案,而是一个端到端的,从边缘计算到最后经过粗加工、精加工,到最后经过数据科学、人工智能等能够提供前瞻性预测的整个链条的数据生命周期的管理。最后一方面是建立AI工厂。”

CDP的新契机

目前Cloudera的CDP,实际上是将Cloudera原来的产品CDH跟Hortonworks原来的产品HDP融为一体之后,选取出其中最精华的部分而组成的。它基本上是基于Apache开源社区的将近30多个开源项目,经过Cloudera研发的测试、整合以后提供的一个可靠的基础的大数据运营环境。从技术发展趋势分析,CDP完全具备让Cloudera实现中兴的能力。

在此技术上,被大家诟病已久的MapReduce在Cloudera的产品里早有了很多替代品,比如Spark和Flink;其次,CDP整合了云存储,这意味着HDFS的争议也能得到解决;最后,CDP在调度上对接了K8S,这也就意味着,哪怕最后K8S完全替换了YARN,CDP也能做到几乎不受影响。

在开源的世界中,诞生于开源,并最终在商业世界取得成功的公司,首推红帽公司,而Cloudera有一百多位Apache committer,同时所有产品100%开源,CDP已经在靠企业版订阅产生营收,并提供咨询、支持等服务。这使得Cloudera已经具备了红帽所有的成功要素:深度参与开源社区;代码全部开源,社区版激进,企业版稳定;依靠服务建立良性的盈利模式。

所不同的是,Cloudera在产品创新方面,显然有着更强的创新动力。近日,Cloudera发布了Cloudera Data Platform Private Cloud(CDP私有云),进一步完善了整套企业数据云愿景。

谈及新品的特性,Cloudera大中华区技术总监刘隶放介绍说:“新版本是针对用户存在的许多难题而设计的。如影子IT问题,我们在和用户的接触中,发现一个大客户的系统中,一个业务部门建立了相当多重复性的应用,很多时候他们为一个项目或业务就去申请重新开一个应用。时间一长,就会发现数据冗余非常多,很多数据也只有到月底或年底才会用到,这造成了解IT部署的极大浪费。”

再比如“吵闹的邻居”问题,刘隶放进一步解释说:“一个平台上面可能会有多个应用在同步运行,这时大家都会去抢资源,如果其中的关键工作负载不能满足SLA时,运维部门往往可能会把某些应用硬性停掉,造成管理方面非常大的负担。还可能在一个集群内部,有上百个应用,如果需要为某个应用的计算引擎升级,就要被迫对所有其他的计算引擎全部进行研调和测试。”

刘隶放强调,CDP Private Cloud的部署时间不过几分钟,上面提到的问题却完全可能迎刃而解。

如果我们回到原点,我们会发现Hadoop的诞生,不过是因为Doug Cutting在研究Nutch开源搜索引擎时,受到谷歌发表的两篇论文的启发,而发展出了分布式计算框架MapReduce和分布式存储系统HDFS。在今天,当技术人才、创新的开源社区、商业模式同时具备时,我们有什么理由怀疑,不断创新着的CDP不会上演一出类似于Hadoop风暴的中兴之战呢?




版权声明:

凡本网注明”来源:中国软件网(http://www.soft6.com)”的所有作品,版权均属于中国软件网或昆仑海比(北京)信息技术有限公司,未经本网书面授权,不得转载、摘编或以其它方式使用上述作品。

任何行业、传播媒体转载、摘编中国软件网(http://www.soft6.com)刊登、发布的产品信息及新闻文章,必须按有关规定向本网站载明的相应著作权人支付报酬并在其网站上注明真实作者和真实出处,且转载、摘编不得超过本网站刊登、转载该信息的范围;未经本网站的明确书面许可,任何人不得复制或在非本网站所属的服务器上做镜像。

本网书面授权使用作品的,应在授权范围内使用,并按双方协议注明作品来源。违反上述声明者,昆仑海比(北京)信息技术有限公司将追究其相关法律责任。