开源Hadoop依然活跃 大数据基础平台亟待理性选择

[摘要]有关Hadoop的传言很多,引起了业界的普遍关注。一些企业喊出了一个口号,“源于 Hadoop ,超越Hadoop”。还有企业声称,Hadoop市场停滞不前了,被用户“抛弃”了,等等。不过,至少从目前看,大数据技术发生的一些变化,Hadoop依然难以超越,依然活跃。

提起大数据,依然不能不提Hadoop。因为Hadoop让海量的数据能分布存储,并能分布的存取与处理。所以,Hadoop这个词铺天盖地,几乎成了大数据的代名词。

不过,有关Hadoop的传言很多,引起了业界的普遍关注。一些企业喊出了一个口号,“源于 Hadoop ,超越Hadoop”。喊出这样口号的不是业界巨头,也不是黑科技的掌握者,而是那些基于Hadoop开发出一点东西并在Hadoop开源系统发展的公司。以为沾了点Hadoop的光,就像带着人类飞向宇宙的星环一样,毫不顾忌地贬低自己的同类。还有企业声称,Hadoop市场停滞不前了,被用户“抛弃”了,等等。

要是三年前,人们这样怀疑Hadoop,似乎还显得难以想象。但三年后的今天,这一情况发生了一些改变。不过,至少从目前看,大数据技术发生的一些变化,Hadoop依然难以超越,依然活跃。

开源的Hadoop市场并不能一路高调

最近Gartner 的研究显示,市场上有高达 54% 的公司并没有投资 Hadoop 的打算,而 44% 的公司已经或计划在未来两年内采用 Hadoop。

对于这一数据,不同人却得到不同的结论:有些人会认为这意味着 Hadoop 在进一步的扩张,但同时也会有人认为 Hadoop 已经显出了颓势。

与此同时,调查还显示:在那些没有投资的人中,有 49% 的人正在努力学习怎样行之有效地利用 Hadoop, 为企业创造更多价值;另外还有高达 57% 的人表示并非他们不想,但技能差距是主要障碍,而且这种差距在短期内无法缩小。

同时,最近行业里开始传出一种声音:Hadoop 的市场占有率已经出现了明显的停滞不前。甚至 IBM 的大数据宣传人员 James Kobielus 还公开表示:“Hadoop 在大数据领域的颓势比我预期的还要严重。”

另外,万众瞩目的大数据公司Cloudera终于上市了,但市值表现令人大跌眼镜。作为全球Hadoop三驾马车中体量最大、估值最高的公司,Cloudera一直受到各方关注。2014年,Intel斥7.4亿美金巨资收购Cloudera约18%股份,使得Cloudera估值达到41亿美金,成为估值第二高的大数据公司,仅次于Palantir,一时风头无二。2017年4月底,Cloudera登陆纳斯达克市场,IPO价格只有19亿美金,还不到三年前的一半。

单纯从 Hadoop 的市场占有率来推断其发展态势似乎有些片面了,因为还有许多公司并非不想采用 Hadoop,只是很难利用现有的技术团队充分挖掘 Hadoop 的应用价值,实际上,他们需要更多的专业知识。

分布式的Hadoop更爱海量的大数据

在20多年前,也就是上个世纪90年代,数据大量产生。数据量相当于之前数据量的上百上千倍!数据存储设备和读取技术的发展完全跟不上用户数据量的增长速度。利用分布式技术来解决数据量快速增长的问题,就成为Hadoop生产和发展的核心思路。

大数据时代企业面临的是以TB、PB甚至EB为单位的数据,因此,需要建立一个既能存储如此大量的数据,而且还能高速高效地读写文件的文件管理系统——Hadoop分布式文件系统HDFS,将一份巨型的文件分散到多台存储设备中,并配合一个调度程序来管理这些文件。

人们翔利用数据,就希望通过数据之间的关联来挖掘出数据中的潜在价值,而杂乱无章的数据会对数据挖掘产生很大的阻碍,就需要建立一个编程模型来对数据进行排序整理,这就是Hadoop的另一个核心——Mapreduce。

HDFS是Hadoop的储存基础,是数据层面的,提供储存海量数据的方法(分布式储存)。而MapReduce是一种引擎或是一种编程模型,可以理解为数据的上一层,可以通过编写MapReduce程序对HDFS中海量的数据进行计算处理(分布统计整合)。这就类似于我们通过MapReduce(读取)所有文件(HDFS)并进行统计,从而找到想要的结果。所以说Hadoop是一种能帮助企业大量储存数据并且能处理数据的工具。

可以说。HDFS和MapReduce仅仅只是Hadoop最基础的部分,从2006年诞生至今的十年多年中,Hadoop已经经历了数次更新,开发出了多种延伸功能。各种以Hadoop为基础开发产品的公司早已遍布世界各地,各种Hadoop技术应用的案例也是数不胜数。Hadoop技术的应用才刚刚开始,

对数据量小的应用,Hadoop好比是“杀鸡用了宰牛刀”

正如上文所言,Hadoop等分布式架构成为很多企业的选择,一方面,分布式架构降低了处理TB、PB级数据的成本,企业不再需要购买高性能机器来满足需求;另一方面,分布式架构的可扩展性更强,企业级客户可以根据自身处理数据的需求提升而不断增加机器,无需在最初就购买大量服务器。这为大数据商业应用奠定了坚实的基础。

Hadoop是专门针对海量数据而设计的。因此,简单的设想,如果你您的企业中没有海量的数据,那就不需要 Hadoop。一方面,这也是为什么许多公司对只有 2TB 到 10TB 的 Hadoop 集群感到失望的原因,因为 Hadoop 技术在这样的数据储量下根本无法发挥其最大的价值。

另一方面,大量的公司其实并没有足够的数据量来推动 Hadoop 发挥其应有的效力,但是为了充门面、赶潮流,还是采用了 Hadoop 框架,其实存在着比 Hadoop 更简单、更合适的技术选择。

就像一个不太富有的人,住一个超大的别墅里,因为他雇佣不起宝洁、园艺等等专业的人员,都要自己一个人干,那么自己干,生活将不是舒适;自己不干,任性生活,那只有脏乱差了。

据报道,Cloudera 和 Hortonworks就是通过 Hadoop 框架搭建其产品的最大的两家公司,但是从 2015 年中期以来,他们的股价已经分别下跌了 40% 和 68%。事实上,对一些公司来说,采用Hadoop框架已经产生了实际的财务问题。

现在看来,并非 Hadoop 框架本身的缺陷造成了目前的停滞不前。相反,Hadoop 的问题应该归咎于市场上无休止的炒作和夸大。虽然许多公司跟风采用了 Hadoop 技术,但却并没有深刻理解它,也不清楚它正确的使用方法,因而也就无法发挥最高的运行效率,这才导致了 Hadoop 的颓势。

Hadoop 仍然是一种具有强大生命力的技术,是大数据基础应用平台的核心技术,只是人们需要更深刻利用它,一方面发挥大数据的价值,一方面创造大数据商业的神话。




版权声明:

凡本网注明”来源:中国软件网(http://www.soft6.com)”的所有作品,版权均属于中国软件网或昆仑海比(北京)信息技术有限公司,未经本网书面授权,不得转载、摘编或以其它方式使用上述作品。

任何行业、传播媒体转载、摘编中国软件网(http://www.soft6.com)刊登、发布的产品信息及新闻文章,必须按有关规定向本网站载明的相应著作权人支付报酬并在其网站上注明真实作者和真实出处,且转载、摘编不得超过本网站刊登、转载该信息的范围;未经本网站的明确书面许可,任何人不得复制或在非本网站所属的服务器上做镜像。

本网书面授权使用作品的,应在授权范围内使用,并按双方协议注明作品来源。违反上述声明者,昆仑海比(北京)信息技术有限公司将追究其相关法律责任。