David:Pivotal让数据分析更加经济有效

[摘要]说起Pivotal公司,可能相当一部分人有些陌生,这家由EMC、VMware和GE(美国通用电气公司)在今年4月1日成立的新兴技术公司,正致力于为企业用户提供完善的大数据解决方案,是EMC实现大数据战略不可分割的一部分。

说起Pivotal公司,可能相当一部分人有些陌生,这家由EMC、VMware和GE(美国通用电气公司)在今年4月1日成立的新兴技术公司,正致力于为企业用户提供完善的大数据解决方案,是EMC实现大数据战略不可分割的一部分。那么Pivotal这家有些陌生的公司究竟能够帮助企业用户解决哪些问题?在6月7日的云计算大会上,Pivotal公司业务与策略副总裁David Menninger先生详解了Pivotal公司业务与战略(本文根据David整理而成,并不代表IT168观点)。

Pivotal公司业务与策略副总裁David Menninger先生

越来越多的用户坚信对大数据进行处理分析能够给企业业务带来新的变化,并且大数据也正在改变我们的工作生活方式,例如更细腻地监控供应链。据David介绍,Pivotal公司的成立正是因为意识到了大数据带来的新的变化,而公司名称也暗含了变革的基因。目前Pivotal公司所做的事情就是为用户提供一个新平台,为一些应用提供一种独立于云的方式来对大数据进行快速处理。

大数据变革数据处理方式

David认为大数据正在改变我们做事的方式,跟过去相比,现在的世界已经不同了。各种智能移动终端都在不断地产生数据。这就导致现在信息产生的方式已经与过去有很大的不同,并且数据产生的速度也越来越快。这一现状使得我们必须变革我们的数据处理方式。

在过去,我们通常将数据整合成为一个数据仓库。而商业智能也通常以为着我们把信息进行回击,话大量的时间跟资金来进行这项工作。David认为,在之前,用户90%以上的支出都是用于这方面。这种方式需要我们花费大量的时间,例如对数据进行整合汇集,这些工作都非常复杂,需要在事前做很多工作,如对数据结构进行电柜,再将数据放到此结构中。

但现在,在这个新的大数据世界中,在这方面的支出也许只有10%,例如利用Hadoop这一成本较低的解决方案。David认为,Hadoop改变了数据管理的经济图表。其进一步解释说,Hadoop有两个要素非常重要:第一个要素就是分布式系统,这样可以存储更多的信息,并用并行的方式来进行信息分析;第二个重要因素则是可以在不同的分布式信息上同时进行不同的分析,这一要素使得其大幅提高了其性价比,差不多有10倍以上。

据David透露,在之前,利用传统方法对结构化数据进行并行分析,每TB成本要花费十万美元,而利用Hadoop则可将成本降至每节点仅需两千美元左右。这是一个重大的改变,而Hadoop最大的特点就是将成本大幅降低,进而提高其性价比。

不仅如此,David认为还有一点值得用户注意。我们需要有不同的方法来进行数据分析。例如在之前,我们只可能对历史数据进行简单的分析,如果在一个系统里面拥有海量信息的话,我们使用这些数据的效率实在太低,也就是说,传统的数据分析方法已经很难对海量数据进行有效处理和分析。所以现在就出现了一个新的科学,即数据科学。

数据科学就是把数据中的含义抽象出来,以剥离出对用户有用的数据;此外,数据科学另一个意义在于让用户有用预测能力,可以根据现在的数据预测未来可能发生的事件。这对于企业拥有深远的意义。例如利用大数据分析,我们可以进行更复杂的分析,比如市场分析、客户关系分析、客户合作价值分析,能够让我们从各个角度去考察客户关系。并且,利用更深入的数据分析,我们可以了解客户行为习惯的更多细节,例如客户能够存在多久,其整个过程能够给我们带来多少价值。其最典型的例子就是媒体订购活动。

据David透露,在这之前,EMC曾做过一些行业分析,对几百个公司进行分析,了解他们怎么处理大数据,使用什么样的技术,分析的数据类型是什么,并了解其预测能力。在大多数情况下,大部分公司所得到的信息都是与客户相关的信息。如你希望让你的行为更加有效,并从中获得规律,以为企业创造更多的价值,那么和客户交流,得到与客户相关的数据则是最根本的起点,而利用大数据分析则可以帮助你实现这一目标。

在大数据分析的另一例子是利用非结构化数据来确定客户的情绪,客户对于企业所提供的服务或企业本身是满意还是失望。如果客户对企业感到失望,企业该如何改进服务。据David所提供的案例显示,某企业一百万美元的部署投入,使得其每年产生了八百万美元的收入。

Pivotal的成立:聚焦大数据处理与分析

今年4月1日新成立的Pivotal公司其目的是,利用整合的技术和分析方式主要帮助用户实现两大目的,即尽快解决客户面临的问题;第二个目的则是对客户现有信息进行分析,以预测客户在未来可能发生的问题。Pivotal公司主要由三家公司参股构成——EMC、VMware和GE(美国通用电气公司)。其中,EMC投入技术和一些资产,例如GreenPlum;GE投入一亿美元。公司总共1250名员工,三亿美元资金。Pivotal公司采用GE的分析技术,GE在其分析技术方面投入了20亿美元(尽管这并不属于Pivotal公司),其希望能够提供大数据分析解决方案,并领先于这个领域。

随着移动互联网,尤其是智能移动终端的大范围普及,我们需要分析的数据容量越来越大,并有快速的响应速度。而要针对大数据进行处理和分析需要部署多台服务器,也许是成千上万,也许是几十上百台。没有人希望每次服务器的调整都需要人工手动进行,都希望能够通过自动化的方式进行部署,并管理不同的服务器,在规模扩大的时候能够有一定预期。

另外,信息的生成有不同的方式,并且应用的生成也有不同的方式,Pivotal希望能够利用这种不同的结构对数据信息分析。所以为了分析这些海量信息,必须时时来接收这些信息,并有能力随时对这些海量数据进行有效处理。David认为这不仅需要将这些应用转换到新的架构之上,还需要把系统遗留应用转化到新的环境之中,也就是说,客户应该在部署应用的时候有选择的余地。而Pivotal公司则希望能够给用户提供一个具有独立性的解决方案,不管你部署在哪里,不论是私有云还是公共云,或者在公司内部部署,亦或是混合云。David认为这种独立性非常重要,可以有效避免用户锁定问题,用户能够在考虑了成本效益之后进行自由选择。

Pivotal公司目前有一个产品,即Pivotal ONE,其是一个开放的系统,其核心是数据,其作用是利用企业内部生成的数据进行数据处理和分析。其主要由数据支撑架构、应用支撑架构和云支撑架构构成。其中数据支撑架构有两个要素,一个是接收与查询,第二个则是横向扩展与存储。而目前,Pivotal公司有两个产品线,即NPP数据库和GreenPlum。此外还有Gemfire,其可以提供实时数据查询。

当然,目前开源的Hadoop受到越来越多用户的认可,Pivotal公司也将Hadoop集成到了产品之中,并加以深度开发。例如Pivotal开发了新的仪表盘,以及Hadoop虚拟化扩展等等。在这之中,其可以自动化配置,用户也可以手动对Hadoop进行配置。据David介绍,其真正的关键区别在于其利用了GreenPlum技术,其是这个市场上唯一一家同时拥有Hadoop和NPP的厂商。其也是唯一将Hadoop分布网络和微软、Terdata数据库进行结合的厂商。

应用支撑架构有三个主要部分,第一是语言和框架,其主要是为了开发 应用;第二部分是服务;第三部分则是分析部分,其可以作为应用的一部分。这一支撑框架之中集成了来自三家公司的多种与数据处理分析相关的技术,例如实时分析,快速应用开发等等。

云支撑架构在之前两者之上,其是一个抽象层,实际是管理和部署的一个层,把它们部署在前面所说的平台上,而且不管是是公共云还是私有云。Pivotal ONE部署非常快速容易,据David介绍,例如将其部署在一百多台服务器上,岂能提供可伸缩性和灵活性。如果某个节点故障,其可迅速迁移到其他节点之上,并且在客户不知觉的情况下顺滑完成。

Pivotal ONE将是进入这一市场的切入点,David认为这跟市场趋势是一致的。据其透露,在今年第三季度,Pivotal公司将会推出基于Pivotal ONE的一体化整体解决产品。

David说,Pivotal ONE是EMC的愿景,它内部包含的部分已经都存在了,现在它已经带来了三亿美元的收入。在Pivotal的数据科学实验室,Pivotal将帮助用户创造一个模型,这个模型运作于用户企业中,它实际上相当于一个汽车的测试或者试驾,Pivotal数据科学实验室就是一种经过验证的数学科学实践的模型,它用于加速分析项目。用户可以通过这个数据分析来推动业务价值。用户可以实验,不一定要买它,可以通过Pivotal数据科学实验室来进行“试驾”尝试。如果你喜欢的话可以买它。此外,其还有一个是开源代码支持,现在很多东西都是基于开源代码的,开源会是未来的趋势,Pivotal也会继续在这方面进行工作。

原文出自【比特网】,转载请保留原文链接:http://storage.chinabyte.com/308/12636308.shtml




免责声明:

本站系本网编辑转载,会尽可能注明出处,但不排除无法注明来源的情况,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系, 来信: liujun@soft6.com 我们将在收到邮件后第一时间删除内容!

[声明]本站文章版权归原作者所有,内容为作者个人观点,不代表本网站的观点和对其真实性负责,本站拥有对此声明的最终解释权。