大数据数据处理需要关注哪些问题

[摘要]数据清洗与处理是企业在进行数据分析之前都需要经历的一个环节,而今天我们就通过案例分析来了解一下,大数据数据处理需要关注哪些问题。 ...
数据清洗与处理是企业在进行数据分析之前都需要经历的一个环节,而今天我们就通过案例分析来了解一下,大数据数据处理需要关注哪些问题。
 

1、数据集成与处理技术

数据的集成就是将各个分散的数据库采集来的数据集成到一个集中的大型分布式数据库,或者分布式存储集群中,以便对数据进行集中的处理。

该阶段的挑战主要是集成的数据量大,每秒的集成数据量一般会达到百兆,甚至千兆。

2、大数据存储及管理技术

数据的海量化和快增长特征是大数据对存储技术提出的要挑战。为适应大数据环境下爆发式增长的数据量,大数据采用由成千上万台廉价PC来存储数据方案,以降低成本,同时提供高扩展性。

考虑到系统由大量廉价易损的硬件组成,为了保证文件整体可靠性,大数据通常对同一份数据在不同节点上存储多份副本,同时,为了保障海量数据的读写能力,大数据借助分布式存储架构提供高吐量的数据访问。

3、大数据分析技术的发展需要取得两个方面的突破:

一是对体量庞大的结构化和半结构化数据进行高效率的深度分析,挖掘隐性知识(如:从自然语言构成的文本网页中理解和识别语义、情感、意图等);

二是对非结构化数据进行分析,将海量数据复杂多源的语音、图像和视频数据转化为机器可识别的,具有明确语义的信息,进而从中提取有用的知识。




免责声明:

本站系本网编辑转载,会尽可能注明出处,但不排除无法注明来源的情况,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系, 来信: liujun@soft6.com 我们将在收到邮件后第一时间删除内容!

[声明]本站文章版权归原作者所有,内容为作者个人观点,不代表本网站的观点和对其真实性负责,本站拥有对此声明的最终解释权。