AI
产品
行业
生态

湖仓一体化:铁打的数据仓 流水的数据湖产品

来源: 原创 作者:海策 2021-5-28 05:13:48

当数据湖的“看得见”越来越必须,湖仓一体化就成了主流。

国际研究机构MarketsandMarkets的最新研究报告显示,到2024年,全球数据湖市场将突破200亿美元,增至201亿美元,复合年增长率将高达20.6%。可以说,随着数据治理与应用需求激增,数据湖成为数据管理的重要方式已成为不争的事实。
 
然而,尽管数据仓库、数据湖各自的优势已经深入人心,但企业及组织在关于数据仓库还是数据湖的选择应用等问题上,仍旧存在困扰。与此同时,厂商们的产品也在不断推陈出新。
 
例如,腾讯云近日首次对外展示完整云端数据湖产品图谱,并推出两款“开箱即用”数据湖产品,数据湖计算服务DLC和数据湖构建DLF。这不禁令人疑问,新的数据湖产品将会为数据管理市场带来哪些新血液?
 
 

01

数据湖“又”新在哪?
 
在腾讯云原生智能数据湖发布会上,腾讯云展示了完整的云原生数据湖产品矩阵:数据湖存储、数据湖算力调度、数据湖分析、数据AI能力以及数据湖应用和云上技术服务。即:
 
腾讯云原生智能数据湖产品图谱 来源于腾讯云官网
 
在存储上,腾讯数据湖以对象存储COS服务为核心,支持存储任意规模的异构数据,以及其他云端数据设施接入;
 
在数据湖算力调度方面,基于腾讯云弹性容器服务EKS,通过开放的容器化分析架构强化数据分析功能可组合性、扩展性,提升资源利用率;
 
在数据分析层,通过提供半托管的泛Hadoop服务,满足用户自定义需求;同时支持全托管数据服务,满足用户海量数据获取需求。
 
在AI服务及数据应用服务上,腾讯云原生数据湖产品支持音视频图文数据需求、企业画像、联邦计算等服务。
 
如此来看,与华为云、阿里云等其他云原生数据湖产品相比,腾讯云原生数据湖产品似乎并无太大特殊之处。
 
数据管理发展到如今,数据湖、数据仓都已不再是新概念。两者的区分也已十分清晰:
 
数据湖,即统一的存储系统、存储原始数据、丰富的计算模型/范式;而数据仓库的本质则是,采用内置的存储系统,数据通过抽象的方式提供(例如采用Table或者View),与数据湖最大的不同之处在于,数据通常需要常采用ETL/ELT进行清洗和转化,强调建模和数据管理,从而实现商业智能决策。
 

腾讯云数据湖计算 图片来源于腾讯云官网
 
此外,云原生数据湖也并不是什么新鲜事。即,云上托管 Hadoop 数据湖架构(即 EMR 开源数据湖)。但云原生数据湖将数据湖的采用优势进行了放大:实现更低成本的数据存储、精细的数据资产管理以及可共享的数据湖元数据等服务。
 
那么,腾讯云所构建的一体化云原生数据湖服务到底有何不同?
 
中国软件网发现,其新鲜之处就在于,回答了“湖”里面到底有什么数据,这些数据怎么用。在腾讯云原生智能数据湖发布会上,腾讯云大数据产品中心副总经理、腾讯云数据湖产品负责人雷小平讲到,“早前的数据湖技术更聚焦于如何能存储高速增长的多元化数据集,而鲜少关注如何对数据湖中的数据进行价值分析洞察。”
 
腾讯云数据湖产品要解决的正是这样的问题:数据湖里,企业及组织将能够看到数据分类,以及在其上进行数据分析、计算,统一元数据管理。
 

02

为什么看得见数据变得重要?
关于“看得见”的问题,从其本质上来讲是数据湖“沼泽”的弊端困扰。
 
如果说数据湖的优点在于不需要处理数据即可实现存储,那么,数据湖的缺点也同样出现在这里——缺乏结构的数据湖将可能造成质量参差不齐的数据倾倒场。
 
实际上,对于已建立数据仓库的组织来说,数据湖更像是一个转储和存储所有数据的地方,直到数据仓库启动并运行。其中值得一提的是,中小型组织可能几乎没有理由使用数据湖。而作为一个大型存储库,数据湖以原始格式保存大量原始数据,以备用户使用,但随着企业及组织数据驱动决策的意识被前所未有的凸显,对数据湖立的数据使用探讨成为了用户越来越关心的问题。
 

腾讯云端数据湖体系 图片来源于腾讯云大数据官微
 
而在管理数据时,数据湖并不会优先考虑哪些数据将进入供应链以及这些数据将发挥那些价值。因为缺乏数据优先级划分,企业及组织将会增加数据湖的成本 (相对于数据仓库和数据库),更重要的是数据湖会模糊了所需数据的清晰度,从某种程度上来讲,这增加了用户进行数据分析的难度和成本。
 
因此,“看得见”湖里的数据以及使用这些数据就变得越来越重要。
 

03

湖仓一体化下的数据湖将会如何?
我们知道,无论是数据仓库,还是数据湖,其所要解决的问题离不开数据的存储、调用、处理、分析、应用等。而随着需求侧的发展变化,数据湖与数据仓库被寄予了更高的期待:如何完成内部的统一,从而满足数据访问使用的灵活性与高性能并举。
 
在中国软件网看来,早前大量的舆论认为数据湖可能将会是未来的主流趋势,甚至有数据湖代替数据仓库之势,但随着新技术发展的热度下降,市场对数据湖的认知愈发理性。毕竟,数据仓库在决策支持和商业智能应用方面有着悠久的历史。自20世纪80年代末成立以来,数据仓库技术不断发展,MPP架构在处理更大数据量的独特优势仍旧吃香。
 
也由此,湖仓一体化(Lakehouse)正在成为近些年来的热点。Lakehouse,采用开放式架构,既构建于数据湖低成本的数据存储架构上,同时具备数据仓库的数据处理和管理功能,助力商业决策。因此,从某种程度上来讲,数据湖产品的不断迭代升级也是在向湖仓一体化趋势靠近。随着企业及组织不断上云、数据分析需求的激增,湖仓一体化分析方案正在成为下一代数据分析系统的核心。
 
具体来看,湖仓一体具有以下主要特征:
 
事务支持。在企业Lakehouse中,针对多数据管道同时读取和写入数据的需求,通过ACID事务的支持将确保多方同时读取或写入数据 (通常使用SQL) 时的一致性;
 
模式执行和治理。Lakehouse的独特方式用以支持模式执行和演变,支持DW模式架构,如star/snowfl-schemas。该系统应该能够对数据完整性进行推理,并且应该具有强大的治理和审计机制;
 
BI支持。Lakehouse可直接在源数据上使用BI工具启用以减少陈旧程度,促使低延迟,并降低了必须在数据湖和仓库中操作数据的两个副本的成本;
 
存储与计算分离。通过存储和计算使用单独的集群,推动系统能够扩展到更多的并发用户和更大的数据使用中;
 
开放性。Lakehouse使用的存储格式是开放和标准化的,并提供API,以及各种工具和引擎,包括机器学习和Python/R库,从而支持有效地直接访问数据;
 
支持从非结构化到结构化数据的各种数据类型。Lakehouse可用于存储、优化、分析和访问许多新数据应用程序所需的数据类型,包括图像、视频、音频、半结构化数据和文本。
 
从Linux Foundation开启开源Lakehouse项目、Databricks新添Delta Engine(一种用于查询加速的补充高性能查询引擎)来增强Lakehouse服务能力,到Apache Iceberg的火热、AWS Lake Formation等,不难看到湖仓一体化正在成为主流服务商们探索的方向。同时,随着国内外厂商们纷纷加入开源生态,推动生态不断成熟,数据湖与数据仓的关联正在变得愈发密切。数据湖中,数据仓库的核心能力不断地增强以现代化。

 

免责声明: 该文观点仅代表作者本人,Soft6软件网系信息发布平台,Soft6软件网仅提供信息存储空间服务。 未经允许不得转载,授权事宜请联系:support@soft6.com 如对本稿件有异议或投诉,请查看《版权保护投诉指引》

0
好文章,需要您的鼓励

您可能还喜欢这些资讯