生逢其时,一站式大数据平台终将代替混合架构 多模数据库将替代多种数据库

[摘要]一站式大数据平台终将代替混合架构 多模数据库将替代多种数据库。

本文作者:刘学习/Fiyinghare

养成一个习惯可能只需要90天的时间,但习惯一旦养成,将不可逆转。这是心理学中一个基本的规律。

在过去的8个月,我们都接受了把会议移到线上,不得不接受在线教育、远程医疗、无接触校招、直播培训··· · · · ·

疫情以惊人的方式彻底改变了我们的工作、生活、社会和商业。我们将有更多的线上应用,积累更多的数据。

未来10年我们需要学会和疫情长期相处、和平相处。后疫情时代,企业将积极拥抱数字化,打造敏捷组织,快速对于外部环境做出响应。

因此,我们要利用数据,让数据办事,让数据发挥潜力。毫无疑问,大数据应用落地日渐增多,对大数据应用更好体验的需求,正在酝酿大数据平台新的变革。

 

     1.用户呼唤一站式大数据平台

经过对整个企业级数据中心IT环境的基础分析,在数据层面,不难发现,数据中心经常存在混搭架构。

在混搭数据中心,基本上一种数据库技术处理一种数据类型,多数据种类的数据中心会用到多种数据库技术。

传统的数据库技术对事务要求比较高,一般依托单机版关系型数据库,如Oracle、MySQL、SQLServer,再加数据复制等高可用措施即可满足业务需求,处理性能相对较高。在数据量和并发交易量增加情况下,一般可以采用OracleRAC集群方式或者是通过硬件升级(采用小型机、大型机等)来支撑。但能处理的数据量负载并不高,只能达到TB级别或者GB级别。

对实时性要求比较高的场景,会采用内存数据库。相对于磁盘,内存的数据读写速度要高出几个数量级,将数据保存在内存中相比从磁盘上访问,能够极大地提高应用的性能。

数据量再大的时候,会有MPP并行数据库的技术,利用系统中的各个处理机结点并行完成数据库任务,提高数据库系统的整体性能。

大数据Hadoop技术会用在处理海量数据,特别是在100TB级别或者是PB级别的数据。

对于一些单一的典型场景,市场上也出现不同的产品,有了知名的解决方案,解决数据的多样性。

例如,结构化数据使用Hive,通过 Hive 可以使用 SQL 来查询分析Hadoop中的大规模数据。其思路就是将结构化的数据文件映射为数据库表,然后把SQL语句转换为MapReduce任务来执行,极大的提高了大规模数据的统计效率。

动态列模型使用Bigtable、Hbase,如Google BigTable是一个用于管理结构化数据的分布式存储系统,可以同时处理上千台机器中的PB级别的数据。Google 中的很多项目,包括Web索引都使用Bigtable来存储海量的数据,满足“大数据量、高吞吐量、快速响应”等不同应用场景下的存储需求。

应用于数据存储的文档数据库MongDB,专注于满足各类复杂搜索需求的ElasticSearch,常被应用于会话缓存的高速NoSQL数据库Redis,图数据库Neo4J,以及由实时计算引擎正蔓延成为通用大数据引擎的Flink等。

由此可见,在据层面的混搭架构,会用到多种数据库技术,不同的技术解决不同的数据分析问题。大数据平台基本上就是一组技术或者工具的组合。

显然,一个问题采用一种数据库,用组合的方式来解决大数据分析中面临不同问题,已经是杯水车薪了。光靠工具的组合不足以解决大数据的问题,用户需要一站式的大数据平台,解决企业在4V——数据量大、数据种类多、数据实时性高、要从数据中发掘价值——上面临日益紧迫的挑战。

首先这些产品都是孤立的,每一个或者类产品只能解决一类问题。当用户的数据有很多种类型时,就不得不采用不同种类的数据库,并把它混在一起,需要将数据复制很多份,成本高,效率低。

其次,数据中心包含各种各样混搭平台,要求运维人员不断从一个平台迁移到另外一个平台,需要各个平台的技术运维人员帮助完成运维维护。普遍存在的不同数据库产品之间的切换,会给运维造成巨大不便。

第三,组织中面临不同的数据需求,导致同时使用多个数据库产品。并且数据库产品越来越多,将会带来操作冲突、数据一致性问题、过于冗余、高延迟等问题。

第四,不同数据库扩展可能需要昂贵的资源、专业技能、复杂的处理流程等来保证数据的同步和一致性。一些数据库还可能存在扩展瓶颈。

第五,一旦选择错误的数据库模型,迁移的成本非常昂贵。使用多模型数据库可以避免需求变更带来的影响。尽管需求可能会随着时间而变化,但是多模异构数据库能够轻松适应IT架构更新。

用户呼唤一站式大数据平台。

随着数据量和数据种类的不断增多,由单一一个数据平台处理一类数据的应用虽然能力不断完善,但是还是难以满足用户用一个平台处理不同类型数据模型的最终需求。

同样,客户对混搭架构越来越难容忍,希望能用一套大数据平台,解决各种复杂的数据结构问题。具体而言,客户希望用一个统一的数据平台,处理多种数据模型,并能够提供统一的编程语言、统一的计算引擎,使用统一的存储管理系统、统一的资源调度系统,支持多种不同的数据模型。

目前,大数据行业一个明显的发展趋势就是推出一个统一的大数据平台,多模型异构的数据处理平台呼之欲出。

2.一站式大数据平台优势日渐突出

面对大数据应用不断高涨的需求,用户对一站式大数据平台的需求增长,对多模型异构数据处理平台发展给予厚望。

目前,企业用户期望用一个统一的平台,处理不同类型的数据,提高数据处理和分析的效率,降低成本。主要诉求包括:

最大限度地减少数据产品的种类和数量,大大降低运维和管理成本。同时,在总拥有成本CTO降低的情况下,满足企业对于不同数据库产品的需求;

采用统一的数据操作/查询语言,降低使用成本;

跨部门、跨业务的数据统一存储与管理,实现多业务数据融合,支撑多样化的应用服务;

简化性能扩展,通过一个平台即可完成不同数据扩展需求;

大大降低开发和运维的难度,对应用来说只需要连接到数据库即可,无需为了每个应用搭建对应的数据后台。

不同的企业在用户大数据应用落地时,都尝试整合不同的混搭平台,推出一个一站式平台,给用户一体化的解决方案,并开始逐渐成为提高用户体验、降低成本的发展潮流。

星环科技推出了国内首个多模异构数据库,一站式解决多种数据库应用场景问题。

作为中国大数据基础平台的引领者,星环科技企业级大数据平台Transwarp Data Hub(TDH)经过7年的快速演进,不断发展成熟,在邮政、交通、金融、政府等行业获得了大量的部署实施,同时向新生的大数据技术领域进行拓展和探索。

2020年5月,星环科技一站式大数据平台TDH迎来了最新版本——7.0版本,其一站式多模异构数据处理性能亮眼,打破了行业内普遍存在的不同数据库产品切换的顽疾,彻底解决大数据发展的一大瓶颈。

作为一个多模型的数据处理平台,TDH7.0可以提供统一的数据操作/查询语言SQL、统一的数据计算引擎、统一的分布式存储管理系统、统一的资源管理框架,满足利用一个多模异构平台,处理多种数据的需求。

多模型的数据处理平台的核心是对外提供统一的SQL编程接口、统一的计算引擎,以及统一的综合式的存储管理系统和统一的销售框架。因此,星环TDH 7.0的优势体现在这几大特性的统一和融合上。

星环科技第一家提供了一个能够横跨多种数据模型的统一的计算引擎。虽然有不少公司也在尝试提供一个标准的数据接口,但是由于底层是不同的数据库,没用统一的计算引擎,虽然有统一的SQL接口,很难把不同的接口静态的路由到功能数据库上面。因此,需要一个动态的计算引擎来动态地进行接口的调度,进行执行计划的统一的管理。

星环多模型数据数据处理平台架构 

同时在星环科技的Transwarp Data Hub 7.0中也提出了一个统一的分布式管理系统,是实现数据分布管理以及数据一致性的数据管理系统,比过往使用HTVS效率更高、一致性更强。

以中化集团为例,通过TDH大数据平台建立覆盖中化集团全级次的企业数据共享平台,支撑集团及化工、能源、地产、农业、金融等子公司的业务应用,将超过80个关键指标直达集团领导和总部关岗,实现了管理决策数字化、服务场景深入化、经营管控效率化。此外,基于TDH的新冠疫情防控大数据平台,稳定支持近10万用户每日填报数据300多万条,日均检索访问超11000次,通过大数据技术提升集团数字化运营水平,支撑中化集团数字化战略有效落地。

中国邮政集团量收大数据平台是全球首个成功替换Teredata数仓的案例,通过星环科技TDH的内存计算、高效索引、执行计划优化和高度容错技术,为中国邮政22个业务系统的存量、增量业务数据提供海量PB级存储和高性能计算,实现了10倍的综合性能提升,打通了集团及分支机构业务系统的海量数据,快速挖掘价值信息,有效提高了邮政经营管理水平。

在同一个平台上可以将一份数据存储成多种模型,用户在应用发生变化时能够自行地采用最佳的仓储模型来响应查询需求,运行效率会更高。同时因为一个平台处理多种数据模型,整体运维成本、管理成本都会降低。

星环科技之后,市场上开始出现不同技术路径的多模数据库产品,如华为多模数据库GaussDB NoSQL。

在华为云TechWave数据库专题日活动中,全新升级的华为云GaussDB以统一的架构同时支持关系型与非关系型的数据库,在提供高效稳定使用体验之外,还提供关系型和非关系型数据库、数据库工具类服务等众多数据库产品。

在关系型的数据库领域,华为云 GaussDB(openGauss)基于openGauss生态持续发展。GaussDB(for MySQL)则 100% 兼 容MySQL等开放生态,便于应用迁移和开发,保护客户投资。在非关系型数据库领域,华 为 云 推 出 GaussDB NoSQL多模融合技术,支持MongoDB、Cassandra、Redis、InfluxDB等主流NoSQL协议接口,具备多模数据管理能力。

以汽车制造商江淮为例,面对每秒百万级别的高并发真实车联网业务场景,在成本不变的基础上,GaussDB NoSQL可以实现三倍以上的性能提升,助推制造业云化转型。地理信息综合服务网站“天地图”为多种主流地图App和政企地图提供实时地图信息,通过使用华为云GaussDB NoSQL产品成功上云后,备份性能实现了超过20倍的提升,数据恢复速度实现了7倍以上的提升。

毫无疑问,目前市场上的一站式大数据平台和多模数据库极大的改善了用户的体验,在降低成本上效果明显。

目前,面对用户多种数据类型处理的难题,一些企业推出了数据中台的概念,来应对这种挑战。大部分用户并不了解数据中台,对数据中台的建设也半信半疑。专家认为,未来在数据量爆发、应用场景增加的情况下,多模数据库会成为解决这类问题的一匹黑马。

目前来看,多模数据库发展会分为两种技术路线:一种是数据存储采用同一种模式,对这种数据模式暴露多种协议接口类型,比如一套数据存储,可以暴露Mongo的访问模式,暴露MySQL的访问模式等。

另一种是可以把不同类型的数据库存储到一个整体通用的数据平台上来,再用一个UP层,或者一个接口层来去兼容多种协议,让所有的应用能更方便地集中处理统一数据。

3. 一站式多模型异构数据处理平台大势所趋

从上世纪70年代至今的50年间,计算机硬件遵从摩尔定律性能不断提高,成本却不断降低,为数据库和大数据技术的广泛应用,做好了硬件准备。

 

以Hadoop为代表的大量开源软件发展,为分布式存储、分布式计算等提供了低成本软件解决方案,为数据库和大数据技术的广泛应用,做好了软件准备。

以前,数据库和大数据技术成本高,只能被互联网、IT技术、银行等少数大型企业使用。而当下,数据库和大数据技术被各行业越来越多的大、中型企业使用,不少小型企业也开始尝试使用一些开源低成本解决方案,来满足数据量、性能、稳定性、全面性方面要求不太高的场景应用。

未来,数据库和大数据平台呈现以下几个发展趋势:

第一,数据库和大数据产业链的垂直分工日益明显,专业化和融合化并行。一方面,不同行业、不同业务的诉求多种多样,相应的应用软件产品会更多样化,并在特定业务场景、特定细分领域形成专业特色。

另一方面,对跨行业、跨业务的通用性的基础需求而言,作为基础支撑的数据库产品会加速整合,形成有限的技术领先厂商。由此,标准之争、生态之争会日趋激烈,并最终形成数量有限的行业事实标准。

第二,随着满足各类不同业务诉求的通用平台解决方案的发展,重复造轮子的“多种数据库架构”必然会被更简洁有效的“多模型数据库架构”所替代。

多模型数据库架构的核心思想,是将不同数据库中的公共需求提炼出来,通过统一的组件为多种模型的数据库服务。如多副本备份需求,多副本之间的数据一致性要求,少数副本故障后数据恢复需求,对通用的SQL语言进行解析优化的需求等。这些数据库“高速列车”上的“轮子”,并不会因为各个数据库的模型异构而相差太多。

第三,即将占据数据库市场半壁江山的众多开源数据库产品,越来越多会更改License,转为闭源产品,受国际形势影响开源协议的风险增大。

无论开源还是闭源,其盈利模式虽有不同,对生态主导权的掌控权的争夺始终不变,努力营造良性生态并做大做强,从而抑制其他生态规模,使自己的生态成为事实标准。

各厂商或开源社区对服务、组件、模块的标准建设更多的是从生态发展角度来考量。市场后入者希望市场先入者开放接口,接纳自己平滑接入,从而融入已有生态。而市场的先入者,希望通过接口标准化,消化吸收新技术,完善自身生态。

由此来看,发展多模数据库有两个目的:第一个用一套数据库可以解决用户不同调用的使用习惯,助力用户使用。

另一种能够快速地适配需求,又能够让云厂商脱离或者规避相应的开源协议的风险。用一套多模的数据存储来去反向兼容某种协议的接口,也是满足用户使用一种做法。

“否则今天只能说来一个应用,来一个数据库,就要去做相应数据库的演进,PaaS平台的演进,如果它还背着一个很沉重的开源协议,对于适配云上客户的需求也是一个相当大的挑战。”专家向记者表示。

总之,站在用户的角度,对于大数据应用而言,一站式平台终将代替混合架构,多模数据库将替代不同种类数据库组合。




版权声明:

凡本网注明”来源:中国软件网(http://www.soft6.com)”的所有作品,版权均属于中国软件网或昆仑海比(北京)信息技术有限公司,未经本网书面授权,不得转载、摘编或以其它方式使用上述作品。

任何行业、传播媒体转载、摘编中国软件网(http://www.soft6.com)刊登、发布的产品信息及新闻文章,必须按有关规定向本网站载明的相应著作权人支付报酬并在其网站上注明真实作者和真实出处,且转载、摘编不得超过本网站刊登、转载该信息的范围;未经本网站的明确书面许可,任何人不得复制或在非本网站所属的服务器上做镜像。

本网书面授权使用作品的,应在授权范围内使用,并按双方协议注明作品来源。违反上述声明者,昆仑海比(北京)信息技术有限公司将追究其相关法律责任。