持久内存+毫秒级恢复 第四范式推出万亿维线上预估系统

[摘要]日前,第四范式宣布推出基于英特尔傲腾持久内存技术、支持实时恢复的万亿维线上预估系统,以为企业提供高可用性、毫秒级恢复的在线预估服务...
日前,第四范式宣布推出基于英特尔傲腾持久内存技术、支持实时恢复的万亿维线上预估系统,以为企业提供高可用性、毫秒级恢复的在线预估服务,同时将企业总拥有成本降低80%,进一步满足企业线上预估需求。

第四范式表示,线上预估服务是AI在企业应用落地的关键环节。企业通常会采用分布式计算架构在内存中完成实时数据处理和高达万亿维的模型特征存储,并通过多集群副本解决传统纯内存(DRAM)天生的易“失”性隐患,以达到线上实时服务质量(Quality of Service)效果。然而,随着企业AI应用模型大小和数量的增长,线上预估服务所需要的硬件资源也呈几何倍数增加。

此次第四范式推出的万亿维线上预估系统,基于自家AI算力平台SageOne的持久内存进行了软硬一体设计,与其他预估系统相比,可实现每秒亿级KV查询的高性能,并能够与第四范式自研的高维机器学习框架以及TensorFlow等AI开源框架无缝对接。

得益于此,该系统保证了在线预估服务无论在发生物理故障或者程序崩溃的情况下,均具备毫秒级故障实时恢复特性,帮助企业以低成本实现高可用AI线上预估服务。

据悉,基于持久内存的万亿维级参数服务器 – HyperPS是该线上预估系统的关键基础组件。HyperPS参数服务器具备高性能底层序列化框架、链路共享、多级访存优化、双端参数合并及动态扩缩容等特性。基于持久内存设计和优化后,HyperPS在保持与基于纯内存参数服务器几乎一致性能的同时,展现出在线上预估应用中数据实时恢复和应用成本低的巨大优势。

这源于第四范式对HyperPS参数服务器的底层系统架构和存取性能等进行的软硬一体设计。一是针对节点内的shard重新设计新的存储引擎,采用持久化哈希表为底层数据结构储存特征,保证高并行度性能的同时,对持久内存数据组织格式进行优化,达到接近于纯内存哈希表的性能;

二是对参数服务器灾难恢复机制调优,使用持久化智能指针记录哈希表的核心数据结构和根指针,实现业界首创的参数服务器实时恢复能力;

三是利用PMDK的transaction机制,使用pmempool分配和管理持久内存空间,确保持久内存数据一致性;

四是针对影响性能的持久化操作进行策略性的降低,进一步提高性能。

具体来看各项性能测试。首先在企业AI应用内存预估上。以某著名手机终端厂商为例,分别采用配备384GB 纯内存服务器和配备2TB持久内存的服务器为预估单节点基准。每上线一个模型在在纯内存的参数服务器上占用内存空间大概是128GB。

第四范式透露,基于持久内存的数据结构由于其有额外的持久化逻辑,在空间复杂度上会略高于纯内存数据结构,其空间占用大概是204GB。在此基础上,估算企业上线1-100个模型参数服务器所需的纯内存物理节点数和配备持久内存的物理节点数量。

从预估结果来看,企业需要采用持久内存的物理节点数量和纯内存的物理节点数量比为1:3.4-4,而持久内存的参数服务器总成本最多下降80%。

再看数据恢复速度测试。通常情况下,当系统节点出现故障时,采用纯内存的参数服务器需要从数据存储集群(如HDFS)重新申请模型参数数据恢复,耗时长,严重影响线上服务质量。

凭借持久内存的特性,HyperPS在节点发生故障或者程序崩溃后,数据依然可以保存在持久内存中,服务重启后只需要调用优化过的数据一致性检查函数,即可实现毫秒级实时恢复。

第四范式称,以恢复6千万维参数模型为例,纯内存参数服务器恢复模型需要花费58秒,而持久性内存参数服务器只需要0.03秒,故障恢复时长缩短将近2000倍。

再看恢复20个模型总计12亿维参数的测试,纯内存参数服务器数据恢复时间随着数据总量增加而大幅增长,而持久内存的参数服务器几乎没有受到影响,只需检查哈希表元数据后即可提供服务,其恢复时长缩短17114倍。

最后是预估性能测试。第四范式测试数据显示,基于持久内存的HyperPS参数服务器在延迟上,与采用纯内存的参数服务器性能相近。单线程和56线程两个测试中,持久内存的参数服务器均仅比采用纯内存的参数服务器延迟多1毫秒。

在吞吐性能对比测试项目中,基于持久内存的参数服务器在56线程的高压负载测试中的QPS仅比纯内存参数服务器低3.5%。




版权声明:

凡本网注明”来源:中国软件网(http://www.soft6.com)”的所有作品,版权均属于中国软件网或昆仑海比(北京)信息技术有限公司,未经本网书面授权,不得转载、摘编或以其它方式使用上述作品。

任何行业、传播媒体转载、摘编中国软件网(http://www.soft6.com)刊登、发布的产品信息及新闻文章,必须按有关规定向本网站载明的相应著作权人支付报酬并在其网站上注明真实作者和真实出处,且转载、摘编不得超过本网站刊登、转载该信息的范围;未经本网站的明确书面许可,任何人不得复制或在非本网站所属的服务器上做镜像。

本网书面授权使用作品的,应在授权范围内使用,并按双方协议注明作品来源。违反上述声明者,昆仑海比(北京)信息技术有限公司将追究其相关法律责任。