来源: 原创 作者:zou 2021-3-10 07:31:56
2021年3月9日,NVIDIA发布了经过NVIDIA全面优化、认证和支持的企业级AI工具和框架——NVIDIA AI Enterprise软件套件,并且VMware也与同一天
AI带来的压力
NVIDIA和VMware这一次同时将突破点选在了AI上。而事实上,在刚刚过去的2020年,AI无疑已经成为IT界最火热的词之一。在这一年中,AI技术本身以及各类商业层面解决方案的成熟,让AI快速进入“工业化”阶段。同时,AI芯片已逐步达到了可商业化的状态,2020年内AI芯片开始大规模落地。如果再考虑到深度学习技术深入渗透各产业并引发大规模应用、多模态深度语义理解进一步成熟等AI技术的进步和落地,2021年AI显然会延续它在2020年的火爆发展态势。
但另一方面,AI应用需要大规模算力和数据的支撑,离开这些支撑,再好的算法也不能让AI发挥作用。而普惠AI给算力和数据存储带来的压力,最终会体现在IT基础设施上。关于这些压力,Gartner在2020年发布的十大预测中曾表示:到2025年,传统的计算技术将面临一个很难用传统方式来逾越的瓶颈,越来越多的新计算场景和新的计算介质会慢慢浮现。
为了缓解这种压力,NVIDIA和VMware此前曾做过各种努力。由于AI需要大量算力支撑,因此AI与云计算越来越形成一种相伴相生的关系。有了这样的基础,在业务前端,用户通过数字化赋能,进行着一场包括应用形态、应用场景、应用下层技术在内的应用现代化创新。与此对应,后端的IT基础架构也开始发生变革。
VMware在2020年就将通过收购Bitnami、Heptio、Pivotal和Wavefront公司获得的创新技术,打包成四个简单的Tanzu版本。VMware还将Kubernetes嵌入到VMware vSphere控制平面中——vSphere with Tanzu,为客户提供适用于所有应用的统一平台。并且,VMware 的vSAN、vSphere等当家产品跟着发生了一系列的变化。
VMware云平台业务部产品副总裁 Lee Caswell对此曾表示:“针对应用现代化,以及混合云的环境,我们正在打造和交付针对应用准备就绪的一套全新的基础架构。”
围绕着AI,NVIDIA也进行了一系列的创新。到目前为止,英伟达一直是用于人工智能加速的GPU芯片的主要提供商。一种流行的观点甚至认为:没有英伟达的显卡,就没有现在的人工智能。
而在缓解AI为基础设施带来的压力方面,NVIDIA与VMware也一直合力对数据中心进行着改造,力图实现数据中心和云的现代化。此前,NVIDIA与VMware就曾合作改造基于 VMware Cloud Foundation 构建的现代数据中心,并将 AI 带给每个企业。从 NVIDIA 虚拟 GPU (vGPU)软件到 NVIDIA 先进的数据处理单元 (DPU), VMware 客户可以将加速的现代工作负载与现有的企业应用程序一起安全运行。
因此,AI就绪型企业级平台不过是两家合作的阶段性成果,但考虑到两家公司一直以来围绕着AI所进行的努力,本次发布的AI就绪型企业级平台如何融两家之所长,就形成了一个极大的看点。
AI就绪型企业级平台的新看点
事实上,AI就绪型企业级平台正是应对用户因应用现代化而对数据中心的需求而生的。由于企业纷纷通过对数据中心进行现代化升级来为AI应用和数据科学提供支持,因此NVIDIA和VMware利用AI就绪型企业级平台,大幅简化了混合云中各种不同AI工作负载的开发和部署。
两家公司联合使用NVIDIA AI Enterprise软件套件对刚刚发布的vSphere更新—— VMware vSphere 7 Update 2进行了AI应用优化。这对于数十万家使用vSphere实现计算虚拟化的企业而言,这一组合为他们的大量加速CUDA应用、AI框架、模型和SDK提供了扩展性、多节点性能和兼容性方面的便利。
VMware云平台业务部产品副总裁 Lee Caswell
VMware云平台业务部产品副总裁 Lee Caswell将AI就绪型企业级平台的优势概括为四个方面:提供面向AI和开发人员就绪的基础设施、易于实现系统扩展、保障基础架构和数据的安全性、简化操作。
在整个平台系统中,NVIDIA AI Enterprise是一套完整齐全的企业级AI工具和框架,它能够帮助制造、物流、金融服务、零售和医疗健康等众多行业优化业务流程、提升效率。凭借NVIDIA AI Enterprise,科学家和AI研究人员可以轻松访问NVIDIA领先的AI工具,推动高级诊断、智能工厂、欺诈检测等项目的AI发展。该解决方案解决了部署单个AI应用的复杂性问题,同时也消除了因手动配置和管理各种不兼容应用和基础设施软件而可能导致的潜在故障。
由于NVIDIA AI Enterprise专用在vSphere上运行,客户可以因此避免难以管理和不安全的AI专用系统孤岛。同时,还可以降低部署shadow AI(即数据科学家和机器学习工程师在IT生态系统之外采购资源)的风险。IT部门借此也可以实现更高的可用性,同时优化资源分配,并在本地和混合云中运行的AI工作负载中保障其宝贵的IP和客户数据的安全。
在当前的数据中心里,由于虚机、裸金属服务器等载体的存在,进行系统扩展往往是一件复杂的事情。而NVIDIA AI Enterprise却使虚拟工作负载能够在vSphere上以接近裸金属的性能运行,并通过NVIDIA A100 GPU在AI和数据科学领域获得突破性性能。现在,AI工作负载可以扩展到多个节点,即便是具有完整GPU虚拟化的大型深度学习训练模型也可以在VMware Cloud Foundation上运行。
NVIDIA副总裁兼企业及边缘计算总经理Justin Boitano
NVIDIA副总裁兼企业及边缘计算总经理Justin Boitano对此表示:“此前,全世界都在裸金属服务器上运行AI。NVIDIA AI Enterprise使客户能够将AI模型的开发时间从80周缩短到8周。现在,客户能够在VMware vSphere上部署和管理高级AI应用,并且像在裸机上一样获得可扩展的、首屈一指的NVIDIA加速计算性能。”
从用户的AI应用角度考虑,AI工作负载规模不一,对数据的要求也不尽相同。有些需要处理图像,例如实时流量报告系统或网上购物推荐系统等;另一些则基于文本,比如由对话式AI驱动的客户服务支持系统等。因此,训练一个AI模型需要使用的数据量可能令人难以置信,而且需要在多个节点的多个GPU上扩展性能。在部署中的模型上运行推理所需的计算资源一般较少,并且可能不需要用到整个GPU的性能。
针对这个问题,NVIDIA与VMware一起将vSphere打造成唯一一款通过NVIDIA多实例 GPU(MIG)技术为实时迁移提供虚拟机监视器支持的计算虚拟化软件。凭借MIG技术,每个A100 GPU可以在硬件层面被分割成多至7个实例,从而最大限度地提高各种规模工作负载的效率。
需要提及的一点是,基础架构管理软件的变革,需要的是一系列软、硬件厂商联动。而在获得NVIDIA许可证后,AI Enterprise for vSphere可在NVIDIA认证系统上得到支持。目前,获得NVIDIA认证系统认证的服务器包括了戴尔科技、新华三、慧与、浪潮、联想和超微等高容量服务器。即便是最先进、要求最严苛的AI应用,也能像传统企业工作负载一样,在通用基础设施上通过VMware vCenter等数据中心管理工具轻松获得支持。
对于国内用户而言,AI就绪型企业级平台绝对是一件值得关注的利器。国内针对AI的算力已居世界第一位,在2020年提出的新基建政策中,AI与云计算和5G一道成了新基建政策的三个支撑要素之一。从现在开始到不远的将来,一个智能型社会正在向我们走来。但越是如此,AI给基础设施造成的压力也就越大,在这个时候,国内的企业显然需要更多利器来应对这些问题。因此,我们可以说,AI就绪型企业级平台来得正是时候。
免责声明: 该文观点仅代表作者本人,Soft6软件网系信息发布平台,Soft6软件网仅提供信息存储空间服务。 未经允许不得转载,授权事宜请联系:support@soft6.com 如对本稿件有异议或投诉,请查看《版权保护投诉指引》