应对 AI 发展带来的计算挑战,什么样的处理器才是最佳选择?
为长期运行的计算密集型 AI 训练和大规模 AI 推理选择合适的 CPU 或 GPU,本质上是要为您的应用选择适宜的计算解决方案。相比传统 x86 处理器成本高、能耗大,最新的 Ampere 云原生处理器助力打造高能效、高性能的 AI 推理应用,是其理想的替代方案,同时也是用于 AI 训练和大语言模型(LLM)推理 GPU 的高性价比之选。
从 20 世纪 50 年代的首个实例,到如今更为复杂的机器学习、深度学习,甚至是生成式 AI 技术,高性能计算的需求始终是驱动 AI 计算发展的引擎,但模型的研究和训练往往需要投入高昂的成本。
目前,AI 技术已进入广泛应用的阶段,也出现了为 AI 推理超额配置计算的情况,这导致了高昂的成本支出(无论是硬件的单位成本,还是硬件运行的电力成本)。因此,为不同类型的 AI 工作负载采用 GPU-Only 虚拟机的做法,正在被能够大幅降低 AI 计算能耗的其他方案所替代。
与传统计算相比,运行 AI 需要更高的能耗。Bloomberg 对此进行了详细介绍:ChatGPT3 的参数量达到 1,750 亿,消耗了高达 1.287 千兆瓦时电量,相当于 120 户美国家庭一年的耗电量。而类似 ChatGPT4 这样的新模型(预计参数量达到 1.7 万亿),将比 ChatGPT3 消耗更高的电量。
由于 AI 带来的能耗需求飙升,配置适度算力并减少所需的计算量是行业迫在眉睫的需求。云原生计算可助力降低运行成本,为配置硬件层面的适度算力奠定基础,满足当前和未来的计算需求,并降低能耗。
配置适度算力,满足计算和效率需求
云原生处理器是 CPU 架构的一项创新,是 AI 推理切实可靠的新选择,可替代高成本、高能耗的传统 x86 处理器。为 AI 应用程序配置适度算力,意味着您可以决定使用 CPU-Only,或是将云原生处理器的能效、可扩展性和计算性能与 GPU 的并行计算能力相结合。
如您希望拥有价值及能效更高的 AI 解决方案,告别传统方案导致的高成本和高能耗,可遵循以下 3 项简单准则 :
1. 仅部署可满足应用程序性能需求的计算量,并尽可能多地使用通用处理器,而非专用处理器。此举有助于保持灵活性,以便满足未来的计算需求。
2. 相比传统的 x86 处理器,您可以借助 Ampere 云原生处理器带来的性能增益,在 CPU-Only 的情况下部署更广泛的 AI 工作负载。
3. 将 GPU 与高能效的云原生处理器相结合,以处理任务更繁重的 AI 训练或 LLM 推理工作负载。
若您想了解关于 Ampere 云原生处理器能效的更多精彩内容,请参阅指南: “《云原生处理器助力数据中心效率劲升三倍“.
仅部署您所需的计算量
在 AI 技术发展的研究和训练阶段,GPU 是所有 AI 应用(包括建模和推理)的首选处理器。虽然 GPU 推动了 AI 的发展,但对于许多 AI 应用而言,GPU 提供的算力已经过剩,尤其是针对离线(batch)推理或批量推理而言。
离线推理(Batch Inference)应用是算力要求较低的工作负载,不需要 GPU 的处理能力:为此而购买 GPU,犹如为了 5 公里的上班路程购置豪华跑车——这显然是大材小用。当把同样昂贵的 GPU 硬件分别用于运行大型和小型模型时,小模型可能仅用了 GPU 能力的一小部分。在这些情况下,CPU 可以代替 GPU,帮助您节省能耗、空间和成本。
在处理离线推理时,那些遵循默认做法而采用 GPU 方案的客户,至少错过了两种更合适的优化方案。方案一是将 GPU 替换成适用于 AI 推理的高性能云原生处理器。方案二是将 GPU 与云原生处理器进行结合,以实现更高效的 LLM 推理和训练工作。这正是我们所定义的"适度算力"。
以下模型呈现了如何为 AI 应用程序配置适度算力,同时也对比了性能、计算需求与所需功耗。根据模型,CPU-Only 解决方案是纯 AI 推理计算的优选项,而需要更高性能的应用程序,可以在 CPU 和 GPU 的组合上运行。
当然,CPU 的选择也决定着您将付出的能耗以及获得的每瓦性能。而云原生处理器的性能优势和 Ampere 优化的 AI 软件,让 CPU 成为运行 AI 推理工作负载的理想之选。
将 AI 推理全部迁移至云原生处理器
欢迎加入云原生社区,这里汇聚了众多开发和设计人员。他们发现仅使用 Ampere 云原生处理器,也能够实现高效的 AI 推理。Ampere 优化的 AI 框架支 Ampere 优化的 AI 框架支持所有在最流行 AI 框架中开发的模型,包括 PyTorch、TensorFlow 和 ONNX Runtime,这种丰富的集成提供了无缝的体验,且无需修改 API 或进行额外的模型编码。
相比传统的 x86 处理器,Ampere Altra 系列云原生处理器在 AI 推理方面拥有显著的性能优势,包括:
Ampere AI 优化软件可提供更高效的 AI 推理。基于 Ampere 处理器的 AI 和 ML 推理工作负载,可通过 Ampere AI 解决方案的软件框架进行优化。通过使用 Ampere AI 解决方案,基于 CPU 的推理工作负载能够获得在成本、性能、可扩展性和能效等方面的优势,同时用户能够使用常见的标准 AI 框架进行编程。这套框架易于使用,无需转换代码,并且免费。
借助 fp16 数据格式的独特支持,Ampere Altra 系列处理器可实现最佳的推理性能——与 fp32 数据格式相比,fp16 数据格式可提供高达 2 倍的额外*加速,并且精度损失微乎其微。
将 GPU 与高能效 CPU 结合,开展 AI 训练和推理
在需要使用 GPU 的 AI 应用中,繁重的 AI 工作负载由 GPU 处理,而 CPU 则需要充当系统主机。在这样的应用中,因为 GPU 决定了系统性能,所以无论使用哪种 CPU,它们的性能始终相同。
CPU 之间的区别在于其整体效率。与传统 x86 CPU 相比,云原生处理器将为您带来高能效,帮助显著降低系统的总体能耗*,并提供同等的性能。
采用云原生处理器,每台服务器可以节省数百瓦电力,这足以让您在每个机架上再增加一台服务器。虽然看似收益颇微,但实际上通过每机架增加一台服务器,整个数据中心的计算密度将大幅提升。此外,在服务器层面节省能耗还可以减少对冷却系统的依赖,从而节省更多成本,并进一步降低能耗。
云原生处理器与 GPU 相结合,有助于实现目标性能,并降低能耗和总体成本。
未来的 AI:强大、高效、开放
随着 AI 加速涌入我们的生活和工作,我们需要克服的最关键障碍,是如何降低 AI 大规模应用的成本,而适度算力以及模型优化能够带来规模效率。
为计算配置适度算力,不仅需要确保硬件解决方案能满足当前的计算需求,还需要能够支持应用程序扩展,并经得起未来的算力需求考验。Ampere 云原生处理器为您提供广泛的选择,既能满足您当前的需求,同时具备灵活性,可轻松满足您未来的需求。无论您是选择 CPU-Only 的方案,还是 GPU 与 CPU 相结合的解决方案,云原生架构都拥有性能和效率优势,契合您当前和未来的计算需求。
为云计算而生,Ampere 云原生处理器为行业提供可预测的卓越性能、平台可扩展性和空前的能效。
欢迎您与我们的 专业销售团队 洽谈合作,获取更多信息,或通过我们的 开发者体验计划. 或通过我们的开发者体验计划试用 Ampere System。
注释:
**本文的 AI 计算比较基于 Ampere Computing 测量和发布的基准。 访问此处可阅读更多详情和注释:Details and footnotes are available here.
免责声明
本文件中包含或披露的所有数据和信息仅供参考,可能发生变化。
未经Ampere® 书面许可,不得使用、复制或复印本文件的全部内容,也不得向他人展示本文件。
©2023 Ampere® Computing LLC. 保留所有权利。Ampere®、Ampere® Computing、Altra和Ampere® logo 均为Ampere® Computing LLC或其附属公司的商标。本出版物中使用的其他公司的名称或产品名称可能为其各自公司的商标,此处仅作辨识之用。