Ampere Computing Logo
Contact Sales
Ampere Computing Logo
Workloads Ampere Altra

X264 工作负载简介

用于对视频流进行编码的开源软件库和应用程序。

AMPERE—赋能未来

Ampere® Altra® 和 Ampere® Altra® Max 处理器是为云原生应用构建的完整片上系统 (SOC) 解决方案。 Ampere Altra Max 最多支持 128 个内核。 除了提供大量高性能内核外,其创新架构还提供可预测的高性能、线性扩展和高能效。

在线视频市场持续快速增长,推动了视频转码压缩的应用,这样可以大大减少存储空间和网络带宽。Ampere Altra Max提供行业领先的性能和能效,非常适合用于 x264 的视频转码。

在 Ampere Altra Max 处理器上部署 x264

Ampere Altra Max 旨在为视频转码等应用提供卓越的性能和能效。我们将使用 libx264,它实现了当今最广泛使用的 H.264/MPEG-4 AVC 标准。Ampere Altra Max 采用创新的架构设计,以一致的频率与单线程内核运行,使应用程序更能抵抗“相邻干扰”问题,保证工作负载以可预测的方式或最小的差异下运行。 加上Ampere Altra Max 处理器的高能效设计,为 x264 提供了出色的性能和能效比。

在Ampere Altra Max 处理器上运行 x264 的收益
  • 云原生:Ampere Altra Max 专为 x264 等云原生工作负载而设计,性能比最好的 x86 服务器最大可高出 2.09 倍。

  • 高能效:凭借多达 128 个高能效 Arm 内核,Ampere Altra Max 的功耗比领先的 x86 服务器低 1.3 倍,而性能更高。

  • 降低碳足迹:行业领先的性能和高能效使得Ampere Altra Max 表现出高达 2.8 倍的性能/瓦特,实现更低的总体拥有成本和更少的碳足迹。

  • 可扩展性:Ampere Altra Max 处理器在插槽级别提供始终如一的性能,优于最好的 x86 服务器。在云中多租户环境中对“相邻干扰”问题有更高的抵抗力。

Ampere Altra Max 处理器
  • 128个 64-bit内核,最大主频3.0 GHZ
  • 单核 64 KiB i-Cache, 64 KiB d-Cache
  • 单核 1MiB L2 Cache
  • 16MB SLC (System Level Cache)
  • 一致性网格互联架构

内存

  • 8x72 bit DDR4-3200 channels
  • 支持ECC & RAS
  • 最大可配 16x DIMMS (2 DPC) 和 4TB 内存容量

外部连接

  • 单颗CPU提供128路 PCIe Gen4
  • 支持双路一致性互联
  • 4x16路 CCIX协议通道

系统

  • Armv8.2 指令集,SBSA Level 4认证
  • 高级电源管理模块

性能

  • SPECrate®2017Integer Estimated: 350
基准测试配置信息

我们评测x264的工具是“vbench”:一种用于云中视频转码,新兴的视频即服务工作负载的测试基准,可在 这里 获取。 Vbench 的 15 个输入视频经过算法选择,代表了基于分辨率、帧速率和复杂性的数百万视频的大型商业语料库。我们使用“上传”和“视频点播”配置来评估性能和功耗。上传使用单通道转码,这样不会降低输入视频质量,这也是视频服务的初始上传编码的代表,它对上传速度和视频质量有一定要求。视频点播 (VoD) 配置使用 2 遍转码,它需要速度和更好的压缩,同时不会降低视频质量。 VoD 第一遍收集第二遍中使用的统计信息,以便在编码复杂帧与简单帧时分配更多位。

为了最大化 ffmpeg 吞吐量,我们运行多个 ffmpeg 实例,数量等于插槽上可用的 CPU 内核数,每个实例使用一个 ffmpeg 线程。使用 numactl 设置亲和力,让所有 ffmpeg 实例都运行在同一个 CPU,并分别赋以专用的 CPU 内核。我们得到了为每个 ffmpeg 进程转码 15 个 vbench 输入文件的平均时间和 CPU 的整体功耗情况。为了最大限度地减少操作系统开销,ffmpeg 二进制文件以及所有输入和输出文件都存储在 ramdisk 上。我们将 Ampere Altra Max M128-30 处理器与运行 CentOS 8.4 和 4.18 内核的 Intel® Xeon® Platinum 8380 (Ice Lake) 和 AMD EPYC™ 7763 (Milan) 进行了比较。我们在所有平台上使用 gcc 11 构建了 ffmpeg 版本和 libx264 的最新可用版本。有关其他详细信息,包括运行 ffmpeg 命令,请参阅下面的其他基准测试详细信息描述。

转码性能

与 Intel Xeon 8380 和 AMD EPYC 7763 相比,Ampere Altra Max 使用 x264 运行 ffmpeg 进行转码的性能最佳。在图 1 中,我们绘制了每个 ffmpeg 进程的平均转码时间,对于上传和 VoD 配置两种情况,Ampere Altra Max 比 Intel Xeon Platinum 8380分别快 2.09 倍和 1.79 倍。Ampere Altra Max 在上传和视频点播方面比 AMD EPYC 7763 (Milan) 分别快 1.15 倍和 1.05 倍。

Fig 1: Average Transcode Time (Lower is Better)
转码的能效

除了更佳的转码性能外,Ampere Altra Max 还是更节能的处理器,可以显著减少视频转码所产生的碳足迹。 在图 2 中,我们绘制了单插槽的功耗情况,显示 Ampere Altra Max 的能效比Intel® Xeon® Platinum 8380 处理器(Ice Lake)高 1.17 倍,上传配置情况下与 AMD EPYC™ 7763(米兰)相比高 1.24 倍。在 VoD配置下,Ampere Altra Max 的能效比 Intel® Xeon® Platinum 8380 处理器(Ice Lake)高 1.22 倍,比 AMD EPYC™ 7763(米兰)高 1.29 倍。

Fig 2: Socket Level Power
基准测试数据和结论

Ampere Altra Max 处理器是为云原生应用构建的完整片上系统 (SOC) 解决方案,为使用 x264 的视频转码等应用提供卓越的性能和能源效率。运行x264工作负载,Ampere Altra Max 提供行业领先的性能和出色的能效,与Intel® Xeon® Platinum 8380 相比,性能提高了 2.09 倍,能效提高了 1.22 倍;与 AMD EPYC 7763 相比,Ampere Altra Max 的速度提高了 1.15 倍,能效提高了 1.29 倍。 除了提供更快的视频转码外,Ampere Altra Max 的创新架构通过其高能效设计还提供可预测的高性能,而且能显著减少了视频转码所带来的碳足迹。

脚注

此处包含的所有数据和信息仅供参考,Ampere 保留更改它的权利,恕不另行通知。本文档可能包含技术错误、遗漏和印刷错误,Ampere 没有义务更新或更正此信息。 Ampere 不作任何形式的陈述或保证,包括但不限于对不侵权、适销性或适用于特定目的的明示或暗示保证,并且不承担任何形式的责任。所有信息均“按原样”提供。本文件不是 Ampere 的要约或具有约束力的承诺。使用此处设想的产品需要随后的谈判和最终协议的执行,或者受 Ampere 的商品销售条款和条件的约束。

与 Ampere 测试中使用的不同的系统配置、组件、软件版本和测试环境可能会导致与 Ampere 获得的测量结果不同。

©2022 Ampere Computing 版权所有。Ampere、Ampere Computing、Altra 和“A”标志都是 Ampere Computing 的注册商标或商标。 Arm 是 Arm Limited(或其子公司)的注册商标。本出版物中使用的所有其他产品名称仅用于识别目的,可能是其各自公司的商标。

Ampere Computing® / 4655 Great America Parkway, Suite 601 / Santa Clara, CA 95054 / amperecomputing.com

Created At : August 17th 2022, 5:20:20 am
Last Updated At : December 9th 2024, 7:04:57 pm
Ampere Logo

Ampere Computing

4655 Great America Parkway

Suite 601 Santa Clara, CA 95054

image
image
 |  |  |  |  | 
© 2022 Ampere Computing LLC. All rights reserved. Ampere, Altra and the A and Ampere logos are registered trademarks or trademarks of Ampere Computing.
This site runs on Ampere Processors.