AmpereOne® 是云计算技术具有革命性飞跃的一款产品。这款具有战略性设计的创新产品,可分解为计算、内存和 PCIe 子系统,并提供卓越的性能和效率。AmpereOne的不同可扩展单元都经过精心的设计和同步调配,通过最优化的制造工艺,为节能、高性能计算树立了新的行业标杆。这种模块化方法与现代云工作负载和云原生应用程序完美契合。
AmpereOne 是基于 TSMC 的 5nm 工艺构建,包含内核、缓存和一致性引擎。PCIe 和内存控制器都有自己的 I/O 小芯片,基于 TSMC 的 7nm 工艺构建,由适当的控制器和 PHY 组成。
Ampere 开发了自己的定制 Die-to-Die 互连,将这些 Die 连接在一起,每个方向的聚合带宽可达 2.8TB/s。分解(Disaggregation)的设计方法能够实现更好灵活性和效率。
Ampere 在今年5 月发布的年度战略和产品路线图更新视频中宣布了 AmpereOne 之后的下一代处理器12 通道的 AmpereOneM。AmpereOneM使用模块化架构,可以使用与 8 通道平台相同的构建块创建 12 通道平台(图1)。这种方法使 Ampere 能够快速集成客户知识产权,并为不同的应用程序和客户定制 I/O。
计算芯片:由一个核心簇集群组成,中每组包含 4 个 Ampere 自研内核。这个核心簇复制排列为:6 列,每列 8 组,共计192 个内核(图2)。
每个一致性引擎都包含系统级缓存和 snoop 过滤器。两个一致性引擎块被重复并列排列,用于 64MB 的系统级缓存和 snoop 过滤器,以监测总大小为 384MB 的L2缓存。die-to-die 接口用于连接到 I/O die。所有这些组件都与全联的 8x9 网格相连,提供高达 5.7 TB/s 的横截面带宽。
I/O 小芯片:计算芯片连接到 MCU 和 PCIe I/O 芯片(图3)。每个 MCU 芯片支持 2 个 DDR5 通道,其中 4 个芯片提供 8 个 DDR5 通道。PCIe 芯片提供 32 个 PCIe 5.0 通道。
每个小芯片有 8 个控制器来支持不同级别的分叉(bifurcation),因此 AmpereOne 总共支持 128 个 PCIe 5.0 通道。
Ampere 的计算-内存-IO 分解方法与云优先设计原则保持一致,为各种工作负载提供性价比、能效和规模优势,包括 AI 推理、数据库、媒体转码、Web 服务等。低延迟互连可最大限度地减少计算单元和内存之间的通信开销和功耗。计算和 IO 小芯片的这种分解可以更有效地利用处理能力,这对于拥有高内核数的 AmpereOne 处理器中至关重要。