Hadoop 工作负载简介

Cloud Native Applications with Ampere Computing

Hadoop 工作负载简介

Hadoop 是一种开源框架，用于存储和处理从 GB 到 PB 的大型数据集。Hadoop 旨在从单台服务器扩展到数千台服务器，每台服务器都会提供本地计算和存储。

Ampere—赋能未来

在 Ampere Altra 处理器上部署 Hadoop

Ampere 的创新技术能够在每个CPU中包含更多内核，最大限度地增加了每个机架的内核数量。使用 Ampere Altra 处理器的集群受益于优化功耗的设计，可为大数据应用和其他数据湖技术实现更低的功耗和可预测的性能。每个机架的更高核心密度提高了机架利用率，这主要得益于更低的功率和对冷却更低要求，从而节省了采购资本支出和运营支出。

在本解决方案简介中，我们将引导您完成在 9 节点集群上执行的 TPCx-HS 和 Hadoop TeraSort 性能基准测试，每个集群都配备了 Altra Q80-30 处理器，机架中共有 720 个内核。

Ampere^® Altra^® 处理器是为云原生应用构建的完整片上系统 (SOC) 解决方案。 Ampere Altra 最多可支持 80 个 aarch64 内核。除了提供大量高性能内核外，其创新架构还提供可预测的高性能、线性扩展和电源效率。 Apache Hadoop 框架专为大型数据集的分布式处理而设计。Hadoop 旨在从单个服务器扩展到数千台服务器，每台机器都提供本地计算、存储或两者兼而有之。在集群部署时，该软件框架内置的弹性特点能够灵活处理有故障的服务器或服务器中有故障的特定组件。 Hadoop 是一个开源框架，用于存储和处理从 GB 到 PB 的大型数据集。Hadoop 集群多台服务器将并行分析数据。它由四个主要模块组成，HDFS（Hadoop 分布式文件系统）、YARN（Yet Another Resource Negotiator）、Map Reduce（MapR）和 Hadoop Common。应用程序以各种格式收集数据并将其输入到集群中。名称（主）节点，即 HDFS 文件系统的中心部分，拥有所有数据块的元数据信息，保存文件系统中所有文件的目录树，并记录文件数据在整个集群中的位置信息。MapR作业在 HDFS 中跨数据节点处理这些数据。上述所有任务都是计算密集型的。数据必须从需要高性能存储的 HDFS 中提取，在不同计算机之间进行协调，这些都需要高速网络，而且必须由数千个任务快速处理，最后由 reducer 聚合组织完成最终输出。

在 Ampere Altra 处理器上运行 Hadoop 的收益

云原生：Ampere Altra 专为云原生的工作负载而设计，可提供比 x86 同类产品更高的性能。

一致性和可预测性：Ampere Altra 处理器专为云原生应用而设计，可为 Hadoop 解决方案和激增的工作负载提供一致且可预测的性能。

可扩展性：凭借创新的可横向扩展架构，Ampere Altra 处理器具有更高核心数和极具竞争力的单线程性能。结合所有内核的一致频率特性，Ampere 处理器使大数据工作负载能够高效地进行纵向扩展和横向扩展。

高能效：行业领先的能效使 Ampere Altra 处理器的性能在达到极具竞争力水平的同时，消耗比竞争对手低得多的电力。

Ampere Altra 处理器

80个 64-bit内核，最大主频3.0 GHZ
单核 64 KiB i-Cache, 64 KiB d-Cache
单核 1MiB L2 Cache
32MB SLC （System Level Cache）
一致性网格互联架构

内存

8x72 bit DDR4-3200 channels
支持ECC & RAS
最大可配 16x DIMMS (2 DPC) 和 4TB 内存容量

单颗CPU提供128路 PCIe Gen4
通过4x16路 CCIX协议通道支持双路一致性互联

系统

Armv8.2 指令集，SBSA Level 4认证
高级电源管理模块

性能

SPECrate®2017 Integer Estimated: 300

Hadoop 架构

Hadoop Chart.svg

基准测试配置信息

我们使用 HiBench 和 TPCx-HS 基准测试工具来评估9个节点的Hadoop 集群性能。

TPCx-HS 基准测试是一个行业标准基准测试套件，对基于 Apache HDFS 的兼容发行版部署的硬件和软件进行压力测试。

它普遍被用于评估大数据系中最为广泛采用的系统拓扑和实施方法。

HiBench 是一个大数据基准测试套件，可帮助评估不同的大数据框架的速度、吞吐量和系统资源利用率。

HiBench 用于测量集群从 1 个节点扩展到 9 个节点的terasort输出

基准测试首先在单个节点上运行，然后将更多数据节点添加到集群中。第一个节点既用作名称节点又用作数据节点。调整 Hadoop 配置参数以最大限度地提高 CPU、存储和网络利用率，从而提高集群的吞吐量。

配置的详细信息请点击此处

测试数据总结

9 节点裸机集群上的 Hadoop 基准测试

这两种基准测试工具都将集群 CPU 利用率提高到 80% 以上。
在所有数据节点上观察到 NVMe 存储磁盘利用率约为 90%。
在横向扩展架构中使用 TPCx-HS 和 HiBench 工具可以明显观察到线性的扩展性。
在基准测试运行期间，使用 lm 传感器监控Ampere服务器 CPU 的实际功耗在 120-140 瓦之间。

Fig 1. Relative TPCx-HS Hadoop Benchmark

Fig 1. Relative HiBench TeraSort Benchmark

基准测试结论

Ampere Altra 处理器在横向扩展的集群中为每个节点提供出色的功率表现、线性的扩展性和很高的性能。大数据等解决方案需要强大的计算和持久存储能力。Ampere Altra 处理器随着工作负载呈线性扩展，而 Hadoop 和 MapReduce 框架在这种线性扩展架构下受益匪浅。在 Ampere Altra 处理器上运行大数据应用可同时利用纵向扩展和横向扩展架构。Ampere 架构中密集封装的内核减少了数据中心空间需求，而低功耗将降低任何 Hadoop 集群的总功耗和冷却要求，从而提供更好的投资回报。

脚注

此处包含的所有数据和信息仅供参考，Ampere 保留更改它的权利，恕不另行通知。本文档可能包含技术错误、遗漏和印刷错误，Ampere 没有义务更新或更正此信息。 Ampere 不作任何形式的陈述或保证，包括但不限于对不侵权、适销性或适用于特定目的的明示或暗示保证，并且不承担任何形式的责任。所有信息均“按原样”提供。本文件不是 Ampere 的要约或具有约束力的承诺。使用此处设想的产品需要随后的谈判和最终协议的执行，或者受 Ampere 的商品销售条款和条件的约束。

与 Ampere 测试中使用的不同的系统配置、组件、软件版本和测试环境可能会导致与 Ampere 获得的测量结果不同。

Ampere Computing^® / 4655 Great America Parkway, Suite 601 / Santa Clara, CA 95054 / amperecomputing.com

Created At : August 5th 2022, 4:21:04 pm

Last Updated At : June 1st 2023, 3:59:40 pm

Ampere Computing

4655 Great America Parkway

Suite 601 Santa Clara, CA 95054

| | | | | |

This site is running on Ampere Altra Processors.