大数据解决方案
大数据的批处理和分析在Ampere处理器上运行的最好
大数据解决方案需要强大的计算能力以及持久且高性能的存储和网络资源。
Ampere® Altra® Ampere Altra,专为云原生而设计的处理器,为大数据解决方案提供一致且可预测的性能。其高核心数、极其出色的单线程性能和一致的频率使大数据工作负载可以非常有效地向外扩展。与传统 x86 处理器相比,Ampere 处理器的功耗要低得多。每个机架的低功耗和高核心密度可以直接转化为资本支出和运营支出的节省。
关键收益
扩展性
可以非常可靠地进行规模化扩展!在我们的 Hadoop TPCx-HS 测试(图 1)中,我们通 集群中的 9 个节点观察到接近线性的扩展。该数据是在基于 Amper Altra 的 Hammerhead 裸金属服务器集群上获得的。 如果您希望在高性能集群上运行横向扩展工作负载,您可以访问我们的 Hammerhead 集群
云原生的高性能
Ampere Altra 处理器是为云原生应用构建的完整片上系统 (SOC) 解决方案。图 2 到 4 描述了云虚拟机上的 Spark 和 Hadoop、TPC-DS 和 Terasort 工作负载测试数据。 Ampere VM 的表现远高于产品。Spark Terasort 的性能比英特尔 Skylake 高 73%,比 AMD Milan 高 13%(图 4)。
一致性和可预测性
Ampere 处理器为大数据解决方案和突发工作负载提供一致且可预测的性能。
高能效
Ampere 处理器具有行业领先的能效,比竞品消耗的电力低得多。
使用与 Ampere 测试中不同的系统配置、组件、软件版本和测试环境可能会导致与 Ampere 获得的测量结果不同。 我们测试中使用的系统配置和组件在 这里
大数据架构旨在处理大型复杂数据的摄取、处理和分析。大数据工作负载管理大量数据,出于业务目的对其进行分析,根据数据分析操作以实现商业智能,并协调大数据分析工具,更有效地从超大型数据池中提取重要的业务信息。
大数据解决方案包括以下类型的工作负载:
-静态大数据源的批处理。
数据源包括
分布式数据存储是解决方案的重要组成部分。数据存储的大小范围从 GB 到 PB 不等,具有多种不同格式。 大数据应用程序使用长时间运行的批处理作业来处理这些文件,以过滤、聚合和格式化数据,供以后数据分析使用。
Hadoop分布式文件系统(HDFS)是大数据存储层的一个组件。 HDFS 中的文件被分成块大小的块,称为数据块,这些块在集群内进行复制,实现存储弹性。
YARN 管理应用程序的资源。 YARN 将 MapReduce 的管理和调度功能解耦。 YARN 有多个节点可以在第一个节点发生故障的情况下恢复执行。
MapReduce 的算法分配作业并在集群中运行他们,单个任务分为多个任务,在不同的机器上运行。
Hadoop 是一个开源软件框架,用于在商业硬件集群上存储数据和运行应用程序。
Apache Spark 用于在单节点机器或集群上执行数据工程、数据科学和机器学习。它利用内存缓存和优化的查询执行,对任何大小的数据进行快速分析查询。它在 Java、Scala、Python 中提供 API,并支持实时分析、批处理、交互式查询和机器学习中的多种工作负载。Spark 通过在内存中处理和跨多个并行操作重用数据来解决 MapReduce 的局限性。Spark 依赖于其他存储系统,如 HDFS、Couchbase、Cassandra 等
Hive 是一个分布式数据仓库系统。Hive 用于处理 Hadoop 中的大部分结构化数据。Hive 允许用户使用 SQL 读取、写入和管理 PB 级的数据。Hive 可以利用 MapReduce 查询大型数据集。
Pig用于分析大量数据。它是一种在集群客户端运行的过程数据流语言,也可以处理半结构化数据。
HBase 是一个运行在 HDFS 之上的列式数据库。HBase 提供了一种容错的数据集存储方式,非常适合实时处理大量随机读写数据。
Mahout 是一个基于 Apache Hadoop 并使用 MapReduce 实现的机器学习算法库。Mahout 提供数据科学工具来自动在大数据集中找到最有意义的模式。
HCatalog 允许您使用 Pig、Spark 和自定义 MapReduce 应用程序访问 Hive Metastore 表。它公开 REST API 和命令行客户端以创建表和其他操作。
Apache Ambari 是一个开源平台,它通过提供易于使用的 Web UI 和 REST API 来简化 Apache Hadoop 集群的配置、管理、监控和安全性。它提供了安装 Hadoop 服务的分步向导。
Zookeeper 在 Hadoop Cluster 中提供运营服务。分布式应用程序使用 Zookeeper 来存储元数据,并用作分布式配置服务和分布式系统的命名注册表。
Apache Oozie 是一个工作流工具。用户可以使用绑定在一起,并作为一个逻辑实体提交给 Yarn 的各种作业的依赖关系来构建工作流。 Oozie 就像一个 cron 并将作业提交给执行作业的 Yarn。
大数据解决方案回归测试
大数据基础设施用于多种分析应用,包括石油、天然气、医疗保健、零售、电信和金融服务。利用这些数据可以提高运营效率、进行需求预测、定价优化以及其他财务与合规分析。最新 aarch64 版本上的大数据基础设施组件的回归测试即将推出。