公司
解决方案
工作机会
Search
CN
CN
EnglishChinese
Ampere Computing Logo
解决方案
解决方案主页
SolutionsCloud Native SolutionsTuning Guides OverviewTutorials OverviewWorkload Briefs Overview如何购买
开发者
开发者中心设计云应用构建云应用部署云应用把数据用起来使能开源社区Ampere Ready SoftwareCommunity Forum
Search
Solutions with Ampere Cloud Native Processors

大数据解决方案

大数据的批处理和分析在Ampere处理器上运行的最好

大数据解决方案
关键收益
架构
组件
框架
常见问题
资源
外部链接
测试与回归
大数据解决方案回归测试
推荐系统
大数据解决方案

概述

大数据解决方案需要强大的计算能力以及持久且高性能的存储和网络资源。

Ampere® Altra® Ampere Altra,专为云原生而设计的处理器,为大数据解决方案提供一致且可预测的性能。其高核心数、极其出色的单线程性能和一致的频率使大数据工作负载可以非常有效地向外扩展。与传统 x86 处理器相比,Ampere 处理器的功耗要低得多。每个机架的低功耗和高核心密度可以直接转化为资本支出和运营支出的节省。

Relative Hadoop TPCx-HS Linear Scalability (Ampere Altra processors)

关键收益

扩展性

可以非常可靠地进行规模化扩展!在我们的 Hadoop TPCx-HS 测试(图 1)中,我们通 集群中的 9 个节点观察到接近线性的扩展。该数据是在基于 Amper Altra 的 Hammerhead 裸金属服务器集群上获得的。 如果您希望在高性能集群上运行横向扩展工作负载,您可以访问我们的 Hammerhead 集群

云原生的高性能

Ampere Altra 处理器是为云原生应用构建的完整片上系统 (SOC) 解决方案。图 2 到 4 描述了云虚拟机上的 Spark 和 Hadoop、TPC-DS 和 Terasort 工作负载测试数据。 Ampere VM 的表现远高于产品。Spark Terasort 的性能比英特尔 Skylake 高 73%,比 AMD Milan 高 13%(图 4)。

一致性和可预测性

Ampere 处理器为大数据解决方案和突发工作负载提供一致且可预测的性能。

高能效

Ampere 处理器具有行业领先的能效,比竞品消耗的电力低得多。

使用与 Ampere 测试中不同的系统配置、组件、软件版本和测试环境可能会导致与 Ampere 获得的测量结果不同。 我们测试中使用的系统配置和组件在 这里

架构

大数据架构旨在处理大型复杂数据的摄取、处理和分析。大数据工作负载管理大量数据,出于业务目的对其进行分析,根据数据分析操作以实现商业智能,并协调大数据分析工具,更有效地从超大型数据池中提取重要的业务信息。

大数据解决方案包括以下类型的工作负载:

-静态大数据源的批处理。

  • 实时处理大量动态数据。
  • 大数据集的交互式探索。
  • 预测分析和机器学习。

bigdata.jpeg

数据源包括

  • 静态文件,如应用程序日志文件
  • 应用数据
  • 结构化和非结构化数据集
  • 实时数据源,比如IoT数据

分布式数据存储是解决方案的重要组成部分。数据存储的大小范围从 GB 到 PB 不等,具有多种不同格式。 大数据应用程序使用长时间运行的批处理作业来处理这些文件,以过滤、聚合和格式化数据,供以后数据分析使用。

组件

BigData Eco System.png

HDFS(Hadoop Distributed File System)

Hadoop分布式文件系统(HDFS)是大数据存储层的一个组件。 HDFS 中的文件被分成块大小的块,称为数据块,这些块在集群内进行复制,实现存储弹性。

YARN(Yet Another Resource Negotiator)

YARN 管理应用程序的资源。 YARN 将 MapReduce 的管理和调度功能解耦。 YARN 有多个节点可以在第一个节点发生故障的情况下恢复执行。

MapReduce

MapReduce 的算法分配作业并在集群中运行他们,单个任务分为多个任务,在不同的机器上运行。

Hadoop

Hadoop 是一个开源软件框架,用于在商业硬件集群上存储数据和运行应用程序。

Spark

Apache Spark 用于在单节点机器或集群上执行数据工程、数据科学和机器学习。它利用内存缓存和优化的查询执行,对任何大小的数据进行快速分析查询。它在 Java、Scala、Python 中提供 API,并支持实时分析、批处理、交互式查询和机器学习中的多种工作负载。Spark 通过在内存中处理和跨多个并行操作重用数据来解决 MapReduce 的局限性。Spark 依赖于其他存储系统,如 HDFS、Couchbase、Cassandra 等

Hive

Hive 是一个分布式数据仓库系统。Hive 用于处理 Hadoop 中的大部分结构化数据。Hive 允许用户使用 SQL 读取、写入和管理 PB 级的数据。Hive 可以利用 MapReduce 查询大型数据集。

Pig

Pig用于分析大量数据。它是一种在集群客户端运行的过程数据流语言,也可以处理半结构化数据。

HBase

HBase 是一个运行在 HDFS 之上的列式数据库。HBase 提供了一种容错的数据集存储方式,非常适合实时处理大量随机读写数据。

Mahout

Mahout 是一个基于 Apache Hadoop 并使用 MapReduce 实现的机器学习算法库。Mahout 提供数据科学工具来自动在大数据集中找到最有意义的模式。

HCatalog

HCatalog 允许您使用 Pig、Spark 和自定义 MapReduce 应用程序访问 Hive Metastore 表。它公开 REST API 和命令行客户端以创建表和其他操作。

Ambari

Apache Ambari 是一个开源平台,它通过提供易于使用的 Web UI 和 REST API 来简化 Apache Hadoop 集群的配置、管理、监控和安全性。它提供了安装 Hadoop 服务的分步向导。

Zookeeper

Zookeeper 在 Hadoop Cluster 中提供运营服务。分布式应用程序使用 Zookeeper 来存储元数据,并用作分布式配置服务和分布式系统的命名注册表。

Oozie

Apache Oozie 是一个工作流工具。用户可以使用绑定在一起,并作为一个逻辑实体提交给 Yarn 的各种作业的依赖关系来构建工作流。 Oozie 就像一个 cron 并将作业提交给执行作业的 Yarn。

框架
Hadoop
Hadoop 是一种开源框架,用于存储从 GB 到 PB 的大型数据集。 Hadoop 旨在从单台计算机扩展到数千台计算机,每台计算机都提供本地计算和存储。
Spark
Apache Spark 是用于大数据工作负载的开源分布式处理系统。与将文件读取和写入 HDFS 的 hadoop 不同,Spark 使用 RDD(弹性分布式数据集)使用内存缓存来处理数据。
Apache_Spark_logo.png
常见问题

大数据的常见问题

测试和回归

解决方案和回归测试

大数据解决方案回归测试

大数据基础设施用于多种分析应用,包括石油、天然气、医疗保健、零售、电信和金融服务。利用这些数据可以提高运营效率、进行需求预测、定价优化以及其他财务与合规分析。最新 aarch64 版本上的大数据基础设施组件的回归测试即将推出。

Apache Flink logo
Apache Flink
100% 已验证 / 0% 未验证
了解更多
Apache Hadoop logo
Apache Hadoop
100% 已验证 / 0% 未验证
了解更多
Apache  Kafka
Apache Kafka
0% 已验证 / 100% 未验证
了解更多
Apache Spark logo
Apache Spark
100% 已验证 / 0% 未验证
了解更多
Apache Storm logo
Apache Storm: DockerHub Official Image
83% 已验证 / 17% 未验证
了解更多
Zookeeper_logo
Zookeeper: DockerHub Official Image
100% 已验证 / 0% 未验证
了解更多
推荐系统
Created At : August 16th 2022, 9:39:49 am
Last Updated At : June 22nd 2023, 9:39:35 pm

Ampere Computing

4655 Great America Parkway

Suite 601 Santa Clara, CA 95054

image
image
© 2022 Ampere Computing LLC. All rights reserved. Ampere, Altra and the A and Ampere logos are registered trademarks or trademarks of Ampere Computing.
This site is running on Ampere Altra Processors.