Ampere架构_GPU架构 - 线报百科mbji.cn

Ampere架构

GPU架构

Ampere架构是NVIDIA于 GTC 2020发布的GPU架构，NVIDIA Ampere 由540亿晶体管组成，是7nm芯片。

产品

NVIDIA A100

NVIDIA A100 Tensor Core GPU 可针对 AI、数据分析和 HPC，在各种规模上实现出色加速，应对世界面临的极其严峻的计算挑战。作为 NVIDIA 数据中心平台的引擎，A100提供较V100 GPU高达20倍的性能，且可以高效扩展集成数千个 GPU，或将每个 A100 分割为七个独立的 GPU 实例，加速各种规模的工作负载。

A100采用了NVIDIA Ampere架构的突破性设计，该设计为NVIDIA第八代GPU提供了迄今为止最大的性能飞跃，集AI训练和推理于一身，并且其性能相比于前代产品提升了高达20倍。

NVIDIA A100 GPU的突破性技术设计来源于五大关键性创新：A100采用多项突破性的技术，比如该架构包含超过540亿个晶体管，这使其成为全球最大的7纳米处理器；全新多实例GPU技术可将单个A100分割成最多七个独立的GPU来处理各种计算任务；第三代NVIDIA NVLink技术能将多个GPU组合成一个巨型GPU；全新结构化稀疏功能将GPU的性能提高一倍。具有TF32的第三代Tensor Core核心，其功能经过扩展后加入了专为AI开发的全新TF32，它能在无需更改任何代码的情况下，使FP32精度下的AI性能提高多达20倍。此外，Tensor Core核心支持FP64精度。

在云数据中心中，A100可赋能众多计算密集型应用，包括AI训练和推理、数据分析、科学计算、基因组学、边缘视频分析、5G服务等。

新增PCIe版本A100

PCIe版本A100使服务器制造商能够为客户提供丰富的产品组合——从内置单个A100 GPU的系统到内置10个或10个以上GPU的服务器等。这些系统可以为各种计算密集型任务加速，包括用于新药研发的分子动力学模拟、建立更好的按揭贷款审批财务模型等。

NVIDIA DGX™ A100

DGX A100系统集成了8个全新NVIDIA A100 Tensor Core GPU，具有320GB内存用以训练最大型的AI数据集，以及最新的高速NVIDIA Mellanox® HDR 200Gbps互连，具有高达5Petaflops 的AI性能。

利用A100的多实例GPU功能，每台DGX A100系统能够被分割为多达56个实例，用于加速多个小型工作负载的处理速度。凭借这些功能，企业可在一个完全集成的软件定义平台上根据自己的需求优化计算力和资源，加快数据分析、训练和推理等各种工作负载的速度。

NVIDIA DGXTM SuperPOD

该集群由140台DGX A100系统组成， AI计算能力高达700 Petaflops。利用Mellanox HDR 200Gbps InfiniBand互连技术，NVIDIA将140台DGX A100系统结合在一起，构建了DGX SuperPOD AI超级计算机，用于公司内部对话式AI、基因组学和自动驾驶等领域的研究。

NVIDIA EGX™ A100

NVIDIA发布EGX™ 边缘AI 平台产品EGX A100适用于较大型商业通用服务器上的，能够在边缘提供安全、高性能的AI处理能力。

借助于NVIDIA EGX™ 边缘AI平台，医院、商店、农场和工厂可以实时处理和保护来自数万亿个边缘传感器的数据流。该平台实现了服务器群的远程安全部署、管理和更新。

EGX A100是首个基于NVIDIA Ampere架构的边缘AI产品。随着AI日益向边缘发展，企业机构可将EGX A100添加到其服务器中，从而实时处理和保护来自边缘传感器的流式数据。

EGX A100结合了NVIDIA Ampere架构所具有的突破性计算性能与NVIDIA Mellanox® ConnectX-6 Dx SmartNIC所具备的网络加速和关键性安全功能，能将标准型和专用型的边缘服务器转变为极具安全性的云原生AI超级计算机。

NVIDIA Ampere为在边缘运行AI推理和5G应用等各类计算密集型工作负载提供了有史以来最大的性能飞跃，使EGX A100可以实时处理来自摄像头和其他物联网传感器的大量流式数据，从而更快地获得洞见并提高业务效率。

特点介绍

突破性创新

NVIDIA Ampere 架构以 540 亿个晶体管打造，包含六项关键的突破性创新。

第三代 Tensor 核心

NVIDIA Tensor 核心技术最先运用在 NVIDIA Volta™ 架构上，不只大幅加速人工智能，也将训练时间从数周降至数小时，同时显著提升推论速度。NVIDIA Ampere 架构以这些创新技术为基础，采用全新精度标准 Tensor Float 32 (TF32) 与 64 位浮点 (FP64)，以加速并简化人工智能应用，同时将 Tensor 核心效能拓展至高效能运算。

TF32 与 FP32 运作方式相同，无需更改任何程序代码即可将人工智能速度提升至最高 20 倍。透过 NVIDIA 自动混合精度，研究人员只要多加几行程序代码，就可以利用自动混合精度和 FP16 将效能提升 2 倍。而 NVIDIA Ampere 架构 Tensor 核心 GPU 中的 Tensor 核心透过支持 bfloat16、INT8 与 INT4，能为人工智能训练和推论创造极致多元的加速器。A100 和 A30 GPU 不只将强大的 Tensor 核心导入高效能运算，也支持完整矩阵运算、通过 IEEE 认证，并使用 FP64 精度。

多实例 GPU (MIG)

每个人工智能与高效能运算应用都能受益于加速，但并非所有应用都需要使用 GPU 的完整效能。多实例 GPU (MIG) 是 A100 和 A30 GPU 支持的功能，可让工作负载共享 GPU。MIG 让每个 GPU 能分隔成多个 GPU 实例，各自在硬件中完全独立且受保护，且具备个别的高带宽内存、快取和运算核心。不论大小，开发人员可为所有应用提供突破性加速，并获得服务质量保障。IT 管理人员可为最佳利用率提供规模适中的 GPU 加速，并将横跨实体与虚拟环境的访问权限扩展给每个使用者和应用。

第三代 NVLink

在跨多个 GPU 上扩充应用程序需要极快的数据移动速度NVIDIA Ampere 架构中的第三代 NVIDIA® NVLink® 可将 GPU 到 GPU 的直接带宽翻倍，达到每秒 600 GB (GB/秒)，比第四代 PCIe 速度快近 10 倍。搭配最新一代 NVIDIA NVSwitch™ 使用时，服务器中的所有 GPU 都能透过 NVLink 全速相互交流，执行极高速的数据传输。

NVIDIA DGX™A100 和其他计算机制造商的服务器充分运用 NVLink 和 NVSwitch 技术，透过 NVIDIA HGX™ A100 为高效能运算和人工智能工作负载打造的基板，提供更为优良的扩展性。

结构化稀疏

现代人工智能网络相当庞大且越来越大，有数百万、甚至数十亿个参数。精准预测与推论不需要用到所有参数，而有些参数可以转换为零，以确保模型变「稀疏」的同时不会牺牲准确性。Tensor 核心最高可以将稀疏模型的效能提高 2 倍。将模型稀疏化对于人工智能推论有益，同时也能改善模型训练效能。

第二代 RT 核心

NVIDIA A40 和 A10 GPU 中，NVIDIA Ampere 架构的第二代 RT 核心可大幅提升电影作品的拟真渲染、建筑设计评估，以及产品设计的虚拟原型制作等工作负载的速度。RT 核心还能加速光线追踪于动态模糊的渲染效果，以更快的速度获得更高的视觉准确度，还能在执行着色或噪声消除功能的同时，执行光线追踪。

更聪明、快速的内存

A100 为数据中心提供大量运算效能。为充分运用运算引擎，A100 具备领先同级产品的每秒 2 TB (TB/秒) 内存带宽，比前一代产品高出 2 倍多。此外，A100 的芯片内存也显著增加，具备 40 MB 的 2 级快取，为上一代产品的 7 倍，可将运算效能最大化。

边缘聚合加速

NVIDIA 聚合加速器结合 NVIDIA Ampere 架构和 NVIDIA BlueField®-2 数据处理器 (DPU)，带来的运算和网络加速能力，能够处理数据中心和边缘端产生的庞大数据量。BlueField-2 结合了 NVIDIA ConnectX®-6 Dx 的强大功能，以及可程控的 Arm 核心与硬件卸除功能，可适用于软件定义的储存空间、网络、安全性和管理工作负载。有了 NVIDIA 聚合加速器，客户就能以最高的安全性和效能执行数据密集型的边缘端和数据中心工作负载。

密度优化的设计

NVIDIA A16 GPU 采用四 GPU 主板设计，专为用户密度优化，并结合了 NVIDIA 虚拟 PC (vPC) 软件，让用户无论身在何处都可以使用绘图运算丰富的虚拟 PC。与仅使用 CPU 的 VDI 相比，NVIDIA A16 可提供更高的帧速率和较低的终端用户延迟，因此应用程序反应能更灵敏，并带来与原生 PC 无异的使用者体验。

参考资料

Ampere架构将成为NVIDIA未来产品线使用的统一架构|芯片.新浪网.

英伟达正式发布Ampere架构GPU，完成史上最大性能飞跃|英伟达.新浪网.

NVIDIA A100 | NVIDIA.NVIDIA.

最新修订时间：2023-09-10 12:54

条目作者

小编

资深百科编辑

概述

产品

参考资料