如何做到性能翻倍 NVIDIA Ampere架构解析

2020-12-11 05:09:00 [ 中关村在线原创 ] 作者：曲楠 | 责编：郎孟华

持续了一个月的“显卡发布季”已经告一段落，截止目前NVIDIA发布了GeForce RTX 3060 Ti/3070/3080/3090共4个型号的显卡，相比上一代显卡，RTX 30系显卡再次做到了性能翻倍的神话。除了性能上的提升，新的NVIDIA Ampere架构还带来了第二代RT Core和第三代Tensor，虽然RTX 30系显卡拥有诸多提升，但价格却与上一代显卡相同，在9月2日发布会当天，虽然过程仅有短短的40分钟，却震惊了全世界的用户。

01 算力提升

下面我们就来看看，“有史以来最伟大性能提升”相比上一代的NVIDIA Turing架构，做了哪些提升。

第一代RTX架构 Turing

第二代RTX架构 Ampere

首先来简单回顾一下在9月2日发布会的PPT上我们都看到了什么，相较于初代的Turing RTX架构，NVIDIA Ampere架构在算力上有着成倍的增长，每个时钟执行2次着色器运算，而Turing为1次，着色器性能达到30 TFLOPS单精度性能，而Turing为11 TFLOPS。

NVIDIA Ampere架构翻倍了光线与三角形的相交吞吐量，RT Core达到58 RT TFLOPS，而Turing为34 RT TFLOPS。

另外在全新的Tensor Core中，可自动识别并消除不太重要的DNN权重，处理稀疏网络的速率是Turing的两倍，算力高达238 Tensor TFLOPS，而Turing为89 Tensor TFLOPS。

芯片说明

全新的NVIDIA Ampere GPU核心拥有280亿个晶体管，628平方毫米的面积，基于三星的8nm NVIDIA定制工艺，来自美光的GDDR6X显存，以及我们上面说的，三大处理核心均为初代Turing的两倍速率，构成了有史以来性能最强大的Ampere。

02 SM单元的改变

而NVIDIA Ampere架构的强大性能并不是NVIDIA一蹴而就，可以说在20系显卡中所采用的Turing架构功不可没，下面我们先来看看完整的GA102核心。

完整的GA102核心

完整的GA102 GPU包含7个GPC（图形处理集群）42个TPC（纹理处理集群）以及84个SM（流处理器）组成。GPC是占据主导地位的高级模块，拥有所有的关键图形处理单元，每个GPC包含一个专用光栅引擎。在新的NVIDIA Ampere架构中，每个GPC还包含了两个ROP分区，每个分区包含8个ROP单元。下面我们来看看每个SM单元的变化。

SM详解

在每个SM中，包含四个大的处理分区共128个CUDA核心，4个第三代Tensor Core，1个第二代RT Core，1个256 KB的缓存文件，1个128 KB的L1缓存，这个L1缓存可以根据不同的工作需求来调配缓存，工作效率发挥至最大。

另外大家都知道本次RTX 3080的CUDA数量暴增至8704个，而RTX 3090的CUDA数量更是达到了惊人的10496个，但是大家要知道专业计算卡Tesla A100的GA100核心，拥有更大的核心面积，更多的晶体管数量，理论上只有8192个CUDA，那RTX 3080又是如何达到这种效果的呢？

其实是因为本次NVIDIA Ampere的SM在Turing基础上增加了一倍的FP32运算单元，这就使得每个SM的FP32运算单元数量提高了一倍。

完整的GeForce RTX 3080核心

我们在发布会中经常听到性能翻倍的说法，其实是因为本次NVIDIA Ampere的SM在Turing基础上增加了一倍的FP32运算单元，这就使得每个SM的FP32运算单元数量提高了一倍，同时吞吐量也就变为了一倍。

而通常我们计算显卡的CUDA数量，并不是把SM中的所有单元加起来计数，而是只统计FP32单元的数量，所以这样一来，SM中的【FP32 : INT32】从 1:1 变为 2:1。

如RTX 3080的8704个CUDA，其实它只有4352个INT32单元，但由于内部的FP32数量翻了一倍，所以最终实现了8704这个惊人的数字。

而这样粗暴的提升CUDA数量对于游戏有帮助吗？答案是有，不仅有提升还很大。其实通常在游戏中浮点运算相比整数计算要常用的多，图形、算法以及各种计算操作中着色器工作负载通常需要混合使用FP32算数指令，而FP32的加速也有助于光线追踪降噪着色器。

03 第二代RT Core

光追工作原理示意

在此次的NVIDIA Ampere架构中，NVIDIA官方宣布为第二代RT Core，它和第一代有什么不同呢。首先要知道RT Core的工作原理是，着色器发出光线追踪的请求，交给RT Core来处理，它将进行两种测试，分别为边界交叉测试（Box Intersection testing）和三角形交叉测试（Triangle Intersection testing）。基于BVH算法来判断，如果是方形，那么就返回缩小范围继续测试，如果是三角形，则反馈结果进行渲染。

而光线追踪最耗时的正是求交计算，因此，要提升光线追踪性能，主要是对两种求交（BVH/三角形求交）进行加速。

RT Core的变化

在Turing的RT Core中，可以每个周期完成5次BVH遍历、4次BVH求交以及一次三角形求交，在第二代RT Core 里，NVIDIA增加了一个新的三角形位置插值模块以及一个的额外的三角形求交模块，这样做的目的是为了提升诸如运动模糊特效时候的光线追踪性能。

运动模糊渲染原理

第二代RT Core可以让光线追踪与着色同时进行，进行的光线追踪越多，加速就越快，它将光线相交的处理性能提升了一倍，在渲染有动态模糊的影像时，按照NVIDIA自己的实测，比Turing快8倍。

04 第三代Tensor Core

稀疏深度学习

除了光线追踪的强化，Ampere架构的Tensor Core也得到了极大地加强，在第三代Tensor Core中，NVIDIA引入了稀疏化加速，可自动识别并消除不太重要的DNN（深度神经网络）权重，同时依然能保持不错的精度。

首先原始的密集矩阵会经过训练，删除掉稀疏矩阵，再经过训练稀疏矩阵，从而实现稀疏优化，进而提高Tensor Core的性能。

第三代Tensor Core的处理能力大大提升

所以最终的结果就是Tensor Core在处理稀疏网络的速率是Turing的两倍，算力高达238 Tensor TFLOPS，而Turing为89 Tensor TFLOPS。

05 RTX IO

与此次RTX 30系显卡一同发布的还有一项新技术——RTX IO。目前很多游戏动辄几十G甚至百G的安装空间，对于存储空间的负担暂且不提，但存放在硬盘中的数据，如果显卡想要读取到，需要先由CPU从硬盘中读取压缩过的数据，经过解压缩再发送到显存中。

虽然随着NVMe SSD的推出，读取速度相较机械硬盘能够快20倍，但受制于传统I/O限制，NVMe高达7GB/秒的高速读写对于CPU是极大的负担。

传统的数据交换

在这个过程中，会占用多个CPU核心，压力急剧增大，占用较多的内存，而此时其实GPU是处于闲置状态的。RTX IO的作用就是越过CPU解压再传输数据这一步，直接从PCIE总线读取硬盘上经过压缩的数据，并且完成解压，降低CPU占用，变向提升了性能。

RTX IO可以极大解放CPU负担

当然这项技术作为系统底层的运行方式改变，还需要借助微软发布的DirectStorage来实现，对于目前容量的游戏来说，RTX IO的改善效果有限，但假以时日等游戏容量上百G成为常态的时候，这项技术将会发挥巨大的功效。

06 最快的显存

GDDR6X

在RTX 3080中，采用了GDDR6X显存，GDDR6X拥有320bit的位宽以及19Gbps的带宽速度，与采用GDDR6的Turing相比可提升40%的速度，在相同时间内GDDR6X可以比GDDR6传输多2倍的数据。这对于需要大量数据负载的工作尤为重要，如光线追踪的游戏、AI学习和8K视频渲染。

同时搭配新增的HDMI2.1接口，可以支持单线8K的视频输出，而上一代HDMI2.0仅支持4K 98Hz的视频输出，如果想要连接8K电视，则需要更多的线缆支持。

影驰 GeForce RTX GAMER OC