专访AMD技术传奇王启尚有感：在有限空间内创造无限可能

2022-11-16 05:48:41 [ 中关村在线原创 ] 作者：曲楠

“用更正确的制程工艺去完成适当的工作”，在被问及RX 7900 XTX显卡所采用的Chiplet（小芯片）优势时，AMD Radeon技术事业部工程研发高级副总裁王启尚（David Wang）信心满满地答道。

这句让人印象深刻的回答，在11月7日的AMD线上专访中，被王启尚先生率先提出。其实不仅是创新性的Chiplet设计，本次RDNA3架构都是在有限的范围内，创造无限的可能。

从目前所发布的旗舰产品，RX 7900 XTX的规格来看，AMD一直在寻求用最合理的方法，提升最大的性能，不冒进。

对显卡来说，想要将功耗做高很容易，但以高功耗换来的性能提升，严格来说并不算进步。AMD坚持以每瓦性能来衡量产品的提升，其实是对玩家最负责任的一种解释。

1 王启尚——AMD GPU功勋卓著的传奇

对于王启尚先生，想必熟悉AMD显卡的朋友应该都有所了解，下面我们简短的介绍一下，这位AMD的传奇可谓功勋卓著。

专访AMD技术传奇王启尚有感：在有限空间内创造无限可能

早在2011年，AMD发布的HD7970显卡，在当时拿下了很多“第一”：第一款采用28nm工艺制程的GPU图形芯片、第一款支持DX11.1显卡、第一款支持PCIe 3.0接口显卡，而这款显卡就是采用的GCN架构。

虽然GCN在当时可是非常超前的先进架构，而开发这个架构的人就是王启尚先生。

2018年，王启尚先生再次接到AMD邀请，并回归AMD。在加入AMD后将负责图形工程，包括AMD图形技术产品战略、架构、硬件及软件等方面。直至今日的RDNA3架构正是由这位传奇人物主导研发。

2 RDNA3架构——将有限空间变为无限可能

我们回到文章开头，笔者认为本次RDNA3架所采用了Chiplet设计，则是最大限度的考虑到芯片在处理不同工作所需性能，从中获得的平衡。其中昂贵的5nm制程用在核心运算的引擎当中（GCD），然后使用比较成熟的6nm的制程打造GDDR 6显存接口和第二代的高速缓存Infinity Cache，即MCD。

最终凭借AMD Infinity Links和高性能扇出封装，可提供高达5.3TB/s的带宽。

与NVIDIARTX 40系的Ada架构不同的是，AMD RDNA3架构相比RDNA2架构迎来了非常大的变化，虽然名字上只是从2到3，但其内部结构完全不同。

在面对媒体这样的疑问时，王启尚先生也给出了肯定的回答：

“提高性能以满足当今现代游戏的需求是一定的，是我们未来的重点，这需要我们不断改进芯片的设计和架构，但是当我们的性能提高的时候，它一定又会产生更多的功耗，所以我们必须重新思考怎么样改变我们核心的架构。”

“你可以看到RDNA 3中在每瓦性能方面所花的心思，能够继续在这方面有领先地位，以及我们有这个能力而且有这样的决心能够打造更安静更低温更节能的显卡。”

RDNA 3架构在设计之初有三个主要的目标；第一，追求在每瓦性能方面的领先地位，使游戏玩家能够合理地提升性能。第二，要能够支持更快、更高分辨率的新一代的显示器；第三，通过AMD全新的软件功能和解决方案，提供新一代的游戏体验。”

在经过不懈努力下，RNDA 3超越了既定目标，实现54%的每瓦性能的提升。从当初的Vega到RDNA，从RDNA到RDNA 2，到RDNA 3，在三代之间实现了超过350%的累计提升。

专访AMD技术传奇王启尚有感：在有限空间内创造无限可能

“在锐龙和EPYC(霄龙)产品线上面，领先业界的Chiplet架构第一次引入到GPU当中，这个Chiplet架构让我们能够选择正确的工艺去完成适当的工作”

所以RX 7900系列显卡打造了两种不同的Chiplet，5nm的GCD和6nm的MCD，宝贵而且昂贵的5nm制程用在核心运算的引擎当中，实现出色的每瓦性能。

专访AMD技术传奇王启尚有感：在有限空间内创造无限可能

而较成熟的6nm的制程来打造GDDR 6显存接口，和第二代高速缓存Infinity Cache。通过Chiplet架构，RDNA 3拥有高达580亿个晶体管。

专访AMD技术传奇王启尚有感：在有限空间内创造无限可能

在MCD核心上采用了Memory Cache，每个MCD有64bit的GDDR6的控制器与第二代Infinity Cache。通过Infinity Fabric连接到GCD，可提供2.7倍的峰值带宽，能够支持在更高分辨率下进行游戏。

专访AMD技术传奇王启尚有感：在有限空间内创造无限可能

在小核心GCD中，由三个全新的单元来组成，第一个是统一的计算单元，第二个是新的显示引擎，第三个是新的双媒体引擎（Dual Media Engine）。

专访AMD技术传奇王启尚有感：在有限空间内创造无限可能

在统一的计算引擎中，图形渲染，人工智能和光线追踪之间能够共享计算资源，提供更高的能耗比和更高的单位面积的性能。

共享的资源包括VGPR——通用的寄存器，容量要比RDNA 2多50%，从而提高了所有功能的性能，能够充分利用这个5nm的制成工艺，在更小的面积当中能够封装出更多的晶体管，增加了165%的密度。

专访AMD技术传奇王启尚有感：在有限空间内创造无限可能

Stream Processor流处理器，采用了双路DualIssue指令分发单元，这使得RDNA3架构能够向Wave32的SIMD Unit发出两路不同的指令，并很好地利用这些数据路径，或者也可以像RDNA 2一样并行的使用。

而通过这样加倍的指令分发能力，可以更好地利用计算单元中所有的功能，然后达成更高的性能，更节能。

专访AMD技术传奇王启尚有感：在有限空间内创造无限可能

RDNA 3的AI功能，提高了常用的AI运算指令的吞吐量，同时将这些运算指令紧密地结合到统一的计算单元当中，提供了超过2.7倍的AI性能的提升，让RDNA 3可以利用当前的硬件单元来实现未来的人工智能要求。

专访AMD技术传奇王启尚有感：在有限空间内创造无限可能

统一的计算单元的最后一项优化是光线追踪，通过新的着色器指令集以及针对ray box sorting（Ray Box排序）和traversal（遍历）多项的优化，让每个计算单元的光追性能能够提高最多50%。

所以在纯渲染方面，RX 7900 XTX是上一代旗舰GPU的1.7倍，在光线追踪方面性能提高了1.6倍。

光线追踪作为近几年玩家们争议不断的话题，一种声音认为这是大势所趋，是未来游戏发展方向；而另一种声音则认为它徒增消耗，带来的效果却远达不到预期。

而在游戏中加入实时光线追踪，其实是图形学中里程碑式的意义，A/N两家也竭尽全力在不断完善自己的产品，让更多玩家体验到，当游戏照进现实的沉浸感。我们也期待着在首测中，RDNA3架构在光线追踪上的表现。

3 RX 7900系显卡概览——小核心背后的性能揭秘

尽管关于核心部分我们仍有许多疑问，但作为镶嵌在PCB板上的重要元器件，它依然无法脱离整体而单独存在，既要服务于整张显卡，同时也服务于玩家。

所以关于此次发布的RX 7900系列旗舰显卡，我们也请王启尚先生做了深入剖析。

专访AMD技术传奇王启尚有感：在有限空间内创造无限可能

首先是玩家最关注的性能方面，根据此前AMD公布的数据来看，全新旗舰产品RX 7900 XTX相比上一代旗舰RX 6950 XT，可提供最高达1.7倍的4K游戏性能；而RX 7900 XT则比RX6900 XT的4K游戏性能提升最高可达1.5倍。

全新的旗舰显卡RX 7900 XTX拥有580亿晶体管数量，24GB GDDR6显存，位宽总线384bit。其中5nm工艺，尺寸为306m㎡的图形计算芯片（GCD）拥有96个计算单元，它可提供所有主要的GPU功能；而6nm*6工艺，尺寸为37.5m㎡的多缓存I/O芯片（MCD），每颗都包含了16MB的第二代Infinity Cache高速缓存。

专访AMD技术传奇王启尚有感：在有限空间内创造无限可能

相信大家最早在发布会时就有许多疑问，“XTX”是什么型号？为什么还用GDDR6显存，而不用更高级的GDDR6X？第二代Infinity Cache有什么不同？

在专访中王启尚先生对用户关心的问题也进行了一一解答：

首先“XTX”并不是AMD显卡的常规型号，这一点从显存规模中也能略见一二。“这两款显卡（7900 XTX/XT）均代表了Radeon显卡产品线中的更高的水平，我们选择让这个XTX品牌回归，其实就是在宣布7900 XTX是AMD新代显卡中的更高级别的产品，因为它拥有了24GB的显存，380bit位宽。”

专访AMD技术传奇王启尚有感：在有限空间内创造无限可能

当然XTX系列的回归，并不意味着后续产品可以毫无压力的继承“XT”后缀，本次发布的RX 7900 XT同样将显存增加至20GB，显存位宽总线达到320bit，这样的规格如果没有XTX，说它是旗舰同样不为过。

而关于显存类型，目前最新的为GDDR6X，在同显存位宽的情况下，相较GDDR6能够有效提升显存带宽。但笔者认为，更快更好的代价也是相当巨大的，就是功耗大幅增加，而AMD同样深知其中利弊。

这就要说到AMD创新的Infinity Cache高速缓存了，简而言之，它相当于一个带宽放大器，可以有效弥补GDDR6带宽瓶颈的问题。

专访AMD技术传奇王启尚有感：在有限空间内创造无限可能

而在第二代Infinity Cache中，它的运行频率最高可达2.3GHz，可提供5.3TB/s的峰值带宽，平均值4TB/s左右。笔者认为，Infinity Cache可以根据显卡性能灵活增减，可以有效控制成本及功耗。

RX 7900系列显卡在性能与电源上找到了绝佳的平衡点，笔者认为这也是AMD有史以来最具能效比的系列显卡。旗舰级产品仅需两个标准的8pin接口供电，无需额外转接，即可满足RX 7900 XTX的355W供电。

4 AMD FSR——战未来的坚定基石

随着实时光线追踪在游戏中的广泛应用，单靠显卡自身的光栅性能，确实难以支撑如此庞大的计算量。各家也适时推出了分辨率增强技术，NVIDIA有DLSS、Intel有XeSS，而AMD则有FSR。

目前由于NVIDIA DLSS推出时间较早，已经迭代至3.0版本。Intel由于起步晚，XeSS仍是1.0版本，不过作为集大成者，其1.0版本的功能也已经较为完善。

在本次专访中，王启尚先生也高兴的为我们分享了关于FSR的最新消息以及未来规划。

专访AMD技术传奇王启尚有感：在有限空间内创造无限可能

FSR目前已经迎来了最新的2.2版本，首个支持该功能的游戏，《极限竞速：地平线5》也已经在11月8日的更新中加入了FSR 2.2的相应支持。

在FSR2.0版本时域采样放大解决方案之上，FSR 2.2可提供包括提高视觉质量在内的更强改进，例如减少游戏中快速移动物体时的重影（ghosting artifacts），即快速移动物体是会产生的重影。游戏库中有《极限竞速：地平线5》的玩家不妨亲身体验一下。

并且更新后的FSR 2.2仍然具有非常强的兼容性，即便是手持N卡的玩家也可体验到全新的效果。

另外我们都知道，育碧游戏向来以A卡优化见长，育碧对其Snowdrop游戏引擎也已经开发了有大概20多年。据王启尚介绍，AMD与育碧的合作增加了高度优化的AMD光追效果，用这样方式能够释放出比单独由DXR提供的更加智能的光线处理效果。

专访AMD技术传奇王启尚有感：在有限空间内创造无限可能

截止目前，FSR现已支持超过216款已经推出或即将推出的游戏（包括FSR 1和FSR 2所支持的游戏在内）。

所以，如何衡量FSR的性能？不同显卡在使用FSR后会有怎样的提升？这一定是玩家们关心的话题。

好消息是，不久之后UL Solutions的权威测试软件3DMARK将加入采用FSR 2.2的FSR 2功能测试。

新的FSR 2测试将使用FSR 2.2并帮助用户在他们的硬件上进行FSR的性能和图像质量对比。同时还将内置一个帧率检查工具，通过交互式的逐项比较来对比图像质量。简单来说，就是后续FSR可以跑分了，这对于用户来说更有信服力。

专访AMD技术传奇王启尚有感：在有限空间内创造无限可能

最后，王启尚先生继续介绍到，预计在2023年推出下一个重大升级版本——即FSR3。该版本将支持AMD Fluid Motion Frames（补帧）技术，且预计在可支持的游戏中相比FSR 2提供最多可达两倍的更高FPS。

5 生产力升级——DP 2.1引领行业

除了上述这些与游戏玩家息息相关的技术升级，在生产力工具上，RDNA3同样有着重大升级。

专访AMD技术传奇王启尚有感：在有限空间内创造无限可能

双媒体引擎（Dual Media Engine）

支持AVC跟HEVC 2个同步解码或者同步编码的直，也支持最新AV1编码解码，最高能够达到8K@60Hz。同时，也能够利用AI来提供视频编码的质量。通过增加媒体引擎内部的频率，可提供比RDNA 2高达1.8倍的性能，相当于当使用者做编码解码的时候，它能够减少几乎一半的时间。此外，还集成了赛灵思内容自适应机器学习技术，以在较低分辨率和比特率下提高串流质量，能够提升文本内容在编码解码时的质量。

专访AMD技术传奇王启尚有感：在有限空间内创造无限可能

AMD Radiance Display引擎

相比AMD RDNA 2架构，可实现每通道12位色深从而渲染出最高可达680亿种颜色，并支持更高的刷新率显示，它还支持DisplayPort2.1和HDMI 2.1a。

Radiance Display引擎具备了业界首款能够搭载在高性能显卡游戏上的DisplayPort 2.1的接口。通过高达54Gbps Display Link的带宽，可以支持4K高达480 赫兹的刷新率，或者是8K高达165赫兹的刷新率，而每通道12位色深可以渲染出让人惊艳的最高可达680亿种颜色。

串流预分析（Pre-Analysis）

Pre-Analysis是一个视频编码的一个技术，可以事先估算在一个视频帧中每个块（block）的时间上和空间上复杂性的指标，还可以提取一些其他属性，比如场景变化，或者静态场景和运动强度，根据所使用的前向缓冲区的深度，在编码开始前分析最多40个帧的资料，可以帮助编码器能够知道这些未来帧的特征从而主动来做一些优化，并提供更好的视频质量。

内容自适应机器学习（Content Adaptive Machine Learning）

内容自适应机器学习也是Pre-Analysis的一部分，是根据赛灵思开发出来的一个技术，基于着色器。该技术能够提升文本内容在编码解码时的质量，目前只适用Windows 11上面的DX应用程序，而且目前它的分辨率只支持1080p分辨率及以下。

王启尚表示，未来会继续加强该技术，并扩展到比较高的分辨率。

串流预滤波（Pre-Filtering）

Pre-Filtering叫做低通感知保边滤波器，它可以从内容当中去掉一些在细节上或是玩家在视觉上面不重要的细节，它能够在相同的比特率上支持更高的质量编码。王启尚表示，该技术会对编码的性能产生一点影响，因此它在软件中默认并不是打开的，使用者可以根据自己的需求选择开关。

最后关于这些新的媒体引擎功能，将会应用到大部分将会更新到AMD Software: Adrenalin Editon软件中对应开启，而OBS将会集成AMD的预分析和CAML（内容自适应机器学习），并且预计将于12月推出对AV1的支持。

除此之外AMD Software还将更新Hyper-RX一键预设的功能，预计在2023年上半年推出，该功能可以一键开启多个AMD Software功能 – 包括AMD Radeon Boost，AMD Radeon Super Resolution和AMD Radeon Anti-Lag– 让这些功能协同工作，由此能够降低延迟也能提供相比原来设置上最高能有85%的更强性能。

不过HYPR-RX目前在推出时将适用于AMD Radeon RX 7900系列显卡。AMD HYPR-RX技术暂时不会支持Radeon RX 6000系列或更老的显卡。