热点:

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

      [  中关村在线 原创  ]   作者:柏景福

    大年初一两大喜,除了开年红包,NVIDIA的RTX 50系显卡次旗舰——RTX 5080的评测也终于和大家见面了。我们知道,NVIDIA每一代80级显卡,凭借着超越上代旗舰的性能,不仅是高端游戏玩家的首选,也是专业图形和AI创作的强悍生产力,例如今天给大家带来的这款耕升GeForce RTX 5080追风版,更是万元内的实力+性价比担当。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    1月7日,在NVIDIA官宣推出GeForce RTX 50系列GPU的同时,耕升也同步推出了全新的GeForce RTX 50炫光、踏雪、追风等系列产品,囊括了GeForce RTX 5090 D、RTX 5080、RTX 5070 Ti 和 RTX 5070 等多款型号,满足不同需求的用户选购。其中追风是耕升主打性价比的系列,尤其是这款RTX 5080追风版高端显卡,更是有着非凡的意义。

    为了让大家对GeForce RTX 5080有更深入的了解,评测前我们先对其架构和进行分析。GeForce RTX 50系显卡由全新的NVIDIA BlackWell架构打造,已公布的是GB202、GB203、GB205三款。

    完整的GB202核心包括12个图形处理集群(GPCs);96个纹理处理集群(TPCs);192个多单元流处理器(SMs),和一个512bit总位宽,包含16个32bit内存控制器的内存接口。对应到我们熟悉的数字,则是24576个CUDA,192个RT Cores;768个Tensor Cores以及768个纹理单元。由于第5代Tensor Cores采用了更高速的FP4运算,完整的GB202可达到恐怖的4000 AI TOPS;而第4代RT Cores采用的新的几何运算模型,也让它可以达到360 RT TFLOPS。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    GeForce RTX 5080采用GB203核心,配备10752个CUDA,84个RT Cores;336个Tensor Cores和336个纹理单元。每个SM单元中还包含两个FP64内核,总共384个。FP64内核主要目的是确保带有FP64代码的程序可正常运行,并确保其准确性,这对于医学或专业计算等专业领域是至关重要的。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    GPC是GPU中占据主导地位的高级模块,所有关键的图形处理单元都位于GPC中。在RTX 50系中,GPC整体的布局变化不大。每个GPC包含一个专用的光栅引擎,两个ROP分区。每个分区包含8个单独的ROP单元和8个TPC,每个TPC包含1个变形引擎和两个SM单元。

    完整的GB202核心还包含128MB的L2缓存。大缓存的变更自RTX 40系显卡便已开始,所有程序都可以受益于这个高速大容量的缓存池,而光线跟踪(特别是路径跟踪)等复杂操作将产生巨大的好处。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    SM单元是GPU架构中的核心组件,在GPU并行处理中发挥着关键作用,它通过其各种核心(CUDA,Tensor,RT),高效的warp调度,内存管理以及对AI等现代工作负载的支持实现大规模并行。本代RTX 50系显卡中SM单元的变化非常大,下面我们详细来了解一下。

    完整的GB202核心包含192个SM单元,每个SM包含128个CUDA核心;1个第4代RT Core;4个第5代Tensor Core;4个纹理单元。1个256KB的寄存器文件和128KB的L1共享缓存,它可以根据图形和计算工作负载的需要配置不同的大小。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    在BlackWell架构的SM单元中,INT32整数运算的数量增加了一倍。与Ada架构的SM单元相比,实现了INT32与FP32内核的完全统一。不过在时钟周期内,统一内核只能作为FP32或INT32内核运行。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    与BlackWell架构一同推出的还有GDDR7显存,采用pam3信号技术,它有着更高频率与更低电压的特点。其中RTX 5090配备28Gbps GDDR7显存,峰值显存带宽可达1792GB/s/秒,而RTX 5080配备更高的30Gbps GDDR7显存,峰值内存带宽可达960 GB/秒。结合新的引脚编码方案,GDDR7实现了显著增强的信噪比(SNR)。

    通过增加信道密度、改进的pam3信噪比、先进的均衡方案、重新设计的时钟架构和增强的I/O训练,GDDR7提供了更高的带宽。这些进步还显著提高了能源效率,提供了更好的性能和延长电池寿命,特别是在移动端,或功率受限的系统中。

    BlackWell 第4代RT Core

    在第4代RT Core中,简单来说它相比Ada架构,在渲染光线追踪场景时,提供了两倍光线三角形相交测试吞吐量,并引入了Mega Geometry的结构算法。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    Opacity Micromap Engine

    不透明微引擎在Ada架构中已经引入,它主要的作用是优化光线追踪渲染,可大幅减轻着色器的工作负担。比如树叶之类的复杂物体,不同的光线都会影响它的表现状态,以及树叶之间的光线反弹,所以对于光线追踪的计算量是巨大的。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    不过Opacity Micromap Engine可以将光线追踪特性烘焙到不透明蒙版中,所以那些不规则形状和半透明的对象,也就能够更快更精准的渲染出来,从而极大减轻着色器的工作负担。

    Mega Geometry

    除了上面提到的Opacity Micromap Engine,在BlackWell架构中,还引入了Mega Geometry(大型几何)的运算概念。其中包含了Triangle ClusterIntersection Engine、Linear Swept Spheres等新硬件。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    新的BlackWell RT核心包含一个Triangle ClusterIntersection Engine三角形群集交集引擎,它能够进一步加速大型几何的光线追踪,同时它的工作还包含标准的光线三角形交集测试。Linear Swept Spheres则主要用于光线追踪中精细的几何形状,比如发丝。

    Mega Geometry的理念与虚幻5引擎的Nanite虚拟微多边形几何体系统相同,在现代游戏中,模型更加细致,需要渲染的工作量大幅增加,如果全部按照最精细的级别处理,将会耗费极大的计算资源,所以将LOD分级便应运而生。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    简单来说,就是根据一个物体距离摄像机的远近,来调节物体的细节水平。此前《黑神话:悟空》便应用了这样的技术,它消除了LOD的繁琐任务,可以扫描并导入极高精细程度的模型。并且,这不会影响性能。仍然可以获得实时帧速率。

    在Mega Geometry中提供了新的BVH构建功能,它采用三角形集群作为一级基元。新的集群加速结构Cluster-level Acceleration Structures(CLAS)可以从256个三角形空间紧凑批次中生成,然后使用CLAS集合作为输入来构建最终的BVH。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    不过虚幻5引擎并非专为BlackWell而设计,Mega Geometry的工作只是更高效的让游戏引擎调用API。由于其输入参数完全由GPU内存驱动,游戏引擎可以在GPU上更高效的运行LOD选择、动画、剔除等逻辑。同时最大限度减少对CPU的往返,进而减少与BVH管理相关的CPU开销。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    然而在更加精细化的游戏引擎中,按照传统的流程,应用程序必须从场景中的每一帧的所有对象中构建一个顶层加速结构。而随着更大的世界规模以及繁杂的场景物体,仅靠LOD分级仍然难以实现质的变化。

    为了解决这个问题,Mega Geometry引入了一种新型的顶层加速结构(TLAS),称为分区顶层加速结构(PTLAS)。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    它无需在每一帧都从头开始构建一个新的TLAS,PTLAS能够辨别从一帧到另一帧,哪些对象是静态的。应用程序通过将对象聚合到分区中,并仅更新那些已更改的对象来节省开销。例如游戏可以将静态游戏世界的各个部分放入所属的分区中,同时将动态对象分离到每帧重建的“全局分区”中。与传统的TLAS相比,请求的分区更新越少,节省的运行时开销就越大。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    另外好消息是,Mega Geometry可通过底层API进行扩展支持,适用于所有支持光线追踪的NVIDIA GPU,也就是从图灵架构(Turing)开始。不过BlackWell的第4代RT Core是专门为Mega Geometry而设计的,硬件中的特殊集群引擎实现了几何和BVH数据的新压缩方案,同时是第3代RT Core光线三角形相交率的2倍。因此BlackWell架构可以实现用更小的显存,更高效的处理这些内容。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    Linear Swept Spheres (LSS)

    LSS(线性扫描球体)是BlackWell架构中新增的图形语言,它极大地简化了复杂头发和毛发的渲染开销,并能提升质量。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    此前渲染头发仍然需要最基础的三角形来表达物体,如图所示,发丝中的一个线段需要6个三角形,而一根头发便需要无数个三角形来确保其精度。比如我们的头发则需要600万个三角形来表达。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    Blackwell架构的RT Core引入了LSS新语言的支持,它类似于镶嵌曲线,允许灵活地近似各种链型。并且球体也更适合发行构建。LSS的引入可以让发型构建,减少3倍的数据量,速度大约快了2倍,并可以使用更少的显存,获得更高的帧数。

    BlackWell 第5代Tensor Core

    本代架构除了RT Core进行了改进升级,专门负责AI及高性能计算的Tensor Core也迎来了重大升级。与NVIDIA Ada Tensor Cores一样,Blackwell架构的Tensor Cores支持FP16、BF16、TF32、INT8、INT4和Hopper的FP8 Transformer Engine。

    Blackwell还增加了对FP4和FP6 Tensor Core操作的新支持,以及新的第二代FP8 Transformer Engine。

    FP4精度支持

    FP4提供了一种较低的量化方法,类似于文件压缩,可以减小模型大小,提升生成速度。与FP16精度(大多数型号发布的默认方法)相比,FP4只需要不到一半的显存。FP4使用NVIDIA TensorRT Model Optimizer提供的量化方法,几乎没有质量损失。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    例如,目前最强的AI绘画模型FLUX.dev ,在FP16上需要超过23GB的显存,而这意味着它只能由每一代的旗舰产品RTX 4090,RTX 5090和专业GPU来支持。而对于FP4,FLUX.dev测试对显存的需求将少于10GB,让更多80级和70级的显卡均能在本地运行。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    在性能和效果对比上,使用带有FP16的RTX 4090,FLUX.dev模型可以通过30个步骤在15秒内生成图像。使用带有FP4的RTX 5090,只需5秒多一点就可以生成图像。

    DLSS 4

    DLSS 4是本代RTX 50系显卡带来的重大更新,对于玩家来说它也是最能实际感受到的。最新版本DLSS 4带来了新的多帧生成(MFG),具有更快的性能和更低的显存使用等特性。支持最新的Transformer引擎,包含超分辨率(SR),光线重建(RR)和深度学习抗锯齿(DLAA)模型,可进一步增强图像质量和稳定性。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    这些新技术由RTX 50系GPU和第5代Tensor Cores支持,并由云端的NVIDIA Al超级计算机提供支持。多帧生成功能对于手持RTX 40系或更早期显卡的玩家还无缘体会。DLSS 4新增的多帧生成,目前仅支持RTX 50系显卡。

    Multi Frame Generation(多帧生成)

    DLSS多帧生成能够通过每个传统渲染帧,生成多达三帧的额外帧来提高FPS。新的帧生成AI模型相比之前的帧生成方法快40%,使用的显存减少30%,并且每个渲染帧只需要运行一次就可以生成多个帧。高效的AI模型代替了上一代的硬件光流模型,从而加快了光流场的生成速度,并显著降低了生成额外帧的计算成本。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    从生成帧的层面来说,上一代DLSS 3帧生成基于CPU的帧节奏,而这种方式可能会让生成的帧与额外的帧混合在一起,导致每帧之间的帧节奏不太一致,影响平滑性。为了解决生成多帧的复杂性,Blackwell架构将帧节奏逻辑转移到显示引擎,使GPU能够更精确地管理显示时序,从而避免与额外帧混合的情况,进而提升帧生成的准确性及稳定性。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    而第5代Tensor Cores拥有更高的计算能力,这使得它们能够更快地执行计算光流和生成多帧的一系列AI模型。并更好地调度DLSS AI处理、图形渲染和帧速度算法。

    Transformer模型

    此前DLSS所用的模型为Convolutional Neural Network,即我们熟悉的卷积神经网络(CNN),CNN的工作原理是将像素局部聚集在一起,并以树的形式从低到高地进行分析数据。这种结构的计算效率很高,这也是为什么它被称为卷积神经网络。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    而DLSS 4引入了基于Transformer的AI模型,用于DLSS超分辨率、DLSS光线重建和深度学习抗锯齿(DLAA),从而提高图像质量和渲染平滑度。基于Transformer模型体系结构的神经网络,擅长处理涉及顺序和结构化数据的任务。简单来说,就是Transformer能够抓住“重点”,可以更好地理解和渲染复杂场景。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    与CNN模型相比,Transformer更容易在更大的像素窗口中识别更远距离的模式,具有一定的学习能力和“前瞻性”。本代DLSS 4将基于CNN的神经网络结构,转变为基于Transformer的神经网络结构,在许多场景下图像质量都有着显著提升。

    Shader Execution Reordering (SER) 2.0

    Shader Execution Reordering(着色器重排序)是在RTX 40系架构中引入的一项技术,它可以使带有光追的程序有效地重组GPU上的大量并行线程,以最大限度地利用硬件。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    因为连贯执行神经工作负载的线程可以直接发送到Tensor Core,所以SER也显著加速了神经着色。在Blackwell架构中,SER的核心重排序逻辑效率是原来的两倍,减少了重排序开销并提高了精度。从而进一步提高了该功能的有效性。这项功能更多地是为应用程序开发者而设计,它仅需一个小的API改动,即可执行重排序操作,进而提升总体项目的负载性能。

    耕升GeForce RTX 5080追风显卡的包装有着追风系列一贯的元素,下部是非常醒目的GeForce RTX 5080,以及16GB GDDR7字样,给人一种强烈的开箱冲动。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    耕升GeForce RTX 5080追风显卡整体尺寸为315x139x50mm,2.2槽厚度,外观延续追风家族设计语言,整体线条硬朗无比,散热器整流罩采用经典的红黑配色和磨砂触感设计,内敛不失格调而且质感优秀,三只风扇中间均有“追风”图腾装饰。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    显卡采用耕升第四代“风盾X3”散热器,散热效能再升级,2根6mm+5根8mm复合式镀镍热管,贯穿大面积高效能VC均热板和高密度散热鳍片,结合回流焊接工艺,带来更强的散热性能。搭配三只耕升第三代“炫风之刃”风扇,升级环形扇叶,风量风压更强大。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    背部配备高强度防护背板,为显卡提供额外防护和支撑的同时,还兼具散热效果。背板同样是纯黑哑光风格,点缀独特的纹饰和GAInWARD品牌Logo以及GEFORCE RTX字样,侧面的大面积镂空窗口,便于显卡内部热空气快速排出,进一步提升散热效率。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    顶部是散热模组的出风口,整流罩上有GAInWARD的LOGO灯,支持各大品牌主板的ARGB调控和神光同步,旁边是红色的耕升品牌标识,背板的弯折部分有GEFORCE RTX字样。值得一提的是,显卡内部还搭载了一体式中框,让结构更加稳定,有效防止显卡变形。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    供电部分采用单个16pin的12V-2X6新协议接口,可实现更加稳固可靠的连接。供电接口旁边是ARGB灯与主板的同步接口,还能看见黑色的超厚实中框。显卡采用12层强悍的PCB,搭配12+4+3相供电,高规格用料和豪华供电配置,带来非常稳定的电气性能。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    接口部分,配备了3个DP2.1b和1个HDMI2.1b,其中DP 2.1b接口为UHBR20规格,可达 80Gbps 带宽,最高支持8K(7680x4320)165Hz或者4K(3840x2160)480Hz画面输出,但需要DP80LL认证的线材,耕升品牌图腾的镂空网格挡板更便于散热。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    为了保障耕升GeForce RTX 5080追风显卡的性能发挥,我们的测试平台进行了全面更新,包括新一代游戏神U锐龙R7 9800X3D、X870E主板、64GB DDR5内存、PCIe5.0固态硬盘、1300W数字电源以及4K 240Hz高刷显示器。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    由于GPU-Z的2.61版本还有部分参数无法识别,因此可显示的内容相对较少,例如只能看到显卡的品牌为Gainward,拥有10752个CUDA,Boost频率达到了2617MHz,光栅单元和纹理单元为112/336,使用PCIe5.0x16传输模式。根据GB203核心已知的信息,其采用与上一代相同的TSMC 4nm定制工艺,芯片面积378mm²,比RTX 5090的750mm²小了一半。

    显存类型未能识别出,仅能看到容量16GB,以及256bit的位宽,而带宽则按照上代的GDDR6显示为480GB/s,频率也被识别为15001MHz,而实际上这块显卡配备的DDR7显存频率高达30Gbps,实际带宽也高达960GB/s。由此可见,耕升GeForce RTX 5080追风与公版的参数是一致的。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    首先进行的3DMARK FS套装:FS、FSE、FSU,这是用来衡量显卡DX11理论性能的内容,分别对应显卡在1080P、2K、4K的理论性能。实际测试结果显示,耕升GeForce RTX 5080追风相对于RTX 4080 SUPER,在三档分辨率中的提升分别为,9%、17%和20%,综合提升约为15%。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    在针对DX12环境下的Time Spy和Time Spy Extreme测试中,耕升GeForce RTX 5080追风相较于RTX 4080 SUPER,TS提升14%,TSE提升14%,综合提升约为14%。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    PortRoyal是3DMARK中专门针对光追性能的测试项,耕升GeForce RTX 5080追风相较RTX 4080 SUPER的提升约为20%。综合来看,耕升GeForce RTX 5080追风的理论性能相较RTX 4080 SUPER的提升约为16%。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    Speed Way结合了实时光线追踪和传统渲染技术,场景含有光线追踪反射、实时全局光照、网格着色器、体积照明、粒子和后处理效果,因此该项测试基本可以看做次世代3A游戏基准。经测试,耕升GeForce RTX 5080追风相对于RTX 4080 SUPER提升了22%。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    DLSS的理论测试变化较大,DLSS 2和DLSS 3采用上一代的CNN模型,而最新的多帧生成则采用了Transformer模型,并且多帧生成可调节生成帧的数量。从测试结果看,DLSS 4 2X基本可以看作是DLSS 3的帧生成,而相比上代DLSS 3,DLSS 4 4X模式下,帧数综合提升在69%左右,其中4K和8K提升高达77%左右,在8K分辨率下达到158帧,4K分辨率更是达到290帧。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    DLSS 4可以说是RTX 50系显卡的重头戏,也是备受玩家期待的新特性,首发就已经支持75款游戏或应用,尚未集成DLSS 4的游戏,可在NVIDIA APP中进行直接调节。例如显卡测试“钉子户”——《赛博朋克2077》,这款游戏在RTX 50系显卡性能解禁后就更新了DLSS 4。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    接下来的我们会进行多角度对比,来看看不同DLSS的设置,三档画质的帧数表现。为保证缩放比例固定,我们均选择在DLSS质量模式下进行。传统DLSS 2的测试中,使用CNN模型DLSS,可以看到即便是耕升GeForce RTX 5080追风在4K分辨率下,光追超级画质也仅有65帧,而在光追超速模式下为39帧,非常吃配置。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    DLSS 3的测试依然为CNN模型,增加帧生成。可以看到DLSS 3相较DLSS 2,在4K超级画质、光追超级、光追加速的提升,分别为66%、68%、81%,综合提升72%,成绩非常惊人。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    DLSS 4测试模型更改为Transformer,开启多帧生成,首先测试3X下的表现。耕升GeForce RTX 5080追风在4K超级画质、光追超级、光追加速,均将帧数提升到全新高度,相较DLSS 3帧生成的提升分别为27%、35%和43%,即便在光追超级画质也能达到146帧,1080p分辨率超级画质更是达到惊人的472帧。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    DLSS 4 Transformer模型4X帧生成模式,在4K超级画质、光追超级、光追加速中,相较DLSS 4的3X帧生成的提升分别为27%、26%和28%,对比DLSS 3帧生成则分别提升了61%、70%和84%,即便在光追加速画质也达到了128帧,4K超级画质更是达到了238帧。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    除了帧数上的提升,DLSS 4对于画质的加成也让人非常惊喜。从下面的一组实机截图,可以看到在采用Transformer模型的DLSS 4中,物体表面的纹理细节更清晰,即便是没有模型面覆盖的锈迹,DLSS 4依然能精准还原。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    在另一组截图中,墙上的裂纹在DLSS 4中有更明显的痕迹,整体画面相较于DLSS 3也更通透明亮。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    接下来是近期比较热门的FPS+MOBA类网游《漫威争锋》,不过这款游戏尚未集成DLSS 4,这里举例说明在NVIDIA APP中如何开启DLSS 4。

    打开NVIDIA APP,切换至“图形”选项卡,找到对应的游戏,在最下方“驱动程序设置”中找到DLSS模型预设,将内部选项全部调节至最新后,开启DLSS帧生成4X,然后再重启游戏即可享受帧数的暴力加成。不过游戏中的DLSS设置及名称不会发生变化,仍然可调节质量、平衡、性能等档位,只不过对应的是DLSS 4X。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    我们知道,竞技类网游对于帧数要求比画面更高,这也是游戏体验甚至决定成败的关键。经测试,耕升GeForce RTX 5080追风在4K分辨率下,DLSS 2质量模式可达到110帧。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    在4K分辨率下的DLSS 3帧生成模式中,相比DLSS 2在质量模式中提升了33%,达到146帧的电竞级帧率。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    在DLSS 4 4X多帧生成,4K分辨率达到275帧,相比DLSS 3质量模式再提升88%,1080P分辨率更是达到逆天的540帧,这已经超过超高刷电竞显示器的上限了。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    至于游戏的画面对比,DLSS 4 4X的四档画质也很难看出区别,例如角色的头发、衣服,远处的建筑涂绘,基本都和原生画质分毫不差。这两款游戏的测试表明,DLSS 4确实有着质的飞跃,在帧数大幅提升的同时,画质相比DLSS 3也更好,为玩家带来超凡的游戏体验。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    除了DLSS 4对于游戏的加成,我们还测试了一些一些主流的3A大作和支持DLSS 3的网络游戏,并与RTX 4080 SUPER的进行对比。先看两款网络游戏的测试,在国产武侠大作《燕云十六声》的DLSS 2测试中,耕升GeForce RTX 5080的2K与4K的成绩几乎相同。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    DLSS 3测试也基本如此,这是游戏的优化不完善导致的。但4K分辨率耕升GeForce RTX 5080追风大部分DLSS成绩均在200帧左右,性能非常强大。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    热门射击游戏《三角洲行动》DLSS 2测试,耕升GeForce RTX 5080追风4K分辨率DLSS质量模式为169帧,达到电竞级帧率,而性能模式更是接近200帧。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    DLSS 3测试,耕升GeForce RTX 5080追风在低分辨率下的帧数表现恢复了正常,二4K分辨率的成绩均在200帧左右,无论是战役还是团战,都能获得超级流畅的体验。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    接下来是3A游戏的测试。第一个自然是去年火遍全球国产虚幻5巨制《黑神话:悟空》,这款游戏自带DLSS 3帧生成。我们的两项测试也全部开启帧生成,并将游戏设置为影视级。经测试,耕升GeForce RTX 5080追风在4K分辨率下最高已经达到了129帧。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    有意思的是,《黑神话:悟空》开启全景光追后,部分分辨率帧数反而更高。其中4K分辨率下开关光追在超级性能模式中帧数差别不大,如果想获得比较高的画质,可以选择性能模式游玩,在享受高帧率的同时,又不损失画质,观赏风景十分惬意。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    刺客信条:幻景》测试,我们关闭游戏的自适应帧率,分别测试DLSS不同挡位与原生画质下的差异。耕升GeForce RTX 5080追风在4K分辨率原生画质下即接近百帧,而在DLSS超级性能档位更是达到173帧。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    在纯光栅化游戏帧数对比中,《无主之地3》比较能概括RTX 5080与RTX 4080 SUPER的光栅化性能的综合差距。经实测,耕升GeForce RTX 5080相比RTX 4080 SUPER,1080p提升4%,2K提升10%,4K提升16%,综合提升10%。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    知名竞速游戏《极限竞速:地平线5》是常用的显卡测试游戏,其出色的优化在原生效果下即可跑出优秀的成绩。在4K分辨率下,耕升GeForce RTX 5080追风DLSS 3成绩再创新高,达到了191帧,真正是风驰电掣的感觉。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    《光明记忆:无限》这款游戏虽然较老,但对显卡的性能要求较高,而它的光追测试软件是独立于游戏的测试工具,比游戏中用到的光线追踪技术更多。本次测试条件为“RTX最高/DLSS质量”,耕升GeForce RTX 5080追风相比RTX 4080 SUPER,1080p分辨率提升12%,2K分辨率提升14%;4K提升19%,综合提升15%。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    耕升GeForce RTX 5080追风拥有16GB的显存,不仅在游戏方面的表现炸裂,而且新架构对于专业内容创作软件同样有优化,能带来更高的效率提升。下面我们分别测试了不同类别的专业软件,来看看实际效果。

    UL Procyon

    本次测试UL提供了FLUX.1 Dev绘画模型的FP4测试,该模型在FP16上运行需要超过23GB的显存,这往往需要每代的90级旗舰显卡或者专业显卡。而FP4只需要不到一半的显存即可运行,这使得更多80级和70级的显卡均能在本地运行,而且使用NVIDIA TensorRT提供的量化方法,几乎没有质量损失。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    BlackWell架构新的Tensor Core特性不仅让生成所需的显存显著减少,在生成时间也有大幅降低,实际测试平均4张图片即可节省20秒时间。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    下面是FP4渲染生成的图片。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    下面是FP8渲染生成图片,可见FP4和FP8所生成的图片效果是相同的,在细节和图片精度上均有着良好表现,但对显卡的显存容量更加友好。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    Keyshot 2024

    Keyshot是一款专注于模拟光线追踪的渲染软件,并可分别调用CPU或GPU进行渲染,下面我们看下最终的渲染时间和结果。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    使用耕升GeForce RTX 5080追风显卡渲染一张4K分辨率、采样率为1000的图片,最终用时98.91秒。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    而使用我们测试平台的AMD锐龙7 9800X3D处理器,用时长达1小时34分56秒。并且从图片细节看两种渲染方式几乎没有不同,可见GPU对于内容创作者的效率的提升是巨大的。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    V-Ray6

    V-Ray6对于GPU的测试分为RTX与CUDA,这里主要看RTX成绩,其中RTX测试得分为9420,相比RTX 4080 SUPER(7047)首测时提升31%左右。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    功耗和温度也是表征显卡性能的关键参数,我们选择FurMark2软件进行拷机测试,并采用AIDA64检测信息。不过FurMark尚无法检测到GPU信息,部分温度识别有误,因此以蓝色的AIDA64信息为准。经过30分钟左右的烤机测试,耕升GeForce RTX 5080追风的GPU和显存的温度均为70℃,在TDP 100%的满载情况下,整卡功耗为358.44W。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    除了满载烤机,我们还测试了游戏中显卡的真实功耗数据,在《赛博朋克2077》benchmark设置4K分辨率的光追加速画质,并开启DLSS 4 4X多帧生成,将显卡性能拉满。经测试,耕升GeForce RTX 5080追风的平均功耗为277.2W,相比FurMark烤机低了81W左右。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    在功耗检测的同时,我们也调出了延迟数据,在DLSS 4 4X多帧生成的环境下,游戏平均延迟为47.4ms,这意味着即便有多张AI生成帧参与到游戏中,延迟依然很低。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    NVIDIA Broadcast是一款用于直播或会议的AI软件,目前随着RTX 50系的发布,也进行了版本更新,界面更小巧,纵向布局也更方便视频直播中调节选项。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    NVIDIA Broadcast一些经典效果更方便开启,其中目光接触功能非常适合远程会议,即便眼睛盯着屏幕,也能让参与人员时刻注意到你的眼睛,并且还有一定“大眼”效果。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    虚拟补光仍是测试版功能,它可以在光线较暗的情况下进行面部的AI补光,看你看起来仍然处于光线较好的环境中。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    新版的NVIDIA Broadcast还增加了GPU利用率的显示,当软件中功能全部打开时,对于GPU的占用率还是非常高的,比较适合会议等不需要过多GPU参与的场景。而如果是游戏直播,则可适当关闭AI效果,以降低GPU利用率。不过目前新版NVIDIA Broadcast仍处于测试阶段,实际效果与GPU开销应以正式版为准。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    新版的NVIDIA APP代替了原来的GFE软件,并且功能更强大,使用起来也更方便。最主要的是,它不用登陆了,即下即用。在APP首页除了显示最新的驱动信息,还新增了NVIDIA周边软件的下载,比如AI绘画Canvas;图像视频对比工具ICAT;性能测试工具FrameView等等,不用再去NVIDIA官网寻找。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    从APP中强制开启DLSS 4的功能在《漫威争锋》游戏中已有介绍,虽然给游戏带来的加成是狂暴级别,但目前并不是所有游戏和软件均支持此功能。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    系统界面中则更多的是调试类功能,如显示器、视频、超频等。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    其中性能界面提供了较为详细的监控和超频选项,需要注意的是新手如果想尝试超频,尽量不要改变电压,这个选项轻则掉驱动,重则烧毁显卡。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    NVIDIA信息浮窗是游戏中很好的辅助工具,要开启此功能,需要在APP主界面的设置一栏中,开启按钮,之后按ALT+Z即可呼出边栏。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    按ALT+R可呼出统计数据的浮窗,功能设置和自由度的调节也非常丰富,最主要的是相当简便。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    RTX 50系显卡正式迈向了AI计算的时代,而AI的硬件算力又是相辅相成的关系,在RTX 30系和40系的年代,AI的发展可以是说是靠硬件算力来推动,而50系显卡全新的Blackwell架构,无论是对于游戏还是现代的AI创作,在实现如虎添翼效果的同时,也让算力有了更低的开销,换句话说就是让算力变得更加高效。

    纵观整个RTX 50系显卡体系,AI无论在架构层面、游戏领域,还是内容创作,比重都大幅增加,除了令人惊叹的DLSS 4 AI多帧生成,还有内容创作的神经网络渲染,以及直播会议应用NVIDIA Broadcast,真正融入到我们的生活和工作中,而不是局限于文生图和语言问答,一个崭新的AI时代正式拉开序幕。

    而对于玩家来说,最关心的自然就是DLSS 4的多帧生成,尤其是这块耕升GeForce RTX 5080追风显卡,实际游戏测试可以说是强到“逆天”。究其原因,除了架构本身的变动,另一个重要的原因就是从CNN替换到Transformer模型,让AI从中发挥更多作用,进一步增强生成帧的稳定性和质量,同时也让4K 200帧的游戏体验触手可及。

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    “兵马未动粮草先行”。虽然支持DLSS 4的游戏还不是很多,不过随着RTX 50系显卡的上市和普及,以及DLSS 4强大的体验,相信会有大量的优秀作品跟进。本次评测的耕升GeForce RTX 5080追风版显卡现已发售,想体验DLSS 4的魅力,或者组建一套梦幻平台,可以关注和跟进一波了。

    耕升GeForce RTX 5080追风显卡首测 4K百帧轻松拿捏

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真YYDS!

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    耕升GeForce RTX 5080追风显卡首测 万元内DLSS 4实力担当

    大年初一两大喜,除了开年红包,NVIDIA的RTX 50系显卡次旗舰——RTX 5080的评测也终于和大家见面了。我们知道,NVIDIA每一代80级显卡,凭借着超越上代旗舰的性能,不仅是高端游戏玩家的首选,也是专业图形和AI创作的强悍生产力,例如今天给大家带来的这款耕升GeForce RTX 5080追风版,更是万元内的实力+性价比担当。

    1月7日,在NVIDIA官宣推出GeForce RTX 50系列GPU的同时,耕升也同步推出了全新的GeForce RTX 50炫光、踏雪、追风等系列产品,囊括了GeForce RTX 5090 D、RTX 5080、RTX 5070 Ti 和 RTX 5070 等多款型号,满足不同需求的用户选购。其中追风是耕升主打性价比的系列,尤其是这款RTX 5080追风版高端显卡,更是有着非凡的意义。

    NVIDIA BlackWell架构解析

    为了让大家对GeForce RTX 5080有更深入的了解,评测前我们先对其架构和进行分析。GeForce RTX 50系显卡由全新的NVIDIA BlackWell架构打造,已公布的是GB202、GB203、GB205三款。

    完整的GB202核心包括12个图形处理集群(GPCs);96个纹理处理集群(TPCs);192个多单元流处理器(SMs),和一个512bit总位宽,包含16个32bit内存控制器的内存接口。对应到我们熟悉的数字,则是24576个CUDA,192个RT Cores;768个Tensor Cores以及768个纹理单元。由于第5代Tensor Cores采用了更高速的FP4运算,完整的GB202可达到恐怖的4000 AI TOPS;而第4代RT Cores采用的新的几何运算模型,也让它可以达到360 RT TFLOPS。

    GeForce RTX 5080采用GB203核心,配备10752个CUDA,84个RT Cores;336个Tensor Cores和336个纹理单元。每个SM单元中还包含两个FP64内核,总共384个。FP64内核主要目的是确保带有FP64代码的程序可正常运行,并确保其准确性,这对于医学或专业计算等专业领域是至关重要的。

    GPC是GPU中占据主导地位的高级模块,所有关键的图形处理单元都位于GPC中。在RTX 50系中,GPC整体的布局变化不大。每个GPC包含一个专用的光栅引擎,两个ROP分区。每个分区包含8个单独的ROP单元和8个TPC,每个TPC包含1个变形引擎和两个SM单元。

    完整的GB202核心还包含128MB的L2缓存。大缓存的变更自RTX 40系显卡便已开始,所有程序都可以受益于这个高速大容量的缓存池,而光线跟踪(特别是路径跟踪)等复杂操作将产生巨大的好处。

    SM单元是GPU架构中的核心组件,在GPU并行处理中发挥着关键作用,它通过其各种核心(CUDA,Tensor,RT),高效的warp调度,内存管理以及对AI等现代工作负载的支持实现大规模并行。本代RTX 50系显卡中SM单元的变化非常大,下面我们详细来了解一下。

    完整的GB202核心包含192个SM单元,每个SM包含128个CUDA核心;1个第4代RT Core;4个第5代Tensor Core;4个纹理单元。1个256KB的寄存器文件和128KB的L1共享缓存,它可以根据图形和计算工作负载的需要配置不同的大小。

    在BlackWell架构的SM单元中,INT32整数运算的数量增加了一倍。与Ada架构的SM单元相比,实现了INT32与FP32内核的完全统一。不过在时钟周期内,统一内核只能作为FP32或INT32内核运行。

    与BlackWell架构一同推出的还有GDDR7显存,采用pam3信号技术,它有着更高频率与更低电压的特点。其中RTX 5090配备28Gbps GDDR7显存,峰值显存带宽可达1792GB/s/秒,而RTX 5080配备更高的30Gbps GDDR7显存,峰值内存带宽可达960 GB/秒。结合新的引脚编码方案,GDDR7实现了显著增强的信噪比(SNR)。

    通过增加信道密度、改进的pam3信噪比、先进的均衡方案、重新设计的时钟架构和增强的I/O训练,GDDR7提供了更高的带宽。这些进步还显著提高了能源效率,提供了更好的性能和延长电池寿命,特别是在移动端,或功率受限的系统中。

    BlackWell 第4代RT Core

    在第4代RT Core中,简单来说它相比Ada架构,在渲染光线追踪场景时,提供了两倍光线三角形相交测试吞吐量,并引入了Mega Geometry的结构算法。

    Opacity Micromap Engine

    不透明微引擎在Ada架构中已经引入,它主要的作用是优化光线追踪渲染,可大幅减轻着色器的工作负担。比如树叶之类的复杂物体,不同的光线都会影响它的表现状态,以及树叶之间的光线反弹,所以对于光线追踪的计算量是巨大的。

    不过Opacity Micromap Engine可以将光线追踪特性烘焙到不透明蒙版中,所以那些不规则形状和半透明的对象,也就能够更快更精准的渲染出来,从而极大减轻着色器的工作负担。

    Mega Geometry

    除了上面提到的Opacity Micromap Engine,在BlackWell架构中,还引入了Mega Geometry(大型几何)的运算概念。其中包含了Triangle ClusterIntersection Engine、Linear Swept Spheres等新硬件。

    新的BlackWell RT核心包含一个Triangle ClusterIntersection Engine三角形群集交集引擎,它能够进一步加速大型几何的光线追踪,同时它的工作还包含标准的光线三角形交集测试。Linear Swept Spheres则主要用于光线追踪中精细的几何形状,比如发丝。

    Mega Geometry的理念与虚幻5引擎的Nanite虚拟微多边形几何体系统相同,在现代游戏中,模型更加细致,需要渲染的工作量大幅增加,如果全部按照最精细的级别处理,将会耗费极大的计算资源,所以将LOD分级便应运而生。

    简单来说,就是根据一个物体距离摄像机的远近,来调节物体的细节水平。此前《黑神话:悟空》便应用了这样的技术,它消除了LOD的繁琐任务,可以扫描并导入极高精细程度的模型。并且,这不会影响性能。仍然可以获得实时帧速率。

    在Mega Geometry中提供了新的BVH构建功能,它采用三角形集群作为一级基元。新的集群加速结构Cluster-level Acceleration Structures(CLAS)可以从256个三角形空间紧凑批次中生成,然后使用CLAS集合作为输入来构建最终的BVH。

    不过虚幻5引擎并非专为BlackWell而设计,Mega Geometry的工作只是更高效的让游戏引擎调用API。由于其输入参数完全由GPU内存驱动,游戏引擎可以在GPU上更高效的运行LOD选择、动画、剔除等逻辑。同时最大限度减少对CPU的往返,进而减少与BVH管理相关的CPU开销。

    然而在更加精细化的游戏引擎中,按照传统的流程,应用程序必须从场景中的每一帧的所有对象中构建一个顶层加速结构。而随着更大的世界规模以及繁杂的场景物体,仅靠LOD分级仍然难以实现质的变化。

    为了解决这个问题,Mega Geometry引入了一种新型的顶层加速结构(TLAS),称为分区顶层加速结构(PTLAS)。

    它无需在每一帧都从头开始构建一个新的TLAS,PTLAS能够辨别从一帧到另一帧,哪些对象是静态的。应用程序通过将对象聚合到分区中,并仅更新那些已更改的对象来节省开销。例如游戏可以将静态游戏世界的各个部分放入所属的分区中,同时将动态对象分离到每帧重建的“全局分区”中。与传统的TLAS相比,请求的分区更新越少,节省的运行时开销就越大。

    另外好消息是,Mega Geometry可通过底层API进行扩展支持,适用于所有支持光线追踪的NVIDIA GPU,也就是从图灵架构(Turing)开始。不过BlackWell的第4代RT Core是专门为Mega Geometry而设计的,硬件中的特殊集群引擎实现了几何和BVH数据的新压缩方案,同时是第3代RT Core光线三角形相交率的2倍。因此BlackWell架构可以实现用更小的显存,更高效的处理这些内容。

    Linear Swept Spheres (LSS)

    LSS(线性扫描球体)是BlackWell架构中新增的图形语言,它极大地简化了复杂头发和毛发的渲染开销,并能提升质量。

    此前渲染头发仍然需要最基础的三角形来表达物体,如图所示,发丝中的一个线段需要6个三角形,而一根头发便需要无数个三角形来确保其精度。比如我们的头发则需要600万个三角形来表达。

    Blackwell架构的RT Core引入了LSS新语言的支持,它类似于镶嵌曲线,允许灵活地近似各种链型。并且球体也更适合发行构建。LSS的引入可以让发型构建,减少3倍的数据量,速度大约快了2倍,并可以使用更少的显存,获得更高的帧数。

    BlackWell 第5代Tensor Core

    本代架构除了RT Core进行了改进升级,专门负责AI及高性能计算的Tensor Core也迎来了重大升级。与NVIDIA Ada Tensor Cores一样,Blackwell架构的Tensor Cores支持FP16、BF16、TF32、INT8、INT4和Hopper的FP8 Transformer Engine。

    Blackwell还增加了对FP4和FP6 Tensor Core操作的新支持,以及新的第二代FP8 Transformer Engine。

    FP4精度支持

    FP4提供了一种较低的量化方法,类似于文件压缩,可以减小模型大小,提升生成速度。与FP16精度(大多数型号发布的默认方法)相比,FP4只需要不到一半的显存。FP4使用NVIDIA TensorRTModelOptimizer提供的量化方法,几乎没有质量损失。

    例如,目前最强的AI绘画模型FLUX.dev ,在FP16上需要超过23GB的显存,而这意味着它只能由每一代的旗舰产品RTX 4090,RTX 5090和专业GPU来支持。而对于FP4,FLUX.dev测试对显存的需求将少于10GB,让更多80级和70级的显卡均能在本地运行。

    在性能和效果对比上,使用带有FP16的RTX 4090,FLUX.dev模型可以通过30个步骤在15秒内生成图像。使用带有FP4的RTX 5090,只需5秒多一点就可以生成图像。

    DLSS 4

    DLSS 4是本代RTX 50系显卡带来的重大更新,对于玩家来说它也是最能实际感受到的。最新版本DLSS 4带来了新的多帧生成(MFG),具有更快的性能和更低的显存使用等特性。支持最新Transformer引擎包含超分辨率(SR),光线重建(RR)和深度学习抗锯齿(DLAA)模型,可进一步增强图像质量和稳定性。

    这些新技术由RTX 50系GPU和第5代Tensor Cores支持,并由云端的NVIDIA Al超级计算机提供支持。多帧生成功能对于手持RTX 40系或更早期显卡的玩家还无缘体会。DLSS 4新增的多帧生成,目前仅支持RTX 50系显卡。

    Multi Frame Generation(多帧生成)

    DLSS多帧生成能够通过每个传统渲染帧,生成多达三帧的额外帧来提高FPS。新的帧生成AI模型相比之前的帧生成方法快40%,使用的显存减少30%,并且每个渲染帧只需要运行一次就可以生成多个帧。高效的AI模型代替了上一代的硬件光流模型,从而加快了光流场的生成速度,并显著降低了生成额外帧的计算成本。

    从生成帧的层面来说,上一代DLSS 3帧生成基于CPU的帧节奏,而这种方式可能会让生成的帧与额外的帧混合在一起,导致每帧之间的帧节奏不太一致,影响平滑性。为了解决生成多帧的复杂性,Blackwell架构将帧节奏逻辑转移到显示引擎,使GPU能够更精确地管理显示时序,从而避免与额外帧混合的情况,进而提升帧生成的准确性及稳定性。

    而第5代Tensor Cores拥有更高的计算能力,这使得它们能够更快地执行计算光流和生成多帧的一系列AI模型。并更好地调度DLSS AI处理、图形渲染和帧速度算法。

    Transformer模型

    此前DLSS所用的模型为Convolutional Neural Network,即我们熟悉的卷积神经网络(CNN),CNN的工作原理是将像素局部聚集在一起,并以树的形式从低到高地进行分析数据。这种结构的计算效率很高,这也是为什么它被称为卷积神经网络。

    而DLSS 4引入了基于Transformer的AI模型,用于DLSS超分辨率、DLSS光线重建和深度学习抗锯齿(DLAA),从而提高图像质量和渲染平滑度。基于Transformer模型体系结构的神经网络,擅长处理涉及顺序和结构化数据的任务。简单来说,就是Transformer能够抓住“重点”,可以更好地理解和渲染复杂场景。

    与CNN模型相比,Transformer更容易在更大的像素窗口中识别更远距离的模式,具有一定的学习能力和“前瞻性”。本代DLSS 4将基于CNN的神经网络结构,转变为基于Transformer的神经网络结构,在许多场景下图像质量都有着显著提升。

    Shader Execution Reordering (SER) 2.0

    Shader Execution Reordering(着色器重排序)是在RTX 40系架构中引入的一项技术,它可以使带有光追的程序有效地重组GPU上的大量并行线程,以最大限度地利用硬件。

    因为连贯执行神经工作负载的线程可以直接发送到Tensor Core,所以SER也显著加速了神经着色。在Blackwell架构中,SER的核心重排序逻辑效率是原来的两倍,减少了重排序开销并提高了精度。从而进一步提高了该功能的有效性。这项功能更多地是为应用程序开发者而设计,它仅需一个小的API改动,即可执行重排序操作,进而提升总体项目的负载性能。

    耕升GeForce RTX 5080追风显卡概览

    耕升GeForce RTX 5080追风显卡的包装有着追风系列一贯的元素,下部是非常醒目的GeForce RTX 5080,以及16GB GDDR7字样,给人一种强烈的开箱冲动。

    耕升GeForce RTX 5080追风显卡整体尺寸为315x139x50mm,2.2槽厚度,外观延续追风家族设计语言,整体线条硬朗无比,散热器整流罩采用经典的红黑配色和磨砂触感设计,内敛不失格调而且质感优秀,三只风扇中间均有“追风”图腾装饰。

    显卡采用耕升第四代“风盾X3”散热器,散热效能再升级,2根6mm+5根8mm复合式镀镍热管,贯穿大面积高效能VC均热板和高密度散热鳍片,结合回流焊接工艺,带来更强的散热性能。搭配三只耕升第三代“炫风之刃”风扇,升级环形扇叶,风量风压更强大。

    背部配备高强度防护背板,为显卡提供额外防护和支撑的同时,还兼具散热效果。背板同样是纯黑哑光风格,点缀独特的纹饰和GAInWARD品牌Logo以及GEFORCE RTX字样,侧面的大面积镂空窗口,便于显卡内部热空气快速排出,进一步提升散热效率。

    顶部是散热模组的出风口,整流罩上有GAInWARD的LOGO灯,支持各大品牌主板的ARGB调控和神光同步,旁边是红色的耕升品牌标识,背板的弯折部分有GEFORCE RTX字样。值得一提的是,显卡内部还搭载了一体式中框,让结构更加稳定,有效防止显卡变形

    供电部分采用单个16pin的12V-2X6新协议接口,可实现更加稳固可靠的连接。供电接口旁边是ARGB灯与主板的同步接口,还能看见黑色的超厚实中框。显卡采用12层强悍的PCB,搭配12+4+3相供电,高规格用料和豪华供电配置,带来非常稳定的电气性能。

    接口部分,配备了3个DP2.1b和1个HDMI2.1b,其中DP 2.1b接口为UHBR20规格,可达 80Gbps 带宽,最高支持8K(7680x4320)165Hz或者4K(3840x2160)480Hz画面输出,但需要DP80LL认证的线材,耕升品牌图腾的镂空网格挡板更便于散热。

    测试平台和显卡信息简介

    为了保障耕升GeForce RTX 5080追风显卡的性能发挥,我们的测试平台进行了全面更新,包括新一代游戏神U锐龙R7 9800X3D、X870E主板、64GB DDR5内存、PCIe5.0固态硬盘、1300W数字电源以及4K 240Hz高刷显示器。

    由于GPU-Z的2.61版本还有部分参数无法识别,因此可显示的内容相对较少,例如只能看到显卡的品牌为Gainward,拥有10752个CUDA,Boost频率达到了2617MHz,光栅单元和纹理单元为112/336,使用PCIe5.0x16传输模式。根据GB203核心已知的信息,其采用与上一代相同的TSMC 4nm定制工艺,芯片面积378mm²,比RTX 5090的750mm²小了一半。

    显存类型未能识别出,仅能看到容量16GB,以及256bit的位宽,而带宽则按照上代的GDDR6显示为480GB/s,频率也被识别为15001MHz,而实际上这块显卡配备的DDR7显存频率高达30Gbps,实际带宽也高达960GB/s。由此可见,耕升GeForce RTX 5080追风与公版的参数是一致的。

    理论性能测试

    首先进行的3DMARK FS套装:FS、FSE、FSU,这是用来衡量显卡DX11理论性能的内容,分别对应显卡在1080P、2K、4K的理论性能。实际测试结果显示,耕升GeForce RTX 5080追风相对于RTX 4080 SUPER,在三档分辨率中的提升分别为,9%、17%和20%,综合提升约为15%

    在针对DX12环境下的Time Spy和Time Spy Extreme测试中,耕升GeForce RTX 5080追风相较于RTX 4080 SUPER,TS提升14%,TSE提升14%,综合提升约为14%

    PortRoyal是3DMARK中专门针对光追性能的测试项,耕升GeForce RTX 5080追风相较RTX 4080 SUPER的提升约为20%。综合来看,耕升GeForce RTX 5080追风的理论性能相较RTX 4080 SUPER的提升约为16%

    Speed Way结合了实时光线追踪和传统渲染技术,场景含有光线追踪反射、实时全局光照、网格着色器、体积照明、粒子和后处理效果,因此该项测试基本可以看做次世代3A游戏基准。经测试,耕升GeForce RTX 5080追风相对于RTX 4080 SUPER提升了22%

    DLSS的理论测试变化较大,DLSS 2和DLSS 3采用上一代的CNN模型,而最新的多帧生成则采用了Transformer模型,并且多帧生成可调节生成帧的数量。从测试结果看,DLSS 4 2X基本可以看作是DLSS 3的帧生成,而相比上代DLSS 3,DLSS 4 4X模式下,帧数综合提升在69%左右,其中4K和8K提升高达77%左右,在8K分辨率下达到158帧,4K分辨率更是达到290帧。

    DLSS 4性能测试

    DLSS 4可以说是RTX 50系显卡的重头戏,也是备受玩家期待的新特性,首发就已经支持75款游戏或应用,尚未集成DLSS 4的游戏,可在NVIDIA APP中进行直接调节。例如显卡测试“钉子户”——《赛博朋克2077》,这款游戏在RTX 50系显卡性能解禁后就更新了DLSS 4。

    接下来的我们会进行多角度对比,来看看不同DLSS的设置,三档画质的帧数表现。为保证缩放比例固定,我们均选择在DLSS质量模式下进行。传统DLSS 2的测试中,使用CNN模型DLSS,可以看到即便是耕升GeForce RTX 5080追风在4K分辨率下,光追超级画质也仅有65帧,而在光追超速模式下为39帧,非常吃配置。

    DLSS 3的测试依然为CNN模型,增加帧生成。可以看到DLSS 3相较DLSS 2,在4K超级画质、光追超级、光追加速的提升,分别为66%、68%、81%综合提升72%,成绩非常惊人。

    DLSS 4测试模型更改为Transformer,开启多帧生成,首先测试3X下的表现。耕升GeForce RTX 5080追风在4K超级画质、光追超级、光追加速,均将帧数提升到全新高度,相较DLSS 3帧生成的提升分别为27%、35%43%,即便在光追超级画质也能达到146帧,1080p分辨率超级画质更是达到惊人的472帧。

    DLSS 4 Transformer模型4X帧生成模式,在4K超级画质、光追超级、光追加速中,相较DLSS 4的3X帧生成的提升分别为27%、26%28%,对比DLSS 3帧生成则分别提升了61%、70%84%,即便在光追加速画质也达到了128帧,4K超级画质更是达到了238帧。

    除了帧数上的提升,DLSS 4对于画质的加成也让人非常惊喜。从下面的一组实机截图,可以看到在采用Transformer模型的DLSS 4中,物体表面的纹理细节更清晰,即便是没有模型面覆盖的锈迹,DLSS 4依然能精准还原。

    在另一组截图中,墙上的裂纹在DLSS 4中有更明显的痕迹,整体画面相较于DLSS 3也更通透明亮。

    接下来是近期比较热门的FPS+MOBA类网游《漫威争锋》,不过这款游戏尚未集成DLSS 4,这里举例说明在NVIDIA APP中如何开启DLSS 4。

    打开NVIDIA APP,切换至“图形”选项卡,找到对应的游戏,在最下方“驱动程序设置”中找到DLSS模型预设,将内部选项全部调节至最新后,开启DLSS帧生成4X,然后再重启游戏即可享受帧数的暴力加成。不过游戏中的DLSS设置及名称不会发生变化,仍然可调节质量、平衡、性能等位,只不过对应的是DLSS 4X。

    我们知道,竞技类网游对于帧数要求比画面更高,这也是游戏体验甚至决定成败的关键。经测试,耕升GeForce RTX 5080追风在4K分辨率下,DLSS 2质量模式可达到110帧。

    在4K分辨率下的DLSS 3帧生成模式中,相比DLSS 2在质量模式中提升了33%,达到146帧的电竞级帧率。

    在DLSS 4 4X多帧生成,4K分辨率达到275帧,相比DLSS 3质量模式再提升88%,1080P分辨率更是达到逆天的540帧,这已经超过超高刷电竞显示器的上限了。

    至于游戏的画面对比,DLSS 4 4X的四档画质也很难看出区别,例如角色的头发、衣服,远处的建筑涂绘,基本都和原生画质分毫不差。这两款游戏的测试表明,DLSS 4确实有着质的飞跃,在帧数大幅提升的同时,画质相比DLSS 3也更好,为玩家带来超凡的游戏体验。

    常规游戏性能测试

    除了DLSS 4对于游戏的加成,我们还测试了一些一些主流的3A大作和支持DLSS 3的网络游戏,并与RTX 4080 SUPER的进行对比。先看两款网络游戏的测试,在国产武侠大作《燕云十六声》的DLSS 2测试中,耕升GeForce RTX 5080的2K与4K的成绩几乎相同。

    DLSS 3测试也基本如此,这是游戏的优化不完善导致的。但4K分辨率耕升GeForce RTX 5080追风大部分DLSS成绩均在200帧左右,性能非常强大。

    热门射击游戏《三角洲行动》DLSS 2测试,耕升GeForce RTX 5080追风4K分辨率DLSS质量模式为169帧,达到电竞级帧率,而性能模式更是接近200帧。

    DLSS 3测试,耕升GeForce RTX 5080追风在低分辨率下的帧数表现恢复了正常,二4K分辨率的成绩均在200帧左右,无论是战役还是团战,都能获得超级流畅的体验。

    接下来是3A游戏的测试。第一个自然是去年火遍全球国产虚幻5巨制《黑神话:悟空》,这款游戏自带DLSS 3帧生成。我们的两项测试也全部开启帧生成,并将游戏设置为影视级。经测试,耕升GeForce RTX 5080追风在4K分辨率下最高已经达到了129帧。

    有意思的是,《黑神话:悟空》开启全景光追后,部分分辨率帧数反而更高。其中4K分辨率下开关光追在超级性能模式中帧数差别不大,如果想获得比较高的画质,可以选择性能模式游玩,在享受高帧率的同时,又不损失画质,观赏风景十分惬意。

    《刺客信条:幻景》测试,我们关闭游戏的自适应帧率,分别测试DLSS不同挡位与原生画质下的差异。耕升GeForce RTX 5080追风在4K分辨率原生画质下即接近百帧,而在DLSS超级性能档位更是达到173帧。

    在纯光栅化游戏帧数对比中,《无主之地3》比较能概括RTX 5080与RTX 4080 SUPER的光栅化性能的综合差距。经实测,耕升GeForce RTX 5080相比RTX 4080 SUPER,1080p提升4%,2K提升10%,4K提升16%,综合提升10%。

    知名竞速游戏《极限竞速:地平线5》是常用的显卡测试游戏,其出色的优化在原生效果下即可跑出优秀的成绩。在4K分辨率下,耕升GeForce RTX 5080追风DLSS 3成绩再创新高,达到了191帧,真正是风驰电掣的感觉。

    《光明记忆:无限》这款游戏虽然较老,但对显卡的性能要求较高,而它的光追测试软件是独立于游戏的测试工具,比游戏中用到的光线追踪技术更多。本次测试条件为“RTX最高/DLSS质量”,耕升GeForce RTX 5080追风相比RTX 4080 SUPER,1080p分辨率提升12%,2K分辨率提升14%;4K提升19%,综合提升15%。

    专业软件测试

    耕升GeForce RTX 5080追风拥有16GB的显存,不仅在游戏方面的表现炸裂,而且新架构对于专业内容创作软件同样有优化,能带来更高的效率提升。下面我们分别测试了不同类别的专业软件,来看看实际效果。

    UL Procyon

    本次测试UL提供了FLUX.1 Dev绘画模型的FP4测试,该模型在FP16上运行需要超过23GB的显存,这往往需要每代的90级旗舰显卡或者专业显卡。而FP4只需要不到一半的显存即可运行,这使得更多80级和70级的显卡均能在本地运行,而且使用NVIDIA TensorRT提供的量化方法,几乎没有质量损失。

    BlackWell架构新的Tensor Core特性不仅让生成所需的显存显著减少,在生成时间也有大幅降低,实际测试平均4张图片即可节省20秒时间。

    下面是FP4渲染生成的图片。

    下面是FP8渲染生成图片,可见FP4和FP8所生成的图片效果是相同的,在细节和图片精度上均有着良好表现,但对显卡的显存容量更加友好。

    Keyshot 2024

    Keyshot是一款专注于模拟光线追踪的渲染软件,并可分别调用CPU或GPU进行渲染,下面我们看下最终的渲染时间和结果。

    使用耕升GeForce RTX 5080追风显卡渲染一张4K分辨率、采样率为1000的图片,最终用时98.91秒。

    而使用我们测试平台的AMD锐龙7 9800X3D处理器,用时长达1小时34分56秒。并且从图片细节看两种渲染方式几乎没有不同,可见GPU对于内容创作者的效率的提升是巨大的。

    V-Ray6

    V-Ray6对于GPU的测试分为RTX与CUDA,这里主要看RTX成绩,其中RTX测试得分为9420,相比RTX 4080 SUPER(7047)首测时提升31%左右。

    功耗及温度测试

    功耗和温度也是表征显卡性能的关键参数,我们选择FurMark2软件进行拷机测试,并采用AIDA64检测信息。不过FurMark尚无法检测到GPU信息,部分温度识别有误,因此以蓝色的AIDA64信息为准。经过30分钟左右的烤机测试,耕升GeForce RTX 5080追风的GPU和显存的温度均为70℃,在TDP 100%的满载情况下,整卡功耗为358.44W。

    除了满载烤机,我们还测试了游戏中显卡的真实功耗数据,在《赛博朋克2077》benchmark设置4K分辨率的光追加速画质,并开启DLSS 4 4X多帧生成,将显卡性能拉满。经测试,耕升GeForce RTX 5080追风的平均功耗为277.2W,相比FurMark烤机低了81W左右。

    在功耗检测的同时,我们也调出了延迟数据,在DLSS 4 4X多帧生成的环境下,游戏平均延迟为47.4ms,这意味着即便有多张AI生成帧参与到游戏中,延迟依然很低。

    NVIDIA Broadcast简介

    NVIDIA Broadcast是一款用于直播或会议的AI软件,目前随着RTX 50系的发布,也进行了版本更新,界面更小巧,纵向布局也更方便视频直播中调节选项。

    NVIDIA Broadcast一些经典效果更方便开启,其中目光接触功能非常适合远程会议,即便眼睛盯着屏幕,也能让参与人员时刻注意到你的眼睛,并且还有一定“大眼”效果。

    虚拟补光仍是测试版功能,它可以在光线较暗的情况下进行面部的AI补光,看你看起来仍然处于光线较好的环境中。

    新版的NVIDIA Broadcast还增加了GPU利用率的显示,当软件中功能全部打开时,对于GPU的占用率还是非常高的,比较适合会议等不需要过多GPU参与的场景。而如果是游戏直播,则可适当关闭AI效果,以降低GPU利用率。不过目前新版NVIDIA Broadcast仍处于测试阶段,实际效果与GPU开销应以正式版为准。

    NVIDIA APP简介

    新版的NVIDIA APP代替了原来的GFE软件,并且功能更强大,使用起来也更方便。最主要的是,它不用登陆了,即下即用。在APP首页除了显示最新的驱动信息,还新增了NVIDIA周边软件的下载,比如AI绘画Canvas;图像视频对比工具ICAT;性能测试工具FrameView等等,不用再去NVIDIA官网寻找。

    从APP中强制开启DLSS 4的功能在《漫威争锋》游戏中已有介绍,虽然给游戏带来的加成是狂暴级别,但目前并不是所有游戏和软件均支持此功能。

    系统界面中则更多的是调试类功能,如显示器、视频、超频等。

    其中性能界面提供了较为详细的监控和超频选项,需要注意的是新手如果想尝试超频,尽量不要改变电压,这个选项轻则掉驱动,重则烧毁显卡。

    NVIDIA信息浮窗是游戏中很好的辅助工具,要开启此功能,需要在APP主界面的设置一栏中,开启按钮,之后按ALT+Z即可呼出边栏。

    按ALT+R可呼出统计数据的浮窗,功能设置和自由度的调节也非常丰富,最主要的是相当简便。

    DLSS 4真YYDS!

    RTX 50系显卡正式迈向了AI计算的时代,而AI的硬件算力又是相辅相成的关系,在RTX 30系和40系的年代,AI的发展可以是说是靠硬件算力来推动,而50系显卡全新的Blackwell架构,无论是对于游戏还是现代的AI创作,在实现如虎添翼效果的同时,也让算力有了更低的开销,换句话说就是让算力变得更加高效。

    纵观整个RTX 50系显卡体系,AI无论在架构层面、游戏领域,还是内容创作,比重都大幅增加,除了令人惊叹的DLSS 4 AI多帧生成,还有内容创作的神经网络渲染,以及直播会议应用NVIDIA Broadcast,真正融入到我们的生活和工作中,而不是局限于文生图和语言问答,一个崭新的AI时代正式拉开序幕。

    而对于玩家来说,最关心的自然就是DLSS 4的多帧生成,尤其是这块耕升GeForce RTX 5080追风显卡,实际游戏测试可以说是强到“逆天”。究其原因,除了架构本身的变动,另一个重要的原因就是从CNN替换到Transformer模型,让AI从中发挥更多作用,进一步增强生成帧的稳定性和质量,同时也让4K 200帧的游戏体验触手可及。

    “兵马未动粮草先行”。虽然支持DLSS 4的游戏还不是很多,不过随着RTX 50系显卡的上市和普及,以及DLSS 4强大的体验,相信会有大量的优秀作品跟进。本次评测的耕升GeForce RTX 5080追风版显卡现已发售,想体验DLSS 4的魅力,或者组建一套梦幻平台,可以关注和跟进一波了。

    耕升GeForce RTX 5080追风显卡首测 4K百帧轻松拿捏

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真YYDS!

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    耕升GeForce RTX 5080追风显卡首测 万元内DLSS 4实力担当

    大年初一两大喜,除了开年红包,NVIDIA的RTX 50系显卡次旗舰——RTX 5080的评测也终于和大家见面了。我们知道,NVIDIA每一代80级显卡,凭借着超越上代旗舰的性能,不仅是高端游戏玩家的首选,也是专业图形和AI创作的强悍生产力,例如今天给大家带来的这款耕升GeForce RTX 5080追风版,更是万元内的实力+性价比担当。

    1月7日,在NVIDIA官宣推出GeForce RTX 50系列GPU的同时,耕升也同步推出了全新的GeForce RTX 50炫光、踏雪、追风等系列产品,囊括了GeForce RTX 5090 D、RTX 5080、RTX 5070 Ti 和 RTX 5070 等多款型号,满足不同需求的用户选购。其中追风是耕升主打性价比的系列,尤其是这款RTX 5080追风版高端显卡,更是有着非凡的意义。

    NVIDIA BlackWell架构解析

    为了让大家对GeForce RTX 5080有更深入的了解,评测前我们先对其架构和进行分析。GeForce RTX 50系显卡由全新的NVIDIA BlackWell架构打造,已公布的是GB202、GB203、GB205三款。

    完整的GB202核心包括12个图形处理集群(GPCs);96个纹理处理集群(TPCs);192个多单元流处理器(SMs),和一个512bit总位宽,包含16个32bit内存控制器的内存接口。对应到我们熟悉的数字,则是24576个CUDA,192个RT Cores;768个Tensor Cores以及768个纹理单元。由于第5代Tensor Cores采用了更高速的FP4运算,完整的GB202可达到恐怖的4000 AI TOPS;而第4代RT Cores采用的新的几何运算模型,也让它可以达到360 RT TFLOPS。

    GeForce RTX 5080采用GB203核心,配备10752个CUDA,84个RT Cores;336个Tensor Cores和336个纹理单元。每个SM单元中还包含两个FP64内核,总共384个。FP64内核主要目的是确保带有FP64代码的程序可正常运行,并确保其准确性,这对于医学或专业计算等专业领域是至关重要的。

    GPC是GPU中占据主导地位的高级模块,所有关键的图形处理单元都位于GPC中。在RTX 50系中,GPC整体的布局变化不大。每个GPC包含一个专用的光栅引擎,两个ROP分区。每个分区包含8个单独的ROP单元和8个TPC,每个TPC包含1个变形引擎和两个SM单元。

    完整的GB202核心还包含128MB的L2缓存。大缓存的变更自RTX 40系显卡便已开始,所有程序都可以受益于这个高速大容量的缓存池,而光线跟踪(特别是路径跟踪)等复杂操作将产生巨大的好处。

    SM单元是GPU架构中的核心组件,在GPU并行处理中发挥着关键作用,它通过其各种核心(CUDA,Tensor,RT),高效的warp调度,内存管理以及对AI等现代工作负载的支持实现大规模并行。本代RTX 50系显卡中SM单元的变化非常大,下面我们详细来了解一下。

    完整的GB202核心包含192个SM单元,每个SM包含128个CUDA核心;1个第4代RT Core;4个第5代Tensor Core;4个纹理单元。1个256KB的寄存器文件和128KB的L1共享缓存,它可以根据图形和计算工作负载的需要配置不同的大小。

    在BlackWell架构的SM单元中,INT32整数运算的数量增加了一倍。与Ada架构的SM单元相比,实现了INT32与FP32内核的完全统一。不过在时钟周期内,统一内核只能作为FP32或INT32内核运行。

    与BlackWell架构一同推出的还有GDDR7显存,采用pam3信号技术,它有着更高频率与更低电压的特点。其中RTX 5090配备28Gbps GDDR7显存,峰值显存带宽可达1792GB/s/秒,而RTX 5080配备更高的30Gbps GDDR7显存,峰值内存带宽可达960 GB/秒。结合新的引脚编码方案,GDDR7实现了显著增强的信噪比(SNR)。

    通过增加信道密度、改进的pam3信噪比、先进的均衡方案、重新设计的时钟架构和增强的I/O训练,GDDR7提供了更高的带宽。这些进步还显著提高了能源效率,提供了更好的性能和延长电池寿命,特别是在移动端,或功率受限的系统中。

    BlackWell 第4代RT Core

    在第4代RT Core中,简单来说它相比Ada架构,在渲染光线追踪场景时,提供了两倍光线三角形相交测试吞吐量,并引入了Mega Geometry的结构算法。

    Opacity Micromap Engine

    不透明微引擎在Ada架构中已经引入,它主要的作用是优化光线追踪渲染,可大幅减轻着色器的工作负担。比如树叶之类的复杂物体,不同的光线都会影响它的表现状态,以及树叶之间的光线反弹,所以对于光线追踪的计算量是巨大的。

    不过Opacity Micromap Engine可以将光线追踪特性烘焙到不透明蒙版中,所以那些不规则形状和半透明的对象,也就能够更快更精准的渲染出来,从而极大减轻着色器的工作负担。

    Mega Geometry

    除了上面提到的Opacity Micromap Engine,在BlackWell架构中,还引入了Mega Geometry(大型几何)的运算概念。其中包含了Triangle ClusterIntersection Engine、Linear Swept Spheres等新硬件。

    新的BlackWell RT核心包含一个Triangle ClusterIntersection Engine三角形群集交集引擎,它能够进一步加速大型几何的光线追踪,同时它的工作还包含标准的光线三角形交集测试。Linear Swept Spheres则主要用于光线追踪中精细的几何形状,比如发丝。

    Mega Geometry的理念与虚幻5引擎的Nanite虚拟微多边形几何体系统相同,在现代游戏中,模型更加细致,需要渲染的工作量大幅增加,如果全部按照最精细的级别处理,将会耗费极大的计算资源,所以将LOD分级便应运而生。

    简单来说,就是根据一个物体距离摄像机的远近,来调节物体的细节水平。此前《黑神话:悟空》便应用了这样的技术,它消除了LOD的繁琐任务,可以扫描并导入极高精细程度的模型。并且,这不会影响性能。仍然可以获得实时帧速率。

    在Mega Geometry中提供了新的BVH构建功能,它采用三角形集群作为一级基元。新的集群加速结构Cluster-level Acceleration Structures(CLAS)可以从256个三角形空间紧凑批次中生成,然后使用CLAS集合作为输入来构建最终的BVH。

    不过虚幻5引擎并非专为BlackWell而设计,Mega Geometry的工作只是更高效的让游戏引擎调用API。由于其输入参数完全由GPU内存驱动,游戏引擎可以在GPU上更高效的运行LOD选择、动画、剔除等逻辑。同时最大限度减少对CPU的往返,进而减少与BVH管理相关的CPU开销。

    然而在更加精细化的游戏引擎中,按照传统的流程,应用程序必须从场景中的每一帧的所有对象中构建一个顶层加速结构。而随着更大的世界规模以及繁杂的场景物体,仅靠LOD分级仍然难以实现质的变化。

    为了解决这个问题,Mega Geometry引入了一种新型的顶层加速结构(TLAS),称为分区顶层加速结构(PTLAS)。

    它无需在每一帧都从头开始构建一个新的TLAS,PTLAS能够辨别从一帧到另一帧,哪些对象是静态的。应用程序通过将对象聚合到分区中,并仅更新那些已更改的对象来节省开销。例如游戏可以将静态游戏世界的各个部分放入所属的分区中,同时将动态对象分离到每帧重建的“全局分区”中。与传统的TLAS相比,请求的分区更新越少,节省的运行时开销就越大。

    另外好消息是,Mega Geometry可通过底层API进行扩展支持,适用于所有支持光线追踪的NVIDIA GPU,也就是从图灵架构(Turing)开始。不过BlackWell的第4代RT Core是专门为Mega Geometry而设计的,硬件中的特殊集群引擎实现了几何和BVH数据的新压缩方案,同时是第3代RT Core光线三角形相交率的2倍。因此BlackWell架构可以实现用更小的显存,更高效的处理这些内容。

    Linear Swept Spheres (LSS)

    LSS(线性扫描球体)是BlackWell架构中新增的图形语言,它极大地简化了复杂头发和毛发的渲染开销,并能提升质量。

    此前渲染头发仍然需要最基础的三角形来表达物体,如图所示,发丝中的一个线段需要6个三角形,而一根头发便需要无数个三角形来确保其精度。比如我们的头发则需要600万个三角形来表达。

    Blackwell架构的RT Core引入了LSS新语言的支持,它类似于镶嵌曲线,允许灵活地近似各种链型。并且球体也更适合发行构建。LSS的引入可以让发型构建,减少3倍的数据量,速度大约快了2倍,并可以使用更少的显存,获得更高的帧数。

    BlackWell 第5代Tensor Core

    本代架构除了RT Core进行了改进升级,专门负责AI及高性能计算的Tensor Core也迎来了重大升级。与NVIDIA Ada Tensor Cores一样,Blackwell架构的Tensor Cores支持FP16、BF16、TF32、INT8、INT4和Hopper的FP8 Transformer Engine。

    Blackwell还增加了对FP4和FP6 Tensor Core操作的新支持,以及新的第二代FP8 Transformer Engine。

    FP4精度支持

    FP4提供了一种较低的量化方法,类似于文件压缩,可以减小模型大小,提升生成速度。与FP16精度(大多数型号发布的默认方法)相比,FP4只需要不到一半的显存。FP4使用NVIDIA TensorRTModelOptimizer提供的量化方法,几乎没有质量损失。

    例如,目前最强的AI绘画模型FLUX.dev ,在FP16上需要超过23GB的显存,而这意味着它只能由每一代的旗舰产品RTX 4090,RTX 5090和专业GPU来支持。而对于FP4,FLUX.dev测试对显存的需求将少于10GB,让更多80级和70级的显卡均能在本地运行。

    在性能和效果对比上,使用带有FP16的RTX 4090,FLUX.dev模型可以通过30个步骤在15秒内生成图像。使用带有FP4的RTX 5090,只需5秒多一点就可以生成图像。

    DLSS 4

    DLSS 4是本代RTX 50系显卡带来的重大更新,对于玩家来说它也是最能实际感受到的。最新版本DLSS 4带来了新的多帧生成(MFG),具有更快的性能和更低的显存使用等特性。支持最新Transformer引擎包含超分辨率(SR),光线重建(RR)和深度学习抗锯齿(DLAA)模型,可进一步增强图像质量和稳定性。

    这些新技术由RTX 50系GPU和第5代Tensor Cores支持,并由云端的NVIDIA Al超级计算机提供支持。多帧生成功能对于手持RTX 40系或更早期显卡的玩家还无缘体会。DLSS 4新增的多帧生成,目前仅支持RTX 50系显卡。

    Multi Frame Generation(多帧生成)

    DLSS多帧生成能够通过每个传统渲染帧,生成多达三帧的额外帧来提高FPS。新的帧生成AI模型相比之前的帧生成方法快40%,使用的显存减少30%,并且每个渲染帧只需要运行一次就可以生成多个帧。高效的AI模型代替了上一代的硬件光流模型,从而加快了光流场的生成速度,并显著降低了生成额外帧的计算成本。

    从生成帧的层面来说,上一代DLSS 3帧生成基于CPU的帧节奏,而这种方式可能会让生成的帧与额外的帧混合在一起,导致每帧之间的帧节奏不太一致,影响平滑性。为了解决生成多帧的复杂性,Blackwell架构将帧节奏逻辑转移到显示引擎,使GPU能够更精确地管理显示时序,从而避免与额外帧混合的情况,进而提升帧生成的准确性及稳定性。

    而第5代Tensor Cores拥有更高的计算能力,这使得它们能够更快地执行计算光流和生成多帧的一系列AI模型。并更好地调度DLSS AI处理、图形渲染和帧速度算法。

    Transformer模型

    此前DLSS所用的模型为Convolutional Neural Network,即我们熟悉的卷积神经网络(CNN),CNN的工作原理是将像素局部聚集在一起,并以树的形式从低到高地进行分析数据。这种结构的计算效率很高,这也是为什么它被称为卷积神经网络。

    而DLSS 4引入了基于Transformer的AI模型,用于DLSS超分辨率、DLSS光线重建和深度学习抗锯齿(DLAA),从而提高图像质量和渲染平滑度。基于Transformer模型体系结构的神经网络,擅长处理涉及顺序和结构化数据的任务。简单来说,就是Transformer能够抓住“重点”,可以更好地理解和渲染复杂场景。

    与CNN模型相比,Transformer更容易在更大的像素窗口中识别更远距离的模式,具有一定的学习能力和“前瞻性”。本代DLSS 4将基于CNN的神经网络结构,转变为基于Transformer的神经网络结构,在许多场景下图像质量都有着显著提升。

    Shader Execution Reordering (SER) 2.0

    Shader Execution Reordering(着色器重排序)是在RTX 40系架构中引入的一项技术,它可以使带有光追的程序有效地重组GPU上的大量并行线程,以最大限度地利用硬件。

    因为连贯执行神经工作负载的线程可以直接发送到Tensor Core,所以SER也显著加速了神经着色。在Blackwell架构中,SER的核心重排序逻辑效率是原来的两倍,减少了重排序开销并提高了精度。从而进一步提高了该功能的有效性。这项功能更多地是为应用程序开发者而设计,它仅需一个小的API改动,即可执行重排序操作,进而提升总体项目的负载性能。

    耕升GeForce RTX 5080追风显卡概览

    耕升GeForce RTX 5080追风显卡的包装有着追风系列一贯的元素,下部是非常醒目的GeForce RTX 5080,以及16GB GDDR7字样,给人一种强烈的开箱冲动。

    耕升GeForce RTX 5080追风显卡整体尺寸为315x139x50mm,2.2槽厚度,外观延续追风家族设计语言,整体线条硬朗无比,散热器整流罩采用经典的红黑配色和磨砂触感设计,内敛不失格调而且质感优秀,三只风扇中间均有“追风”图腾装饰。

    显卡采用耕升第四代“风盾X3”散热器,散热效能再升级,2根6mm+5根8mm复合式镀镍热管,贯穿大面积高效能VC均热板和高密度散热鳍片,结合回流焊接工艺,带来更强的散热性能。搭配三只耕升第三代“炫风之刃”风扇,升级环形扇叶,风量风压更强大。

    背部配备高强度防护背板,为显卡提供额外防护和支撑的同时,还兼具散热效果。背板同样是纯黑哑光风格,点缀独特的纹饰和GAInWARD品牌Logo以及GEFORCE RTX字样,侧面的大面积镂空窗口,便于显卡内部热空气快速排出,进一步提升散热效率。

    顶部是散热模组的出风口,整流罩上有GAInWARD的LOGO灯,支持各大品牌主板的ARGB调控和神光同步,旁边是红色的耕升品牌标识,背板的弯折部分有GEFORCE RTX字样。值得一提的是,显卡内部还搭载了一体式中框,让结构更加稳定,有效防止显卡变形

    供电部分采用单个16pin的12V-2X6新协议接口,可实现更加稳固可靠的连接。供电接口旁边是ARGB灯与主板的同步接口,还能看见黑色的超厚实中框。显卡采用12层强悍的PCB,搭配12+4+3相供电,高规格用料和豪华供电配置,带来非常稳定的电气性能。

    接口部分,配备了3个DP2.1b和1个HDMI2.1b,其中DP 2.1b接口为UHBR20规格,可达 80Gbps 带宽,最高支持8K(7680x4320)165Hz或者4K(3840x2160)480Hz画面输出,但需要DP80LL认证的线材,耕升品牌图腾的镂空网格挡板更便于散热。

    测试平台和显卡信息简介

    为了保障耕升GeForce RTX 5080追风显卡的性能发挥,我们的测试平台进行了全面更新,包括新一代游戏神U锐龙R7 9800X3D、X870E主板、64GB DDR5内存、PCIe5.0固态硬盘、1300W数字电源以及4K 240Hz高刷显示器。

    由于GPU-Z的2.61版本还有部分参数无法识别,因此可显示的内容相对较少,例如只能看到显卡的品牌为Gainward,拥有10752个CUDA,Boost频率达到了2617MHz,光栅单元和纹理单元为112/336,使用PCIe5.0x16传输模式。根据GB203核心已知的信息,其采用与上一代相同的TSMC 4nm定制工艺,芯片面积378mm²,比RTX 5090的750mm²小了一半。

    显存类型未能识别出,仅能看到容量16GB,以及256bit的位宽,而带宽则按照上代的GDDR6显示为480GB/s,频率也被识别为15001MHz,而实际上这块显卡配备的DDR7显存频率高达30Gbps,实际带宽也高达960GB/s。由此可见,耕升GeForce RTX 5080追风与公版的参数是一致的。

    理论性能测试

    首先进行的3DMARK FS套装:FS、FSE、FSU,这是用来衡量显卡DX11理论性能的内容,分别对应显卡在1080P、2K、4K的理论性能。实际测试结果显示,耕升GeForce RTX 5080追风相对于RTX 4080 SUPER,在三档分辨率中的提升分别为,9%、17%和20%,综合提升约为15%

    在针对DX12环境下的Time Spy和Time Spy Extreme测试中,耕升GeForce RTX 5080追风相较于RTX 4080 SUPER,TS提升14%,TSE提升14%,综合提升约为14%

    PortRoyal是3DMARK中专门针对光追性能的测试项,耕升GeForce RTX 5080追风相较RTX 4080 SUPER的提升约为20%。综合来看,耕升GeForce RTX 5080追风的理论性能相较RTX 4080 SUPER的提升约为16%

    Speed Way结合了实时光线追踪和传统渲染技术,场景含有光线追踪反射、实时全局光照、网格着色器、体积照明、粒子和后处理效果,因此该项测试基本可以看做次世代3A游戏基准。经测试,耕升GeForce RTX 5080追风相对于RTX 4080 SUPER提升了22%

    DLSS的理论测试变化较大,DLSS 2和DLSS 3采用上一代的CNN模型,而最新的多帧生成则采用了Transformer模型,并且多帧生成可调节生成帧的数量。从测试结果看,DLSS 4 2X基本可以看作是DLSS 3的帧生成,而相比上代DLSS 3,DLSS 4 4X模式下,帧数综合提升在69%左右,其中4K和8K提升高达77%左右,在8K分辨率下达到158帧,4K分辨率更是达到290帧。

    DLSS 4性能测试

    DLSS 4可以说是RTX 50系显卡的重头戏,也是备受玩家期待的新特性,首发就已经支持75款游戏或应用,尚未集成DLSS 4的游戏,可在NVIDIA APP中进行直接调节。例如显卡测试“钉子户”——《赛博朋克2077》,这款游戏在RTX 50系显卡性能解禁后就更新了DLSS 4。

    接下来的我们会进行多角度对比,来看看不同DLSS的设置,三档画质的帧数表现。为保证缩放比例固定,我们均选择在DLSS质量模式下进行。传统DLSS 2的测试中,使用CNN模型DLSS,可以看到即便是耕升GeForce RTX 5080追风在4K分辨率下,光追超级画质也仅有65帧,而在光追超速模式下为39帧,非常吃配置。

    DLSS 3的测试依然为CNN模型,增加帧生成。可以看到DLSS 3相较DLSS 2,在4K超级画质、光追超级、光追加速的提升,分别为66%、68%、81%综合提升72%,成绩非常惊人。

    DLSS 4测试模型更改为Transformer,开启多帧生成,首先测试3X下的表现。耕升GeForce RTX 5080追风在4K超级画质、光追超级、光追加速,均将帧数提升到全新高度,相较DLSS 3帧生成的提升分别为27%、35%43%,即便在光追超级画质也能达到146帧,1080p分辨率超级画质更是达到惊人的472帧。

    DLSS 4 Transformer模型4X帧生成模式,在4K超级画质、光追超级、光追加速中,相较DLSS 4的3X帧生成的提升分别为27%、26%28%,对比DLSS 3帧生成则分别提升了61%、70%84%,即便在光追加速画质也达到了128帧,4K超级画质更是达到了238帧。

    除了帧数上的提升,DLSS 4对于画质的加成也让人非常惊喜。从下面的一组实机截图,可以看到在采用Transformer模型的DLSS 4中,物体表面的纹理细节更清晰,即便是没有模型面覆盖的锈迹,DLSS 4依然能精准还原。

    在另一组截图中,墙上的裂纹在DLSS 4中有更明显的痕迹,整体画面相较于DLSS 3也更通透明亮。

    接下来是近期比较热门的FPS+MOBA类网游《漫威争锋》,不过这款游戏尚未集成DLSS 4,这里举例说明在NVIDIA APP中如何开启DLSS 4。

    打开NVIDIA APP,切换至“图形”选项卡,找到对应的游戏,在最下方“驱动程序设置”中找到DLSS模型预设,将内部选项全部调节至最新后,开启DLSS帧生成4X,然后再重启游戏即可享受帧数的暴力加成。不过游戏中的DLSS设置及名称不会发生变化,仍然可调节质量、平衡、性能等位,只不过对应的是DLSS 4X。

    我们知道,竞技类网游对于帧数要求比画面更高,这也是游戏体验甚至决定成败的关键。经测试,耕升GeForce RTX 5080追风在4K分辨率下,DLSS 2质量模式可达到110帧。

    在4K分辨率下的DLSS 3帧生成模式中,相比DLSS 2在质量模式中提升了33%,达到146帧的电竞级帧率。

    在DLSS 4 4X多帧生成,4K分辨率达到275帧,相比DLSS 3质量模式再提升88%,1080P分辨率更是达到逆天的540帧,这已经超过超高刷电竞显示器的上限了。

    至于游戏的画面对比,DLSS 4 4X的四档画质也很难看出区别,例如角色的头发、衣服,远处的建筑涂绘,基本都和原生画质分毫不差。这两款游戏的测试表明,DLSS 4确实有着质的飞跃,在帧数大幅提升的同时,画质相比DLSS 3也更好,为玩家带来超凡的游戏体验。

    常规游戏性能测试

    除了DLSS 4对于游戏的加成,我们还测试了一些一些主流的3A大作和支持DLSS 3的网络游戏,并与RTX 4080 SUPER的进行对比。先看两款网络游戏的测试,在国产武侠大作《燕云十六声》的DLSS 2测试中,耕升GeForce RTX 5080的2K与4K的成绩几乎相同。

    DLSS 3测试也基本如此,这是游戏的优化不完善导致的。但4K分辨率耕升GeForce RTX 5080追风大部分DLSS成绩均在200帧左右,性能非常强大。

    热门射击游戏《三角洲行动》DLSS 2测试,耕升GeForce RTX 5080追风4K分辨率DLSS质量模式为169帧,达到电竞级帧率,而性能模式更是接近200帧。

    DLSS 3测试,耕升GeForce RTX 5080追风在低分辨率下的帧数表现恢复了正常,二4K分辨率的成绩均在200帧左右,无论是战役还是团战,都能获得超级流畅的体验。

    接下来是3A游戏的测试。第一个自然是去年火遍全球国产虚幻5巨制《黑神话:悟空》,这款游戏自带DLSS 3帧生成。我们的两项测试也全部开启帧生成,并将游戏设置为影视级。经测试,耕升GeForce RTX 5080追风在4K分辨率下最高已经达到了129帧。

    有意思的是,《黑神话:悟空》开启全景光追后,部分分辨率帧数反而更高。其中4K分辨率下开关光追在超级性能模式中帧数差别不大,如果想获得比较高的画质,可以选择性能模式游玩,在享受高帧率的同时,又不损失画质,观赏风景十分惬意。

    《刺客信条:幻景》测试,我们关闭游戏的自适应帧率,分别测试DLSS不同挡位与原生画质下的差异。耕升GeForce RTX 5080追风在4K分辨率原生画质下即接近百帧,而在DLSS超级性能档位更是达到173帧。

    在纯光栅化游戏帧数对比中,《无主之地3》比较能概括RTX 5080与RTX 4080 SUPER的光栅化性能的综合差距。经实测,耕升GeForce RTX 5080相比RTX 4080 SUPER,1080p提升4%,2K提升10%,4K提升16%,综合提升10%。

    知名竞速游戏《极限竞速:地平线5》是常用的显卡测试游戏,其出色的优化在原生效果下即可跑出优秀的成绩。在4K分辨率下,耕升GeForce RTX 5080追风DLSS 3成绩再创新高,达到了191帧,真正是风驰电掣的感觉。

    《光明记忆:无限》这款游戏虽然较老,但对显卡的性能要求较高,而它的光追测试软件是独立于游戏的测试工具,比游戏中用到的光线追踪技术更多。本次测试条件为“RTX最高/DLSS质量”,耕升GeForce RTX 5080追风相比RTX 4080 SUPER,1080p分辨率提升12%,2K分辨率提升14%;4K提升19%,综合提升15%。

    专业软件测试

    耕升GeForce RTX 5080追风拥有16GB的显存,不仅在游戏方面的表现炸裂,而且新架构对于专业内容创作软件同样有优化,能带来更高的效率提升。下面我们分别测试了不同类别的专业软件,来看看实际效果。

    UL Procyon

    本次测试UL提供了FLUX.1 Dev绘画模型的FP4测试,该模型在FP16上运行需要超过23GB的显存,这往往需要每代的90级旗舰显卡或者专业显卡。而FP4只需要不到一半的显存即可运行,这使得更多80级和70级的显卡均能在本地运行,而且使用NVIDIA TensorRT提供的量化方法,几乎没有质量损失。

    BlackWell架构新的Tensor Core特性不仅让生成所需的显存显著减少,在生成时间也有大幅降低,实际测试平均4张图片即可节省20秒时间。

    下面是FP4渲染生成的图片。

    下面是FP8渲染生成图片,可见FP4和FP8所生成的图片效果是相同的,在细节和图片精度上均有着良好表现,但对显卡的显存容量更加友好。

    Keyshot 2024

    Keyshot是一款专注于模拟光线追踪的渲染软件,并可分别调用CPU或GPU进行渲染,下面我们看下最终的渲染时间和结果。

    使用耕升GeForce RTX 5080追风显卡渲染一张4K分辨率、采样率为1000的图片,最终用时98.91秒。

    而使用我们测试平台的AMD锐龙7 9800X3D处理器,用时长达1小时34分56秒。并且从图片细节看两种渲染方式几乎没有不同,可见GPU对于内容创作者的效率的提升是巨大的。

    V-Ray6

    V-Ray6对于GPU的测试分为RTX与CUDA,这里主要看RTX成绩,其中RTX测试得分为9420,相比RTX 4080 SUPER(7047)首测时提升31%左右。

    功耗及温度测试

    功耗和温度也是表征显卡性能的关键参数,我们选择FurMark2软件进行拷机测试,并采用AIDA64检测信息。不过FurMark尚无法检测到GPU信息,部分温度识别有误,因此以蓝色的AIDA64信息为准。经过30分钟左右的烤机测试,耕升GeForce RTX 5080追风的GPU和显存的温度均为70℃,在TDP 100%的满载情况下,整卡功耗为358.44W。

    除了满载烤机,我们还测试了游戏中显卡的真实功耗数据,在《赛博朋克2077》benchmark设置4K分辨率的光追加速画质,并开启DLSS 4 4X多帧生成,将显卡性能拉满。经测试,耕升GeForce RTX 5080追风的平均功耗为277.2W,相比FurMark烤机低了81W左右。

    在功耗检测的同时,我们也调出了延迟数据,在DLSS 4 4X多帧生成的环境下,游戏平均延迟为47.4ms,这意味着即便有多张AI生成帧参与到游戏中,延迟依然很低。

    NVIDIA Broadcast简介

    NVIDIA Broadcast是一款用于直播或会议的AI软件,目前随着RTX 50系的发布,也进行了版本更新,界面更小巧,纵向布局也更方便视频直播中调节选项。

    NVIDIA Broadcast一些经典效果更方便开启,其中目光接触功能非常适合远程会议,即便眼睛盯着屏幕,也能让参与人员时刻注意到你的眼睛,并且还有一定“大眼”效果。

    虚拟补光仍是测试版功能,它可以在光线较暗的情况下进行面部的AI补光,看你看起来仍然处于光线较好的环境中。

    新版的NVIDIA Broadcast还增加了GPU利用率的显示,当软件中功能全部打开时,对于GPU的占用率还是非常高的,比较适合会议等不需要过多GPU参与的场景。而如果是游戏直播,则可适当关闭AI效果,以降低GPU利用率。不过目前新版NVIDIA Broadcast仍处于测试阶段,实际效果与GPU开销应以正式版为准。

    NVIDIA APP简介

    新版的NVIDIA APP代替了原来的GFE软件,并且功能更强大,使用起来也更方便。最主要的是,它不用登陆了,即下即用。在APP首页除了显示最新的驱动信息,还新增了NVIDIA周边软件的下载,比如AI绘画Canvas;图像视频对比工具ICAT;性能测试工具FrameView等等,不用再去NVIDIA官网寻找。

    从APP中强制开启DLSS 4的功能在《漫威争锋》游戏中已有介绍,虽然给游戏带来的加成是狂暴级别,但目前并不是所有游戏和软件均支持此功能。

    系统界面中则更多的是调试类功能,如显示器、视频、超频等。

    其中性能界面提供了较为详细的监控和超频选项,需要注意的是新手如果想尝试超频,尽量不要改变电压,这个选项轻则掉驱动,重则烧毁显卡。

    NVIDIA信息浮窗是游戏中很好的辅助工具,要开启此功能,需要在APP主界面的设置一栏中,开启按钮,之后按ALT+Z即可呼出边栏。

    按ALT+R可呼出统计数据的浮窗,功能设置和自由度的调节也非常丰富,最主要的是相当简便。

    DLSS 4真YYDS!

    RTX 50系显卡正式迈向了AI计算的时代,而AI的硬件算力又是相辅相成的关系,在RTX 30系和40系的年代,AI的发展可以是说是靠硬件算力来推动,而50系显卡全新的Blackwell架构,无论是对于游戏还是现代的AI创作,在实现如虎添翼效果的同时,也让算力有了更低的开销,换句话说就是让算力变得更加高效。

    纵观整个RTX 50系显卡体系,AI无论在架构层面、游戏领域,还是内容创作,比重都大幅增加,除了令人惊叹的DLSS 4 AI多帧生成,还有内容创作的神经网络渲染,以及直播会议应用NVIDIA Broadcast,真正融入到我们的生活和工作中,而不是局限于文生图和语言问答,一个崭新的AI时代正式拉开序幕。

    而对于玩家来说,最关心的自然就是DLSS 4的多帧生成,尤其是这块耕升GeForce RTX 5080追风显卡,实际游戏测试可以说是强到“逆天”。究其原因,除了架构本身的变动,另一个重要的原因就是从CNN替换到Transformer模型,让AI从中发挥更多作用,进一步增强生成帧的稳定性和质量,同时也让4K 200帧的游戏体验触手可及。

    “兵马未动粮草先行”。虽然支持DLSS 4的游戏还不是很多,不过随着RTX 50系显卡的上市和普及,以及DLSS 4强大的体验,相信会有大量的优秀作品跟进。本次评测的耕升GeForce RTX 5080追风版显卡现已发售,想体验DLSS 4的魅力,或者组建一套梦幻平台,可以关注和跟进一波了。

    耕升GeForce RTX 5080追风显卡首测 4K百帧轻松拿捏

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真YYDS!

    耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友

    耕升GeForce RTX 5080追风显卡首测 万元内DLSS 4实力担当

    大年初一两大喜,除了开年红包,NVIDIA的RTX 50系显卡次旗舰——RTX 5080的评测也终于和大家见面了。我们知道,NVIDIA每一代80级显卡,凭借着超越上代旗舰的性能,不仅是高端游戏玩家的首选,也是专业图形和AI创作的强悍生产力,例如今天给大家带来的这款耕升GeForce RTX 5080追风版,更是万元内的实力+性价比担当。

    1月7日,在NVIDIA官宣推出GeForce RTX 50系列GPU的同时,耕升也同步推出了全新的GeForce RTX 50炫光、踏雪、追风等系列产品,囊括了GeForce RTX 5090 D、RTX 5080、RTX 5070 Ti 和 RTX 5070 等多款型号,满足不同需求的用户选购。其中追风是耕升主打性价比的系列,尤其是这款RTX 5080追风版高端显卡,更是有着非凡的意义。

    NVIDIA BlackWell架构解析

    为了让大家对GeForce RTX 5080有更深入的了解,评测前我们先对其架构和进行分析。GeForce RTX 50系显卡由全新的NVIDIA BlackWell架构打造,已公布的是GB202、GB203、GB205三款。

    完整的GB202核心包括12个图形处理集群(GPCs);96个纹理处理集群(TPCs);192个多单元流处理器(SMs),和一个512bit总位宽,包含16个32bit内存控制器的内存接口。对应到我们熟悉的数字,则是24576个CUDA,192个RT Cores;768个Tensor Cores以及768个纹理单元。由于第5代Tensor Cores采用了更高速的FP4运算,完整的GB202可达到恐怖的4000 AI TOPS;而第4代RT Cores采用的新的几何运算模型,也让它可以达到360 RT TFLOPS。

    GeForce RTX 5080采用GB203核心,配备10752个CUDA,84个RT Cores;336个Tensor Cores和336个纹理单元。每个SM单元中还包含两个FP64内核,总共384个。FP64内核主要目的是确保带有FP64代码的程序可正常运行,并确保其准确性,这对于医学或专业计算等专业领域是至关重要的。

    GPC是GPU中占据主导地位的高级模块,所有关键的图形处理单元都位于GPC中。在RTX 50系中,GPC整体的布局变化不大。每个GPC包含一个专用的光栅引擎,两个ROP分区。每个分区包含8个单独的ROP单元和8个TPC,每个TPC包含1个变形引擎和两个SM单元。

    完整的GB202核心还包含128MB的L2缓存。大缓存的变更自RTX 40系显卡便已开始,所有程序都可以受益于这个高速大容量的缓存池,而光线跟踪(特别是路径跟踪)等复杂操作将产生巨大的好处。

    SM单元是GPU架构中的核心组件,在GPU并行处理中发挥着关键作用,它通过其各种核心(CUDA,Tensor,RT),高效的warp调度,内存管理以及对AI等现代工作负载的支持实现大规模并行。本代RTX 50系显卡中SM单元的变化非常大,下面我们详细来了解一下。

    完整的GB202核心包含192个SM单元,每个SM包含128个CUDA核心;1个第4代RT Core;4个第5代Tensor Core;4个纹理单元。1个256KB的寄存器文件和128KB的L1共享缓存,它可以根据图形和计算工作负载的需要配置不同的大小。

    在BlackWell架构的SM单元中,INT32整数运算的数量增加了一倍。与Ada架构的SM单元相比,实现了INT32与FP32内核的完全统一。不过在时钟周期内,统一内核只能作为FP32或INT32内核运行。

    与BlackWell架构一同推出的还有GDDR7显存,采用pam3信号技术,它有着更高频率与更低电压的特点。其中RTX 5090配备28Gbps GDDR7显存,峰值显存带宽可达1792GB/s/秒,而RTX 5080配备更高的30Gbps GDDR7显存,峰值内存带宽可达960 GB/秒。结合新的引脚编码方案,GDDR7实现了显著增强的信噪比(SNR)。

    通过增加信道密度、改进的pam3信噪比、先进的均衡方案、重新设计的时钟架构和增强的I/O训练,GDDR7提供了更高的带宽。这些进步还显著提高了能源效率,提供了更好的性能和延长电池寿命,特别是在移动端,或功率受限的系统中。

    BlackWell 第4代RT Core

    在第4代RT Core中,简单来说它相比Ada架构,在渲染光线追踪场景时,提供了两倍光线三角形相交测试吞吐量,并引入了Mega Geometry的结构算法。

    Opacity Micromap Engine

    不透明微引擎在Ada架构中已经引入,它主要的作用是优化光线追踪渲染,可大幅减轻着色器的工作负担。比如树叶之类的复杂物体,不同的光线都会影响它的表现状态,以及树叶之间的光线反弹,所以对于光线追踪的计算量是巨大的。

    不过Opacity Micromap Engine可以将光线追踪特性烘焙到不透明蒙版中,所以那些不规则形状和半透明的对象,也就能够更快更精准的渲染出来,从而极大减轻着色器的工作负担。

    Mega Geometry

    除了上面提到的Opacity Micromap Engine,在BlackWell架构中,还引入了Mega Geometry(大型几何)的运算概念。其中包含了Triangle ClusterIntersection Engine、Linear Swept Spheres等新硬件。

    新的BlackWell RT核心包含一个Triangle ClusterIntersection Engine三角形群集交集引擎,它能够进一步加速大型几何的光线追踪,同时它的工作还包含标准的光线三角形交集测试。Linear Swept Spheres则主要用于光线追踪中精细的几何形状,比如发丝。

    Mega Geometry的理念与虚幻5引擎的Nanite虚拟微多边形几何体系统相同,在现代游戏中,模型更加细致,需要渲染的工作量大幅增加,如果全部按照最精细的级别处理,将会耗费极大的计算资源,所以将LOD分级便应运而生。

    简单来说,就是根据一个物体距离摄像机的远近,来调节物体的细节水平。此前《黑神话:悟空》便应用了这样的技术,它消除了LOD的繁琐任务,可以扫描并导入极高精细程度的模型。并且,这不会影响性能。仍然可以获得实时帧速率。

    在Mega Geometry中提供了新的BVH构建功能,它采用三角形集群作为一级基元。新的集群加速结构Cluster-level Acceleration Structures(CLAS)可以从256个三角形空间紧凑批次中生成,然后使用CLAS集合作为输入来构建最终的BVH。

    不过虚幻5引擎并非专为BlackWell而设计,Mega Geometry的工作只是更高效的让游戏引擎调用API。由于其输入参数完全由GPU内存驱动,游戏引擎可以在GPU上更高效的运行LOD选择、动画、剔除等逻辑。同时最大限度减少对CPU的往返,进而减少与BVH管理相关的CPU开销。

    然而在更加精细化的游戏引擎中,按照传统的流程,应用程序必须从场景中的每一帧的所有对象中构建一个顶层加速结构。而随着更大的世界规模以及繁杂的场景物体,仅靠LOD分级仍然难以实现质的变化。

    为了解决这个问题,Mega Geometry引入了一种新型的顶层加速结构(TLAS),称为分区顶层加速结构(PTLAS)。

    它无需在每一帧都从头开始构建一个新的TLAS,PTLAS能够辨别从一帧到另一帧,哪些对象是静态的。应用程序通过将对象聚合到分区中,并仅更新那些已更改的对象来节省开销。例如游戏可以将静态游戏世界的各个部分放入所属的分区中,同时将动态对象分离到每帧重建的“全局分区”中。与传统的TLAS相比,请求的分区更新越少,节省的运行时开销就越大。

    另外好消息是,Mega Geometry可通过底层API进行扩展支持,适用于所有支持光线追踪的NVIDIA GPU,也就是从图灵架构(Turing)开始。不过BlackWell的第4代RT Core是专门为Mega Geometry而设计的,硬件中的特殊集群引擎实现了几何和BVH数据的新压缩方案,同时是第3代RT Core光线三角形相交率的2倍。因此BlackWell架构可以实现用更小的显存,更高效的处理这些内容。

    Linear Swept Spheres (LSS)

    LSS(线性扫描球体)是BlackWell架构中新增的图形语言,它极大地简化了复杂头发和毛发的渲染开销,并能提升质量。

    此前渲染头发仍然需要最基础的三角形来表达物体,如图所示,发丝中的一个线段需要6个三角形,而一根头发便需要无数个三角形来确保其精度。比如我们的头发则需要600万个三角形来表达。

    Blackwell架构的RT Core引入了LSS新语言的支持,它类似于镶嵌曲线,允许灵活地近似各种链型。并且球体也更适合发行构建。LSS的引入可以让发型构建,减少3倍的数据量,速度大约快了2倍,并可以使用更少的显存,获得更高的帧数。

    BlackWell 第5代Tensor Core

    本代架构除了RT Core进行了改进升级,专门负责AI及高性能计算的Tensor Core也迎来了重大升级。与NVIDIA Ada Tensor Cores一样,Blackwell架构的Tensor Cores支持FP16、BF16、TF32、INT8、INT4和Hopper的FP8 Transformer Engine。

    Blackwell还增加了对FP4和FP6 Tensor Core操作的新支持,以及新的第二代FP8 Transformer Engine。

    FP4精度支持

    FP4提供了一种较低的量化方法,类似于文件压缩,可以减小模型大小,提升生成速度。与FP16精度(大多数型号发布的默认方法)相比,FP4只需要不到一半的显存。FP4使用NVIDIA TensorRTModelOptimizer提供的量化方法,几乎没有质量损失。

    例如,目前最强的AI绘画模型FLUX.dev ,在FP16上需要超过23GB的显存,而这意味着它只能由每一代的旗舰产品RTX 4090,RTX 5090和专业GPU来支持。而对于FP4,FLUX.dev测试对显存的需求将少于10GB,让更多80级和70级的显卡均能在本地运行。

    在性能和效果对比上,使用带有FP16的RTX 4090,FLUX.dev模型可以通过30个步骤在15秒内生成图像。使用带有FP4的RTX 5090,只需5秒多一点就可以生成图像。

    DLSS 4

    DLSS 4是本代RTX 50系显卡带来的重大更新,对于玩家来说它也是最能实际感受到的。最新版本DLSS 4带来了新的多帧生成(MFG),具有更快的性能和更低的显存使用等特性。支持最新Transformer引擎包含超分辨率(SR),光线重建(RR)和深度学习抗锯齿(DLAA)模型,可进一步增强图像质量和稳定性。

    这些新技术由RTX 50系GPU和第5代Tensor Cores支持,并由云端的NVIDIA Al超级计算机提供支持。多帧生成功能对于手持RTX 40系或更早期显卡的玩家还无缘体会。DLSS 4新增的多帧生成,目前仅支持RTX 50系显卡。

    Multi Frame Generation(多帧生成)

    DLSS多帧生成能够通过每个传统渲染帧,生成多达三帧的额外帧来提高FPS。新的帧生成AI模型相比之前的帧生成方法快40%,使用的显存减少30%,并且每个渲染帧只需要运行一次就可以生成多个帧。高效的AI模型代替了上一代的硬件光流模型,从而加快了光流场的生成速度,并显著降低了生成额外帧的计算成本。

    从生成帧的层面来说,上一代DLSS 3帧生成基于CPU的帧节奏,而这种方式可能会让生成的帧与额外的帧混合在一起,导致每帧之间的帧节奏不太一致,影响平滑性。为了解决生成多帧的复杂性,Blackwell架构将帧节奏逻辑转移到显示引擎,使GPU能够更精确地管理显示时序,从而避免与额外帧混合的情况,进而提升帧生成的准确性及稳定性。

    而第5代Tensor Cores拥有更高的计算能力,这使得它们能够更快地执行计算光流和生成多帧的一系列AI模型。并更好地调度DLSS AI处理、图形渲染和帧速度算法。

    Transformer模型

    此前DLSS所用的模型为Convolutional Neural Network,即我们熟悉的卷积神经网络(CNN),CNN的工作原理是将像素局部聚集在一起,并以树的形式从低到高地进行分析数据。这种结构的计算效率很高,这也是为什么它被称为卷积神经网络。

    而DLSS 4引入了基于Transformer的AI模型,用于DLSS超分辨率、DLSS光线重建和深度学习抗锯齿(DLAA),从而提高图像质量和渲染平滑度。基于Transformer模型体系结构的神经网络,擅长处理涉及顺序和结构化数据的任务。简单来说,就是Transformer能够抓住“重点”,可以更好地理解和渲染复杂场景。

    与CNN模型相比,Transformer更容易在更大的像素窗口中识别更远距离的模式,具有一定的学习能力和“前瞻性”。本代DLSS 4将基于CNN的神经网络结构,转变为基于Transformer的神经网络结构,在许多场景下图像质量都有着显著提升。

    Shader Execution Reordering (SER) 2.0

    Shader Execution Reordering(着色器重排序)是在RTX 40系架构中引入的一项技术,它可以使带有光追的程序有效地重组GPU上的大量并行线程,以最大限度地利用硬件。

    因为连贯执行神经工作负载的线程可以直接发送到Tensor Core,所以SER也显著加速了神经着色。在Blackwell架构中,SER的核心重排序逻辑效率是原来的两倍,减少了重排序开销并提高了精度。从而进一步提高了该功能的有效性。这项功能更多地是为应用程序开发者而设计,它仅需一个小的API改动,即可执行重排序操作,进而提升总体项目的负载性能。

    耕升GeForce RTX 5080追风显卡概览

    耕升GeForce RTX 5080追风显卡的包装有着追风系列一贯的元素,下部是非常醒目的GeForce RTX 5080,以及16GB GDDR7字样,给人一种强烈的开箱冲动。

    耕升GeForce RTX 5080追风显卡整体尺寸为315x139x50mm,2.2槽厚度,外观延续追风家族设计语言,整体线条硬朗无比,散热器整流罩采用经典的红黑配色和磨砂触感设计,内敛不失格调而且质感优秀,三只风扇中间均有“追风”图腾装饰。

    显卡采用耕升第四代“风盾X3”散热器,散热效能再升级,2根6mm+5根8mm复合式镀镍热管,贯穿大面积高效能VC均热板和高密度散热鳍片,结合回流焊接工艺,带来更强的散热性能。搭配三只耕升第三代“炫风之刃”风扇,升级环形扇叶,风量风压更强大。

    背部配备高强度防护背板,为显卡提供额外防护和支撑的同时,还兼具散热效果。背板同样是纯黑哑光风格,点缀独特的纹饰和GAInWARD品牌Logo以及GEFORCE RTX字样,侧面的大面积镂空窗口,便于显卡内部热空气快速排出,进一步提升散热效率。

    顶部是散热模组的出风口,整流罩上有GAInWARD的LOGO灯,支持各大品牌主板的ARGB调控和神光同步,旁边是红色的耕升品牌标识,背板的弯折部分有GEFORCE RTX字样。值得一提的是,显卡内部还搭载了一体式中框,让结构更加稳定,有效防止显卡变形

    供电部分采用单个16pin的12V-2X6新协议接口,可实现更加稳固可靠的连接。供电接口旁边是ARGB灯与主板的同步接口,还能看见黑色的超厚实中框。显卡采用12层强悍的PCB,搭配12+4+3相供电,高规格用料和豪华供电配置,带来非常稳定的电气性能。

    接口部分,配备了3个DP2.1b和1个HDMI2.1b,其中DP 2.1b接口为UHBR20规格,可达 80Gbps 带宽,最高支持8K(7680x4320)165Hz或者4K(3840x2160)480Hz画面输出,但需要DP80LL认证的线材,耕升品牌图腾的镂空网格挡板更便于散热。

    测试平台和显卡信息简介

    为了保障耕升GeForce RTX 5080追风显卡的性能发挥,我们的测试平台进行了全面更新,包括新一代游戏神U锐龙R7 9800X3D、X870E主板、64GB DDR5内存、PCIe5.0固态硬盘、1300W数字电源以及4K 240Hz高刷显示器。

    由于GPU-Z的2.61版本还有部分参数无法识别,因此可显示的内容相对较少,例如只能看到显卡的品牌为Gainward,拥有10752个CUDA,Boost频率达到了2617MHz,光栅单元和纹理单元为112/336,使用PCIe5.0x16传输模式。根据GB203核心已知的信息,其采用与上一代相同的TSMC 4nm定制工艺,芯片面积378mm²,比RTX 5090的750mm²小了一半。

    显存类型未能识别出,仅能看到容量16GB,以及256bit的位宽,而带宽则按照上代的GDDR6显示为480GB/s,频率也被识别为15001MHz,而实际上这块显卡配备的DDR7显存频率高达30Gbps,实际带宽也高达960GB/s。由此可见,耕升GeForce RTX 5080追风与公版的参数是一致的。

    理论性能测试

    首先进行的3DMARK FS套装:FS、FSE、FSU,这是用来衡量显卡DX11理论性能的内容,分别对应显卡在1080P、2K、4K的理论性能。实际测试结果显示,耕升GeForce RTX 5080追风相对于RTX 4080 SUPER,在三档分辨率中的提升分别为,9%、17%和20%,综合提升约为15%

    在针对DX12环境下的Time Spy和Time Spy Extreme测试中,耕升GeForce RTX 5080追风相较于RTX 4080 SUPER,TS提升14%,TSE提升14%,综合提升约为14%

    PortRoyal是3DMARK中专门针对光追性能的测试项,耕升GeForce RTX 5080追风相较RTX 4080 SUPER的提升约为20%。综合来看,耕升GeForce RTX 5080追风的理论性能相较RTX 4080 SUPER的提升约为16%

    Speed Way结合了实时光线追踪和传统渲染技术,场景含有光线追踪反射、实时全局光照、网格着色器、体积照明、粒子和后处理效果,因此该项测试基本可以看做次世代3A游戏基准。经测试,耕升GeForce RTX 5080追风相对于RTX 4080 SUPER提升了22%

    DLSS的理论测试变化较大,DLSS 2和DLSS 3采用上一代的CNN模型,而最新的多帧生成则采用了Transformer模型,并且多帧生成可调节生成帧的数量。从测试结果看,DLSS 4 2X基本可以看作是DLSS 3的帧生成,而相比上代DLSS 3,DLSS 4 4X模式下,帧数综合提升在69%左右,其中4K和8K提升高达77%左右,在8K分辨率下达到158帧,4K分辨率更是达到290帧。

    DLSS 4性能测试

    DLSS 4可以说是RTX 50系显卡的重头戏,也是备受玩家期待的新特性,首发就已经支持75款游戏或应用,尚未集成DLSS 4的游戏,可在NVIDIA APP中进行直接调节。例如显卡测试“钉子户”——《赛博朋克2077》,这款游戏在RTX 50系显卡性能解禁后就更新了DLSS 4。

    接下来的我们会进行多角度对比,来看看不同DLSS的设置,三档画质的帧数表现。为保证缩放比例固定,我们均选择在DLSS质量模式下进行。传统DLSS 2的测试中,使用CNN模型DLSS,可以看到即便是耕升GeForce RTX 5080追风在4K分辨率下,光追超级画质也仅有65帧,而在光追超速模式下为39帧,非常吃配置。

    DLSS 3的测试依然为CNN模型,增加帧生成。可以看到DLSS 3相较DLSS 2,在4K超级画质、光追超级、光追加速的提升,分别为66%、68%、81%综合提升72%,成绩非常惊人。

    DLSS 4测试模型更改为Transformer,开启多帧生成,首先测试3X下的表现。耕升GeForce RTX 5080追风在4K超级画质、光追超级、光追加速,均将帧数提升到全新高度,相较DLSS 3帧生成的提升分别为27%、35%43%,即便在光追超级画质也能达到146帧,1080p分辨率超级画质更是达到惊人的472帧。

    DLSS 4 Transformer模型4X帧生成模式,在4K超级画质、光追超级、光追加速中,相较DLSS 4的3X帧生成的提升分别为27%、26%28%,对比DLSS 3帧生成则分别提升了61%、70%84%,即便在光追加速画质也达到了128帧,4K超级画质更是达到了238帧。

    除了帧数上的提升,DLSS 4对于画质的加成也让人非常惊喜。从下面的一组实机截图,可以看到在采用Transformer模型的DLSS 4中,物体表面的纹理细节更清晰,即便是没有模型面覆盖的锈迹,DLSS 4依然能精准还原。

    在另一组截图中,墙上的裂纹在DLSS 4中有更明显的痕迹,整体画面相较于DLSS 3也更通透明亮。

    接下来是近期比较热门的FPS+MOBA类网游《漫威争锋》,不过这款游戏尚未集成DLSS 4,这里举例说明在NVIDIA APP中如何开启DLSS 4。

    打开NVIDIA APP,切换至“图形”选项卡,找到对应的游戏,在最下方“驱动程序设置”中找到DLSS模型预设,将内部选项全部调节至最新后,开启DLSS帧生成4X,然后再重启游戏即可享受帧数的暴力加成。不过游戏中的DLSS设置及名称不会发生变化,仍然可调节质量、平衡、性能等位,只不过对应的是DLSS 4X。

    我们知道,竞技类网游对于帧数要求比画面更高,这也是游戏体验甚至决定成败的关键。经测试,耕升GeForce RTX 5080追风在4K分辨率下,DLSS 2质量模式可达到110帧。

    在4K分辨率下的DLSS 3帧生成模式中,相比DLSS 2在质量模式中提升了33%,达到146帧的电竞级帧率。

    在DLSS 4 4X多帧生成,4K分辨率达到275帧,相比DLSS 3质量模式再提升88%,1080P分辨率更是达到逆天的540帧,这已经超过超高刷电竞显示器的上限了。

    至于游戏的画面对比,DLSS 4 4X的四档画质也很难看出区别,例如角色的头发、衣服,远处的建筑涂绘,基本都和原生画质分毫不差。这两款游戏的测试表明,DLSS 4确实有着质的飞跃,在帧数大幅提升的同时,画质相比DLSS 3也更好,为玩家带来超凡的游戏体验。

    常规游戏性能测试

    除了DLSS 4对于游戏的加成,我们还测试了一些一些主流的3A大作和支持DLSS 3的网络游戏,并与RTX 4080 SUPER的进行对比。先看两款网络游戏的测试,在国产武侠大作《燕云十六声》的DLSS 2测试中,耕升GeForce RTX 5080的2K与4K的成绩几乎相同。

    DLSS 3测试也基本如此,这是游戏的优化不完善导致的。但4K分辨率耕升GeForce RTX 5080追风大部分DLSS成绩均在200帧左右,性能非常强大。

    热门射击游戏《三角洲行动》DLSS 2测试,耕升GeForce RTX 5080追风4K分辨率DLSS质量模式为169帧,达到电竞级帧率,而性能模式更是接近200帧。

    DLSS 3测试,耕升GeForce RTX 5080追风在低分辨率下的帧数表现恢复了正常,二4K分辨率的成绩均在200帧左右,无论是战役还是团战,都能获得超级流畅的体验。

    接下来是3A游戏的测试。第一个自然是去年火遍全球国产虚幻5巨制《黑神话:悟空》,这款游戏自带DLSS 3帧生成。我们的两项测试也全部开启帧生成,并将游戏设置为影视级。经测试,耕升GeForce RTX 5080追风在4K分辨率下最高已经达到了129帧。

    有意思的是,《黑神话:悟空》开启全景光追后,部分分辨率帧数反而更高。其中4K分辨率下开关光追在超级性能模式中帧数差别不大,如果想获得比较高的画质,可以选择性能模式游玩,在享受高帧率的同时,又不损失画质,观赏风景十分惬意。

    《刺客信条:幻景》测试,我们关闭游戏的自适应帧率,分别测试DLSS不同挡位与原生画质下的差异。耕升GeForce RTX 5080追风在4K分辨率原生画质下即接近百帧,而在DLSS超级性能档位更是达到173帧。

    在纯光栅化游戏帧数对比中,《无主之地3》比较能概括RTX 5080与RTX 4080 SUPER的光栅化性能的综合差距。经实测,耕升GeForce RTX 5080相比RTX 4080 SUPER,1080p提升4%,2K提升10%,4K提升16%,综合提升10%。

    知名竞速游戏《极限竞速:地平线5》是常用的显卡测试游戏,其出色的优化在原生效果下即可跑出优秀的成绩。在4K分辨率下,耕升GeForce RTX 5080追风DLSS 3成绩再创新高,达到了191帧,真正是风驰电掣的感觉。

    《光明记忆:无限》这款游戏虽然较老,但对显卡的性能要求较高,而它的光追测试软件是独立于游戏的测试工具,比游戏中用到的光线追踪技术更多。本次测试条件为“RTX最高/DLSS质量”,耕升GeForce RTX 5080追风相比RTX 4080 SUPER,1080p分辨率提升12%,2K分辨率提升14%;4K提升19%,综合提升15%。

    专业软件测试

    耕升GeForce RTX 5080追风拥有16GB的显存,不仅在游戏方面的表现炸裂,而且新架构对于专业内容创作软件同样有优化,能带来更高的效率提升。下面我们分别测试了不同类别的专业软件,来看看实际效果。

    UL Procyon

    本次测试UL提供了FLUX.1 Dev绘画模型的FP4测试,该模型在FP16上运行需要超过23GB的显存,这往往需要每代的90级旗舰显卡或者专业显卡。而FP4只需要不到一半的显存即可运行,这使得更多80级和70级的显卡均能在本地运行,而且使用NVIDIA TensorRT提供的量化方法,几乎没有质量损失。

    BlackWell架构新的Tensor Core特性不仅让生成所需的显存显著减少,在生成时间也有大幅降低,实际测试平均4张图片即可节省20秒时间。

    下面是FP4渲染生成的图片。

    下面是FP8渲染生成图片,可见FP4和FP8所生成的图片效果是相同的,在细节和图片精度上均有着良好表现,但对显卡的显存容量更加友好。

    Keyshot 2024

    Keyshot是一款专注于模拟光线追踪的渲染软件,并可分别调用CPU或GPU进行渲染,下面我们看下最终的渲染时间和结果。

    使用耕升GeForce RTX 5080追风显卡渲染一张4K分辨率、采样率为1000的图片,最终用时98.91秒。

    而使用我们测试平台的AMD锐龙7 9800X3D处理器,用时长达1小时34分56秒。并且从图片细节看两种渲染方式几乎没有不同,可见GPU对于内容创作者的效率的提升是巨大的。

    V-Ray6

    V-Ray6对于GPU的测试分为RTX与CUDA,这里主要看RTX成绩,其中RTX测试得分为9420,相比RTX 4080 SUPER(7047)首测时提升31%左右。

    功耗及温度测试

    功耗和温度也是表征显卡性能的关键参数,我们选择FurMark2软件进行拷机测试,并采用AIDA64检测信息。不过FurMark尚无法检测到GPU信息,部分温度识别有误,因此以蓝色的AIDA64信息为准。经过30分钟左右的烤机测试,耕升GeForce RTX 5080追风的GPU和显存的温度均为70℃,在TDP 100%的满载情况下,整卡功耗为358.44W。

    除了满载烤机,我们还测试了游戏中显卡的真实功耗数据,在《赛博朋克2077》benchmark设置4K分辨率的光追加速画质,并开启DLSS 4 4X多帧生成,将显卡性能拉满。经测试,耕升GeForce RTX 5080追风的平均功耗为277.2W,相比FurMark烤机低了81W左右。

    在功耗检测的同时,我们也调出了延迟数据,在DLSS 4 4X多帧生成的环境下,游戏平均延迟为47.4ms,这意味着即便有多张AI生成帧参与到游戏中,延迟依然很低。

    NVIDIA Broadcast简介

    NVIDIA Broadcast是一款用于直播或会议的AI软件,目前随着RTX 50系的发布,也进行了版本更新,界面更小巧,纵向布局也更方便视频直播中调节选项。

    NVIDIA Broadcast一些经典效果更方便开启,其中目光接触功能非常适合远程会议,即便眼睛盯着屏幕,也能让参与人员时刻注意到你的眼睛,并且还有一定“大眼”效果。

    虚拟补光仍是测试版功能,它可以在光线较暗的情况下进行面部的AI补光,看你看起来仍然处于光线较好的环境中。

    新版的NVIDIA Broadcast还增加了GPU利用率的显示,当软件中功能全部打开时,对于GPU的占用率还是非常高的,比较适合会议等不需要过多GPU参与的场景。而如果是游戏直播,则可适当关闭AI效果,以降低GPU利用率。不过目前新版NVIDIA Broadcast仍处于测试阶段,实际效果与GPU开销应以正式版为准。

    NVIDIA APP简介

    新版的NVIDIA APP代替了原来的GFE软件,并且功能更强大,使用起来也更方便。最主要的是,它不用登陆了,即下即用。在APP首页除了显示最新的驱动信息,还新增了NVIDIA周边软件的下载,比如AI绘画Canvas;图像视频对比工具ICAT;性能测试工具FrameView等等,不用再去NVIDIA官网寻找。

    从APP中强制开启DLSS 4的功能在《漫威争锋》游戏中已有介绍,虽然给游戏带来的加成是狂暴级别,但目前并不是所有游戏和软件均支持此功能。

    系统界面中则更多的是调试类功能,如显示器、视频、超频等。

    其中性能界面提供了较为详细的监控和超频选项,需要注意的是新手如果想尝试超频,尽量不要改变电压,这个选项轻则掉驱动,重则烧毁显卡。

    NVIDIA信息浮窗是游戏中很好的辅助工具,要开启此功能,需要在APP主界面的设置一栏中,开启按钮,之后按ALT+Z即可呼出边栏。

    按ALT+R可呼出统计数据的浮窗,功能设置和自由度的调节也非常丰富,最主要的是相当简便。

    DLSS 4真YYDS!

    RTX 50系显卡正式迈向了AI计算的时代,而AI的硬件算力又是相辅相成的关系,在RTX 30系和40系的年代,AI的发展可以是说是靠硬件算力来推动,而50系显卡全新的Blackwell架构,无论是对于游戏还是现代的AI创作,在实现如虎添翼效果的同时,也让算力有了更低的开销,换句话说就是让算力变得更加高效。

    纵观整个RTX 50系显卡体系,AI无论在架构层面、游戏领域,还是内容创作,比重都大幅增加,除了令人惊叹的DLSS 4 AI多帧生成,还有内容创作的神经网络渲染,以及直播会议应用NVIDIA Broadcast,真正融入到我们的生活和工作中,而不是局限于文生图和语言问答,一个崭新的AI时代正式拉开序幕。

    而对于玩家来说,最关心的自然就是DLSS 4的多帧生成,尤其是这块耕升GeForce RTX 5080追风显卡,实际游戏测试可以说是强到“逆天”。究其原因,除了架构本身的变动,另一个重要的原因就是从CNN替换到Transformer模型,让AI从中发挥更多作用,进一步增强生成帧的稳定性和质量,同时也让4K 200帧的游戏体验触手可及。

    “兵马未动粮草先行”。虽然支持DLSS 4的游戏还不是很多,不过随着RTX 50系显卡的上市和普及,以及DLSS 4强大的体验,相信会有大量的优秀作品跟进。本次评测的耕升GeForce RTX 5080追风版显卡现已发售,想体验DLSS 4的魅力,或者组建一套梦幻平台,可以关注和跟进一波了。

    本文属于原创文章,如若转载,请注明来源:耕升GeForce RTX 5080追风显卡首测 DLSS 4真强到没朋友https://diy.zol.com.cn/944/9440467.html

    diy.zol.com.cn true https://diy.zol.com.cn/944/9440467.html report 87644 大年初一两大喜,除了开年红包,NVIDIA的RTX 50系显卡次旗舰——RTX 5080的评测也终于和大家见面了。我们知道,NVIDIA每一代80级显卡,凭借着超越上代旗舰的性能,不仅是高端游戏玩家的首选,也是专业图形和AI创作的强悍生产力,例如今天给大家带来的这款耕升GeForce RT...
    • 猜你喜欢
    • 最新
    • 精选
    • 相关
    推荐经销商
    投诉欺诈商家: 010-83417888-9185
    • 北京
    • 上海
    • DIY组装电脑
    • 新品上市
    推荐问答
    提问
    0

    下载ZOL APP
    秒看最新热品

    内容纠错