- 第1页:突破性能的颠峰!NVIDIA G80全球首发评测
- 第2页:Geforce8800 GPU技术分析
- 第3页:2.传统Pipeline模型 VS Unified Shader模型
- 第4页:3.为什么需要Unified shader架构?
- 第5页:4.G80里面的核心部件-Streaming Processors
- 第6页:5.Geometry shader
- 第7页:6.Steam Processing架构的运作
- 第8页:7.Texture和math-相互没有关联的多线程操作
- 第9页:8.Early-Z技术
- 第10页: 9.G80的填充率计算
- 第11页:10.G80的ROP(Raster Operation partitions)
- 第12页:11.Vista、XHD和PureVideo HD
- 第13页:Geforce8800系列显卡赏析
- 第14页:2.为何G80沿用成熟的90nm工艺?
- 第15页:3.认识Geforce8800GTX的块头-富彩8800GTX
- 第16页:4.Geforce8800系列的散热器
- 第17页:5.8800GTX拆解
- 第18页:6.8800GTS拆解
- 第19页:7.高端显卡大集合
- 第20页:8.XFX讯景8800GTX和8800GTS
- 第21页:9.SPARKLE旌宇8800GTS
- 第22页:10.翔升8800GTX和8800GTS
- 第23页:11.盈通Geforce8800GTX和8800GTS
- 第24页:测试平台和测试方案
- 第25页:测试成绩和结果
- 第26页:2.3Dmark06测试
- 第27页:Serious Sam 2、Quake 4和Need For Speed:Carbon
- 第28页:The Elder Scrolls IV:Oblivion和Tom Clancys Splinter Cell Chaos Theory
- 第29页:Farcry、Half life和Doom3-三大经典FPS游戏
- 第30页:总结
2006年11月8日,全球图形巨头NVIDIA发布首款支持DirectX10的显卡Geofrce8800系列, 也就是我们通常说的G80。
2005年6月22日,NVIDIA发布了令人瞩目的新一代旗舰产品G70(GeForce 7800GTX),揭开了高端显卡大战的序幕。2005年10月5日另一位显卡巨头ATI发布全新架构的RadeonX1000家族系列,以RadeonX1800XT争夺显卡性能宝座;实力强大的NVIDIA于2005年11月14日拿出了早已准备的武器7800GTX 512M重夺王者地位,至此2005年的显卡王者之争告一段落。
最高性能级别产品的对撼总是那么引人入胜,拥有业界最强显卡的称号对于NVIDIA与ATI来说不仅是身份的象征,更是实力的体现。2006年王者地位的竞争更为激烈,2006年01月22日ATI发布了X1900系列,以强劲的实力打败7800GTX 512M。当然在2006年3月9日发布的7900GTX让NVIDIA重登性能王座,先进的90nm制程,24管线设计、超高核心频率和极速GDDR3显存都让人热血沸腾。
如今采用革命性统一架构(Unified Shader)的G80已经来到我们面前。
G80带来前所未有的设计,统一Shader架构(Unified Shader)带来强劲的性能。G80完全硬件支持DirectX10的各项先进特性,例如Geometry Shaders、stream out、Improved instancing和Shader Modle4.0,支持这些特性使得Geforce8800 GPU拥有极高性能。所有的DirectX9、OpenGL和先前的DirectX程序和游戏在Geforce8800 GPU的Unified 设计都有高性能的演出。
具备128个Unified Shader的8800GTX具备万亿浮点处理能力(Teraflops of floating point)。GigaThread技术应用在G80,支持数千个线程并行运行。高品质的各向异性过滤、高效的Early-Z技术和动态分支、86.4GB/S的恐怖显存带宽……
G80拥有足够强大马力应付在XHD分辨率和高画面质量设定下畅快进行游戏,16xAA所带来的效果也仅仅是带来相当于4xAA所带来的系统花销。SLI技术会带来接近翻倍性能的提升的表现。128bit精度的HDR和16x抗锯齿的结合带来顶级画质。内建的PureVideo HD功能的G80可以在低CPU占用率上面确保流畅完美的HD和SD Playback回放。有效的功耗占用和管理给Geforce8800带来更好的Performance per watt(每瓦特性能)和Performance per square millimeter(每平方毫米效能)表现。
1.Geforce8800采用Unified Shader架构:
DirectX 10最大的革新就是统一渲染架构(Unified Shader Architecture)。目前的GPU架构还是沿用的分离式渲染架构,目前NVIDIA的G71和ATI的R580都是采用这样的架构,顶点渲染和像素渲染各自独立进行,而且一旦当架构确定下来,顶点和像素shader单元的比例就会固定下来。不过分离式渲染架构设计更为简便而且经验丰富,例如NVIDIA的NV40发成到后来的G70/G71,又或者是R420到R580,性能都得到显而易见的提升。
微软认为这种分离渲染架构不够灵活,不同的GPU,其像素渲染单元和顶点渲染单元的比例不一样,大大限制了开发人员自由发挥的空间。不同的应用程序和游戏对像素渲染和顶点渲染的需求不一样,导致GPU的运算资源得不到充分利用。微软在DirectX 10中提出了统一渲染架构,在通用和独立的shader单元中可以执行不同的shader程序,包括vertex、pixel和在DirectX 10中首次提出的geomery shader。而且随着这些通用独立的shader单元功能的不断完善,日后有望执行更多的shader程序,例如物理效果。
相对顶点渲染来说,像素渲染将面临大规模使用纹理所带来的材质延迟,这是统一渲染架构急待解决的问题。不过在Geforce880 GPU里面,这种情况得到很大的改善,分组的steam processor都用联立一定数量的texture单元和L1/L2高速缓存。
Shader Modle 4.0无论是vertex还是pixel指令,最大指令长度相当于Shader Modle 3.0的128倍(64K),越长越复杂的指令可以产生越真实的画面,Shader Modle 4.0的寄存器也激增到4096个,Constant寄存器采用16×4096阵列。input寄存器采用16/32规格等,上述指标都比以前的DirectX有明显的改进。Shader Modle 4.0允许程序员在渲染物体时使用128个纹理,而DirectX 9只提供4/16规格,更多的纹理意味着物体表面精度更真实,游戏开发者拥有更广泛的选择。
Geforce8800 GPU的研发工作从2002年夏天正式开始。Geforce8800 GPU的设计当时有四大目标。显而易见的超过当代的GPUs、提升图像质量、提供强大的物理和浮点处理性能,适应DirectX的发展推出新概念的GPU Pipeline。
名称 |
架构 |
制造工艺 |
晶体管数目 |
DirectX支持 |
GeForce256 |
NV10 |
0.22 Micron |
23 Million |
7.0 |
GeForce2 GTS |
NV15 |
0.18 Micron |
25 Million |
7.0 |
GeForce3 |
NV20 |
0.15 Micron |
57 Million |
8.0 |
GeForce4 Ti4600 |
NV25 |
0.15 Micron |
63 Million |
8.0 |
GeForce FX 5900 |
NV35 |
0.13 Micron |
135 Million |
9.0 |
GeForce 6800 Ultra |
NV40 |
0.13 Micron |
222 Million |
9.0C |
GeForce 7800GTX |
G70 |
0.11 Micron |
302 Million |
9.0C |
GeForce 7900GTX |
G71 |
0.09 Micron |
278 Million |
9.0C |
GeForce 8800GTX |
G80 |
0.09 Micron |
671 Million |
10 |
传统经典的Pipeline模型,不同种类属性的vertices,包括index、commands和textures,线性缓冲区的Setup引擎自上而下的经过vertex shading、 pixel shading和ROP,最后被写进frame buffer。事实上Geforce7系列GPU拥有超过200个连续的阶段。
显而易见的,采用了Unified pipeline设计的Geforce8800 GPU可以有效的减少pipeline的层数,同时将传统经典pipeline自上而下的线性顺序变成连续的循环导向的过程。input经过unified shader core作为output写进去寄存器,同时返回到shader core再进行下次操作。
在不同应用程序和游戏中,vertex shader和pixel shader的需求比例不尽相同, 十分不幸地在Geforce8800 GPU之前,GPU里面的vertex shader和pixel shader的比例是固定。显然unified的实际适应性更强,从下面的例子我们可以看到在unified shader架构的威力,大大提升了GPU的硬件使用率,尽量避免shader空闲的情况发生。
在典型的HDR代表游戏《上古卷轴4:湮灭》中,7900GTX在2048x1536并开启HDR的情况下,FPS惨不忍睹。独立渲染的草丛或者树叶是由庞大数量的多边形构成,对GPU的vertex shader和geomery shader提出严酷要求,相对来说并不需要太多像素操作,如此一来大规模的像素渲染被闲置而顶点模块处于不堪重负状态。Unified shader架构则可以帮我们解决硬件资源上的限制,Unified shader架构也尽量降低了shader单元的闲置率。
在Geforce8800 GPU的unified shader架构里面,Streaming Processors(SPs) 是最为核心的单位,Geforce8800GTX拥有128个streaming processor,运行在1350Mhz的频率下。每个streaming processor均能处理vertex、pixel、geometry等操作,是一个通用的浮点处理器。 这些浮点处理器都可以随时有计划的编排分组成不同的工作量。
geomery shading是DirectX10的新特性,streaming processors可以处理几何运算,大大减轻了CPU在几何运算的负载。GPU分派器和控制逻辑可以动态的指派streaming processpors进行vertex、pixel、geometry等操作,因为他们是通用的。显然unified shader设计可以建立更加平衡的shader工作机制,但是传统的pipeline定义不再适用,在未来,可能其他特性的预算也可以通过unified streaming processor去完成。我们看看geomery shader的情况。
Input Assembler(IA)从顶点缓冲区上的输入流中接收顶点数据,并且把数据项转换为规范的格式。vertex shader通常用来把顶点从模型空间变换到平面空间,vertex shader读取一个顶点,输出一个顶点。Pixel Shader读取单一pixel属性,输出包含颜色和Z信息的的片断。而geometry shader是DirectX10提出的,把同一区域的所有顶点作为输入,产生新的顶点或者区域。此外steam output把geometry shader输出的顶点信息复制为4个连续的输出缓冲子集。理论上来说,steam output的输出能力Input Assembler的输入能力相匹配。
Shader就是一段可以改变像素、顶点和几何学特征的小程序。Vertex Shader是专门处理多边形顶点的。那么Geometry shader就是专门用来处理场景中的几何图形。在过去Vertex Shader每一次运行只能处理一个顶点的数据,并且每次只能输出一个顶点的结果。在整个游戏场景中,绘制的几何图形的任务量非常庞大,如果仅仅依靠Vertex Shader单一来完成,效率会极其低下。
现在DX10的设计师们在顶点与像素的处理过程中又加入了Geometry shader几何着色器。它可以根据顶点的信息来批量处理几何图形,对Vertex附近的数据进行函数处理,快速创造出新的多边形。通过steam out将这些结果传递给其他Shader或buffer,将CPU从复杂庞大的几何运算中解放出来。大爆炸,粒子效果,瀑布流水等复杂又关联的场景都可以用Geometry shader很逼真的表现出来。
对geometry shader有了一定认识以后,我们现在具体看看Steam Processing架构的运作。
Geoforc8800 GPU通过一定数量的SP去完成shader操作,相邻的SP可以十分方便的分组发挥并行操作的威力,在Geforce8800 GPU架构中,每16个SP分为一组。
不同属性基础的数据流在整合了专门高速指令解和执行逻辑的SP和一些类似的操作中执行,内建的Cache快速的存储SP的输出,而这些Cache又可以作为input被其他的SP读取。SIMD操作非常高效地在已被分组的SP集合里面执行。
下图可以看到streaming processors和联立的texture Flitering(TF)和texture addressing(TA)。显然内建的L1/L2 Cache确保了平衡的设计,这是一个典型的Geforce8800 GPU unified shader设计。128个streaming processors并行构成了8800GTX的shader架构。每个SP都是通用的、不相关的和标量地,可以同时进行MAD和MUL操作,支持IEEE 754精度的浮点。
Texture寻址、过滤和fetching都会耗尽相当多GPU的核心时钟。如果在架构需要在一个数学操作之前进行Texture的操作,例如是16x各向异性过滤,系统的延时将会大大增加。Geforce8800 GPU作出重大的改进,在进行相当的独立算术运算的时候,“隐藏”了Texture fetch的延迟。
在Geforce7系列的GPU中,Texture寻址计算是采用隔行扫描进行的,这种设计在遇到texture fetch的时候就会遇到瓶颈。Geforce8800 GPU可以完全独立的进行texture操作和shader算术运算。
在Geforce8800架构开发的初期,NVIDIA工程师分析了数百种包含越来越多的标量计算的shader程序以后发现,一些混合了矢量和标量的指令,特别是一些比较长的shader很难有效的在矢量的架构中处理操作。标量计算在矢量的流水线中编译非常困难。
NVIDIA和ATI的都可以处理两个指令,在R580中,ATI采用的3+1架构可以处理一个2x2的矢量指令和由1x3矢量指令和1x1标量指令的混合,在Geforce6/7中,可以操作2+2和3+1的双指令操作。但是这些跟Geforce8800 GPU的标量设计那么高效。NVIDIA的工程师作出评估,128个标量处理器的标量架构拥有两倍性能于32个复合的矢量处理器架构。
当代的GPU都会采用Z-buffer去记录哪些像素是可见,而哪些像素是被遮挡而不可见。一个3D Frame最终要转换成为2D图像才能表示在屏幕上面,来自GPU连续的顶点流(vertices)会构建这个frame,从这个顶点流获取相应的2D坐标去生成多边形。多边形的连续产生会覆盖原来的区域,因而Z-buffer的信息就是告诉ROP, 哪些像素是可见哪些是不可见的。提前进行的Early-Z对比可以节省大量资源,因为同一个区域被多个多边形覆盖的次数轻而易举地达到原来的四倍甚至更高。
目前甚少方法可以利用Z-buffer信息去挑选或者排出被遮挡像素的渲染,Z-Cull就是这样的一个方法。Z-comparision通常会发生在ROP的后期。问题就产生,意味着pixel要通过完整的ROP管线才能被发现是否可见。一些复杂的包含数千步骤的shader程序,即使是被遮挡的pixel也全部通过流水线,这显然浪费了GPU的性能。Early-Z移去不可见像素在它们进入流水线之前,这样显然会提高性能,NVIDIA认为这个操作提升22%附近的性能。
数据很方便的在不同的SP之间的output和input之间移动,例如vertex data处理完以后,output可以作为input发送到Geometry Theard。
每个在8800GTX运行的SP都运行在1.35Ghz,并能同时执行一个MAD和MUL的标量操作,因而8800GTX就用有520 gigaflops的shader处理能力,不过这并不是8800GTX的全部实力,因为指令发送100%适用于矢量操作, 而标量和矢量混合的shader程序编码比特定的组合指令发送更有效率(3+1或者2+2)
texture过滤单元和SP互不相关的传送64 pixel每个时钟,这等于每个时钟完成32 pixel的寻址或者是32 pixels 2x各向异性过滤,或者是每时钟32pixels的双线过滤。
基本上,PF16双向材质过滤可以实现每时钟32pixel来操作,如果是FP2:1的各向异性过滤也可以每时钟16pixels来完成。texture单元运行在575Mhz的时钟频率,这也就是8800GTX的核心时钟频率。
在575Mhz的运行频率上面,双线过滤或者是2:1的各向异性过滤的填充率达到575Mhzx32=18.4billion texels/s的水准,2:1的各向异性过滤相当于两个双向过滤取样一起整体输出到一个像素,因而8800GTX拥有36.8billion texels/s的双向过滤的填充率。
8800GTX拥有6组ROP(Raster Operation partitions),每组可以处理4个像素,因而一共可以每时钟可以处理24个包含颜色和Z信息的像素。如果是Z-only处理,则可以实现每时钟192个单像素的处理。如果是4x multisampled antialiasing打开,则可以完成48个Z-only操作。
G80的ROP支持超级采样和多点采样和Adaptive的这三种antialiasing的模式, 因而G80是首个在单GPU环境下实现8x、 8xQ、16x和16xQ等antialiasing模式的GPU。NVIDIA引入了CSAA,Coverage Sampling Antialisaing-新的全屏抗锯齿选项,同时包含coverage取样和geometry取样。CSAA有新的选项分别是8x、8xQ、16x和16xQ, 全面提升了全屏抗锯齿的等级。得益于G80强大的性能,在某些游戏开启16x高质量的AA模式以后,速度并不会大幅降低,系统花销可以维持在4x AA的级别。
G80的ROPs支持FP16和FP32的混合,无论是FP16还是FP32都能够进行multisampled的antialiasing,因而从G80开始,NVIDIA的GPU首次实现HDR+AA的模式。8个支持DirectX10的MRTs(Multiple Render Targets)引用在G80,可以进行色彩和Z操作。DirectX10支持两种新格式的HDR、第一种格式是R11G11B10,特别的为存储texture的浮点格式优化,另外一种这是每个颜色通道占用9bit,RGB各占9bit,专门为render target而设计。
每组ROP拥有64bit的显存接口界面,完全支持DDR1、DDR2、DDR3、GDDR3和GDDR4显存,因而8800GTX一共拥有384bit的显存接口界面,也就是我们所说的384bit的显存位宽,8800GTX一共拥有784M的本地显存,运行在900Mhz时钟频率的GDDR3显存一共提供86.4GB/S的恐怖显存带宽。
Geforce8800 GPU是为Windows Vista专门优化的第三代GPU架构。支持WDDM驱动、Vista's Desktop Windows Manager(DWM)和Aero 3D界面。
NVIDIA的Purevideo HD内建于Gefroce8800 GPU里面,良好的支持HD-DVD和Blu-ray的播放。最好的画面质量,完美平整的电影播放和更低的CPU占用率。
Purevideo HD包括视频处理器、 驱动软件和播放软件,加速H.264、VC-1、WMV/WMV-HD和MPEG-2 HD格式,在权威的HQV Benchmark测试中得到128分的好成绩。
在播放具有AACS版权保护的HD DVD,通过Cyberlink、InterVideo和Nero等播放器可以利用到PureVideo的特性。此外Geforce8800 GPU内建HDCP的支持。Geforce8800 GPU支持多重TV-OUT输出,包括composite、S-Video、Component和DVD,最高支持到1080P的电视输出。
此外Geforce8800 GPU专门针对XHD分辨率游戏而设计,在以往需要双GPU-7950GX2才能达到XHD分辨率游戏性能,现在Geforce8800 GPU就能实现。XHD拥有七倍于1080i电视和双倍1080P电影的精度,Dual-link DVI可以输出2560x1600的XHD分辨率。
1.G80双雄-8800GTX和8800GTS:
8800GTX采用90nm工艺制造,拥有6.81亿个晶体管,核心时钟频率为575Mhz,拥有128个运行在1350Mhz时钟频率的Unified shader(Steam Proccessor)和24个ROP,配备768M运行在1800Mhz的GDDR3显存,由于384bit的显存位宽,因而8800GTX一共拥有86.4GB/S的恐怖显存带宽。
同样采用90nm工艺制造的8800GTS属于G80系列的高端产品,同样拥有6.81亿个晶体管,核心时钟频率为500Mhz,拥有96个运行在1200Mhz时钟频率的Unified shader(Steam Proccessor)和20个ROP,配备512M运行在1200Mhz的GDDR3显存,由于320bit的显存位宽,因而8800GTX一共拥有64GB/S的显存带宽。
8800系列的规格足以压倒目前的7900GTX和X1950XTX的规格,在从Fill Rate (Billion pixels/sec)看来,8800GTX目前36.8GT/S的填充率是7900GTX 15.6GT/S的两倍多,此外7900GTX只是拥有16个ROP,而8800GTX则个拥有24个。X1950XTX的48个Pixel shader也在8800GTX 128个Unified shader面前黯然失色。
据悉Geforce8800GTX和Geforce8800GTS在国内的零售架构大概是5999元和4999元。
NVIDIA并无意将80nm制造工艺引入到G71高端芯片上,因为在今年11月,NVIDIA即将发布旗下最顶级的图形核心G80,此时G71的使命即将终结。而在中低端市场,G80新架构还无法及时铺广下去,因此80nm的G73能够很好地在这段时间起到一个平滑过渡的作用。也是回应竞争对手的最有效方式。
根据经验,更小的制程,往往将给业界带来更高的半导体工作频率。80nm的G73-B1和RV570也是一样。据目前的推出的产品看来,新制程G73较90nm产品能够获得更高的工作频率。从而可以在不修改架构的前提下,进一步提升产品性能。采用80nm制造工艺的图形核心,拥有更小的晶体管体积,晶体管体积越小,驱动电压越低,GPU在同频率下,较90nm的整体的功耗就越低。从而应用80nm GPU的产品发热量将会更低。当80nm制程进入成熟阶段后,借助80nm制程,在提升芯片性能的同时减少19%的芯片面积。可以在一张晶圆上切割出更多的芯片,有90nm制程在光蚀刻技术上的提升,无需为第三方技术和专利支付权益金,因此80nm芯片成本平均比90nm芯片降低20%。
事实上,让图形核心的不同部分运行在时钟频率早在7800GTX时代已经出现过,在G80上这种方法更加明显,纹理单元运行在575Mhz的时钟频率下,但是Steam Proccessor却运行在1350Mhz。自从微软在2001年在DirectX8.0的API中引入了可编程渲染引擎以后,渲染处理开始在游戏中变得非常普遍,而渲染指令的复杂程度也在以每年1.8倍的速度增长,游戏对shader的要求高于texture的要求,而texture单元的时钟频率等同于核心时钟频率,在shader单元提升到超高频率以后,核心时钟频率也不必运行在危险的高频之下。
(90nm工艺下,一个wafer可以切割出118个G80管芯)
G80赶在Windows Vista和DirectX10之前发布,80nm工艺对于G80来说并不是必须。以目前G80的6.81亿个晶体管的庞大数量看来,如果在80nm工艺遇到问题,那带来的打击将会是毁灭性。
富彩作为香港的一个AIC,该公司原先的主要精力集中于OEM以及ODM业务,是NVIDIA全球29个最重要的合作伙伴之一,也是NVIDIA的官方发布伙伴(Official Launch Partner)之一。富彩产品线也异常丰富,其产品定位于中高低端。近期他们在国内市场动作频频,这次更是推出提前定购“NVIDIA新一代顶级显卡”这一活动,对于显卡发烧友来说,这是个不可多得的好机会。
将两块显卡的庞大散热器拆去以后,我们就可以看到两张显卡的庐山真面目。8800GTX卡长超过26cm,这比双GPU方案的7950GX2还要长,厚度(加散热器)已经接近4cm,如果要算上重量的话, 8800GTX绝对称得上巨无霸-居然比7950GX2重上30%。看来专门定制的散热器“功劳”不少。
我们先看看8800GTX和8800GTS的散热的情况。
我们可以看到8800系列的散热器分量十足,做工精良,根据笔者的经验,这两个散热器属于小规模定做量产,因而成本都可能接近30美金。散热器跟GPU接触的地方采用纯铜设计,铜块被内嵌在密集鳍片,当然高品质热管也会传递热量到挡板附近的铝质鳍片。散热器采用相对封闭的设计,大型涡轮风扇将热量从接口挡板送出。
(G80系列显卡的输出部分全部金属屏蔽,确保品质)
我们发现,G80显卡使用了一块NVIDIA的NVIO芯片,这款芯片上提供了 400MHz RAMDAC 芯片并支持Dual-Link DVI输出,支持TV Out 和HDCP功能。NVIDIA为什么要单独在IO芯片上配备RAMDAC呢,根据相关资料介绍,NVIDIA GeForce 8800的工作频率相当高,如果将RAMDAC整合在GPU芯片内部,显卡在质量上就会有问题。此外,独立的RAMDAC可以减少GPU产生的电磁能够保持较好的输出质量。因此NVIDIA就采用这种设计,除了可以降低生产成本外,还有效的保证视频模拟信号的输出效果。
从最近的情况上来看,三星在GDDR4的产能方面可能出现了一些问题,并且这个问题已经直接反应到相关显卡厂商的产品上了。以ATI为例,ATI已经开始启动B计划,即其一些原打算采用GDDR4显存的显卡将要改用GDDR3,不过其未来的高端显卡将依然会采用GDDR4。在IT领域,由于产能而引发的各种问题是层出不穷的,此次三星在GDDR4上遇到的问题实际上也是意料之中的。
显然G80在GDDR4也遇到一定问题,或多或少的产能问题,或者不能稳定在2000Mhz的频率。8800GTX每组ROP拥有64bit的显存接口界面,完全支持DDR1、DDR2、DDR3、GDDR3和GDDR4显存,8800GTX一共拥有384bit的显存接口界面,因而即使采用1.8Ghz的GDDR3,仍然拥有86.4GB/S的恐怖带宽。
(Samsung 1.2ns GDDR3显存)
(显然8800GTX最长,其他三张显卡相同级别)
(威武的X1950XTX放在8800GTX旁边也显得黯然失色)
作为NVIDIA全球核心合作伙伴,XFX讯景在NVIDIA新产品的发布中可谓无人能敌。XFX讯景的中高端产品做工精良,用料讲究,大多以“超频版”的形式推出市场。XFX讯景 8800GTX和8800GTS是最早进入评测室的G80显卡,充分显示实力。据悉讯景8800GTX套装以19999元的天价出售,并配套750W超强电源。
阔别大陆市场一年的台湾老牌显卡品牌旌宇SPARKLE卷土重来,这次送测的是8800GTS型号。
2005年8月,旌宇显卡凭借在GEFORCE6系列上的杰出表现呈现品牌凝聚力和认同度的快速上升。但就在此时,台北旌宇在审计北京办事处时,发现在财务方面出现了严重的帐目、现金和货物不符和财务制度流程混乱等情况。做出了封库、停货的决定,并于两个月后解散了设在北京的业务团队。经过近一年的善后和准备,2006年,旌宇重新架构中国大陆地区业务团队,并在深圳设立全新分公司。这标志着代表台湾至高显示卡研发设计水平的旌宇公司再度回到中国大陆市场。
台湾旌宇SAPRKLE科技股份有限公司成立于己于1994年,是一家有着10余年研发、制造经验的专业显示卡制造商;同时也是NVIDIA全球范围内的最高级别认证合作伙伴(AIC)。并为欧洲和美国的著名显示卡品牌BFG、PNY和EVGA等代工,产品以定位高端玩家市场。
作为目前国内为数不多的具备自主研发、独立生产能力板卡品牌,翔升已经成为NVIDIA在国内地区主板和显卡双重合作伙伴。2006年翔升再接再厉,为追求高性能的的用户推出“G-max”系列产品,冀望打造主流市场的性价比佼佼者,力图为用户提供在品质、性能、功效以及价格上达到最佳平衡点的显卡产品方案。
G-Max是翔升研发的1GHz以上显存频率的显卡产品集合,当然随着Geforce7系列中高端产品的陆续铺开,7950GT和7900GS双雄巩固高端,而7600GT起着中高端转折作用, 最后7600GS和7300GT携手紧握中端性能市场,翔升的G-MAx系列得以赋予新的概念-高清娱乐先锋。
而这次翔升也是第一时间将8800GTX和8800GTS同时送测到评测室,充分展示实力。
GeForce 7系列刚刚走入用户的家中,GeForce 8已经来了;DirectX 9正当红火,DirectX 10现在来了!NVIDIA今天正式发布了全球首款支持DirectX 10的全新旗舰产品GeForce 8800系列,做为NVIDIA在国内首批认证分销商的盈通当然也在第一时间全球同步推出了两款产品——剑龙G8800GTX-768GD3豪华版和剑龙G8800GTS-640GD3豪华版,价格分别是5999元和4999元。
测试平台 | |
CPU |
Intel Conroe X6800(LGA775、2.93G、4096K SmartCache L2) 266 x 11=2930MHz(DDR2 800 4-4-4-12) |
主板 |
Intel 975XBX -304(LGA775 i975X) |
内存 |
镁光D9 512Mx2 |
硬盘 |
日立7K250 SATA 250G (7200转、SATA300) |
显卡 |
8800GTX 768M(575/1800) |
软件平台 | |
系统软件 |
WindowsXP Professional SP2 英文版 + DirectX 9.0C |
驱动程序 |
主板:Intel 8.0.0.1006 显卡:ATi CATALYST 6.10 |
测试软件 |
|
为了避免系统瓶颈,我们本次G80测试采用了游戏性能最强的Core 2 Extrme X6800,并搭配旗舰的975x和DDR2 800内存。十分遗憾,根据NVIDIA的计划,在G80发布的当天才会发布SLI驱动和全新的nForce680i芯片组,到时候我们也会第一时间奉上详细的测试。
测试项目主要由3Dmark理论测试、HDR新游戏和经典游戏组成,当然本次G80测试也会加入目前最热门的极品飞车10 Carbon峡谷作为测试项目。根据G80的reviewer's guide,1600x1200已经成为G80系列显卡的Low end入门级分辨率,因而我们测试图表尽量采用2048x1536的分辨率,并且开启4xAA 16xAF选项来考察G80的性能。
由于内置的DirectX10的Windows Vista尚未发布,而真正支持DirectX10的游戏也是迟迟未能出现,因而本次测试并没有测试G80在DX10环境下的性能。
1.3Dmark03和3Dmark05:
3Dmark 03 |
1024x768 0aa 0af |
1280x1024 0aa 0af |
1600x1200 0aa 0af |
1024x768 4aa 16af |
1280x1024 4aa 16af |
1600x1200 4aa 16af |
8800GTX |
32752 | 25885 | 20893 | 31869 | 25213 | 20334 |
8800GTS |
24344 | 18737 | 15621 | 15384 | 13302 | 9404 |
X1950 XTX |
21885 | 18087 | 14919 | 15440 | 12077 | 9617 |
7900GTX |
25785 | 20478 | 16538 | 16301 | 12259 | 9482 |
在1600x1200 4xAA 16xAF细节,8800GTX是其他显卡的两倍成绩;而8800GTS则跟7900GTX和1950XTX处于相同级别,稍感意外。
3Dmark 05 |
1024x768 0aa 0af |
1280x1024 0aa 0af |
1600x1200 0aa 0af |
1024x768 4aa 16af |
1280x1024 4aa 16af |
1600x1200 4aa 16af |
8800GTX |
16712 | 15872 | 14859 | 16631 | 15659 | 14593 |
8800GTS |
12681 | 12104 | 11344 | 12586 | 11917 | 10995 |
X1950 XTX |
13054 | 11611 | 10256 | 11322 | 9682 | 8387 |
7900GTX |
11464 | 9961 | 8595 | 11068 | 9534 | 8179 |
在3Dmark05测试的1600x1200 4xAA 16xAF情况下,8800GTX仍然是跑得最快的显卡,而8800GTS紧跟气候。
在3DMark05中,FutureMark使用了LiSPSM (Light Space Perspective Shadow Maps)来处理动态阴影,新一代3DMark06中加入了眩目的HDR特效、CSM动态阴影等等,画面更逼真细腻,光影效果更为炫目。
3DMark06的标准测试包括两个HDR测试两个SM3.0图形测试。很明显FutureMark想表达的意思是,未来PC系统的游戏性能最关健的是显卡的HDR/SM3.0效能。3Dmark06还首次使用了AGEIA公司的PhysX物理引擎,用CPU模拟物理引擎计算,这是3Dmark06的一个闪亮的特色。CPU测试的成绩被强制加入到总分里面去,Futuremark揭示了未来游戏发展的方向,CPU/GPU应该获得更好的平衡。
3Dmark06的几个场景令人印象深刻,原深居峡谷的白龙变得幻彩夺目,特别是在阳光的照射下更显状观,鳞片细节和颜色变化莫测,水波纹更加细腻真实。此外“极地深寒”场景是全新开发的Game Test,我们可在寒冷的极地中看到一天日出日落情景,随着太阳在空中慢慢滑过,物体阴影的会随太阳移动而变化。“极地深寒”场影同样使用了FutureMark非常自豪的CSM技术。
3Dmark06 1280x1024 | 8800GTX | 8800GTS | 7900GTX | 1950XTX |
3Dmark score |
10700 | 8708 | 6391 | 6665 |
SM2.0 |
4811 | 3725 | 2602 | 2542 |
SM3.0/HDR | 4895 | 3723 | 2512 | 2817 |
CPU | 2565 | 2549 | 2555 | 2591 |
Fill Rate |
6935 | 5152 | 6527 | 6130 |
Fill Rate |
17654 | 11760 | 15289 | 10333 |
Pixel Shader | 445 | 303 | 278 | 278 |
Vertex Shader Test - Simple |
300 | 213 | 209 | 186 |
Vertex Shader Test - Complex (MVertices/s) |
109 | 96 | 66 | 62 |
Shader Partice SM3.0 | 164 | 123 | 22 | * |
Perlin Noise SM3.0 | 150 |
100 |
63 | 94 |
Serious Sam 2 |
1024x768 0aa 0af |
1280x1024 0aa 0af |
1600x1200 0aa 0af |
2048x1536 0aa 0af |
1024x768 4aa 16af |
1280x1024 4aa 16af |
1600x1200 4aa 16af |
2048x1536 4aa 16af |
8800GTX |
225 | 219.3 | 180.5 | 127.9 | 131.3 | 96.9 | 67.5 | 38.1 |
8800GTS |
152.9 | 150.5 | 129.8 | 92.4 | 98.3 | 72.1 | 47.7 | 24.6 |
X1950 XTX |
186.7 | 140.2 | 99.4 | 68.2 | 88.9 | 65.8 | 48.1 | 30.9 |
7900GTX |
146.4 | 104.1 | 71.5 | 48 | - | - | - | - |
在2048x1536分辨率,不开启AA/AF的情况下, 即使是次级的8800GTS性能都要比7900GTX快上80%,跟1950XTX比较也有40%多的距离,而SeriouSam2向来是ATI X1800/1900的强项。8800GTX的威力惊人,我们可以看到在更高的分辨率下面,这个游戏的shader运算更为复杂,最后8800GTX拥有7900GTX 2.66倍的性能。在2048x1536 4xAA 16xAF环境,X1950XTX虽然绊倒8800GTS,但是仍然以明显差距落后于8800GTX。
Quake 4 |
1024x768 0aa 0af |
1280x1024 0aa 0af |
1600x1200 0aa 0af |
2048x1536 0aa 0af |
1024x768 4aa 16af |
1280x1024 4aa 16af |
1600x1200 4aa 16af |
2048x1536 4aa 16af |
8800GTX |
130.8 | 131.3 | 131.8 | 126.1 | 130.9 | 127.5 | 117.7 | 88 |
8800GTS |
98.2 | 97.6 | 97.3 | 92.3 | 97.4 | 93.3 | 84.3 | 61.5 |
X1950 XTX |
121 | 118.5 | 114 | 78.1 | 116 | 104.6 | 86.2 | 53.7 |
7900GTX |
126.8 | 125.5 | 121.5 | 102.6 | 121.5 | 105.9 | 82 | 53 |
显然较低的时钟频率直接影响了8800GTS的性能,在不开启AA/AF选项以前, 7900GTX都可以轻而易举的战胜它,到了2048x1536 4xAA 16xAF,8800GTS才开始反胜7900GTX。不过在2048x1536 4xAA 16xAF环境下,8800GTX始终是胜利者,领先1950XTX和7900GTX接近70%。
Need For Speed:Carbon |
1024x768 0aa 0af |
1280x1024 0aa 0af |
1600x1200 0aa 0af |
1024x768 4aa 16af |
1280x1024 4aa 16af |
1600x1200 4aa 16af |
8800GTX |
95 | 75 | 58 | 88 | 67 | 51 |
8800GTS |
75 | 54 | 40 | 67 | 49 | 36 |
X1950 XTX |
74 | 52 | 39 | 65 | 47 | 35 |
7900GTX |
40 | 30 | 20 | 36 | 26 | 19 |
最新Need For Speed:Carbon里面,7900GTX性能惨不忍睹,8800GTX拥有268%的7900GTX性能,相当强悍。
NVIDIA的显卡未能在The Elder Scrolls IV:Oblivion打开HDR+AA,因而我们采用HDR+Normal的细节分析。
The Elder Scrolls IV:Oblivion |
1024x768 0aa 0af |
1280x1024 0aa 0af |
1600x1200 0aa 0af |
2048x1536 0aa 0af |
1024x768 4aa 16af |
1280x1024 4aa 16af |
1600x1200 4aa 4af |
2048x1536 4aa 16af |
8800GTX |
141.4 | 138.4 | 124.8 | 97.7 | - | - | - | - |
8800GTS |
109.5 | 106.5 | 94.6 | 71.4 | - | - | - | - |
X1950 XTX |
96 | 79 | 64 | 47 | 74.3 | 59 | 47.4 | 35.2 |
7900GTX |
95.5 | 74.6 | 61.2 | 44.5 | - | - | - | - |
The Elder Scrolls IV:Oblivion《上古卷轴4:湮灭》可以最能体现Unified Shader架构实力的游戏之一,在2048x1536 HDR环境下,传统的GPU架构中,无论是vertex shadr还是pixel shader都可能不堪重负,我们看到7900GTX已经跌落到45FPS附近,而采用Unified shader架构的8800GTX,不仅拥有更多的steam processor而且有更好的调度比例,硬件不但没有出现空闲而是以更好的效率运行,97.7FPS的帧数是7900GTX的220%。
Tom Clancys Splinter Cell Chaos Theory |
1024x768 0aa 0af |
1280x1024 0aa 0af |
1600x1200 0aa 0af |
2048x1536 0aa 0af |
8800GTX |
183.5 | 131.6 | 98.7 | 66.9 |
8800GTS |
132.4 | 93.6 | 69.7 | 46.9 |
X1950 XTX |
127 | 94 | 71 | 47 |
7900GTX |
117 | 82 | 62 | 42 |
Tom Clancys Splinter Cell Chaos Theory细胞分裂也出现上面类似的情况,因而我们也是用2048x1536 HDR去考察各款显卡的性能,作为一款第三人称的间谍类游戏,Tom Clancys Splinter Cell Chaos Theory场景对多边形的生成并不是过分敏感,反而是材质过滤和像素渲染方面要求更高。当需要更多的pixel shader的时候, X1950XTX会占优,不过这仅仅是和上代GPU相比; 8800GTX在Tom Clancys Splinter Cell Chaos Theory的性能相当于7900GTX的159%,1950XTX的142%。
FarCry |
1024x768 0aa 0af |
1280x1024 0aa 0af |
1600x1200 0aa 0af |
1024x768 4aa 16af |
1280x1024 4aa 16af |
1600x1200 4aa 16af |
8800GTX |
195.4 | 201.7 | 185.3 | 211.4 | 194.7 | 169 |
8800GTS |
152.3 | 149.4 | 138.3 | 149 | 139 | 119 |
X1950 XTX |
208.5 | 197 | 170.5 | 190.8 | 149.1 | 117.7 |
7900GTX |
206.9 | 176.7 | 148.8 | 165.8 | 117.4 | 85.6 |
Half life 2 |
1024x768 0aa 0af |
1280x1024 0aa 0af |
1600x1200 0aa 0af |
1024x768 4aa 16af |
1280x1024 4aa 16af |
1600x1200 4aa 16af |
8800GTX |
221 | 224.9 | 219.8 | 221.6 | 224.8 | 211.5 |
8800GTS |
160 | 161.6 | 158 | 159 | 161 | 152.4 |
X1950 XTX |
236.1 | 231.6 | 206.2 | 227.3 | 200 | 166.2 |
7900GTX |
218.6 | 214.4 | 187.4 | 213.1 | 182.6 | 138.8 |
DOOM3 |
1024x768 0aa 0af |
1280x1024 0aa 0af |
1600x1200 0aa 0af |
1024x768 4aa 16af |
1280x1024 4aa 16af |
1600x1200 4aa 16af |
8800GTX |
246.4 | 234 | 202.9 | 213.6 | 163.8 | 123.3 |
8800GTS |
181.7 | 173 | 148.9 | 158.9 | 117 | 87.7 |
X1950 XTX |
195.2 | 155.6 | 120.1 | 146.5 | 105.1 | 78.5 |
7900GTX |
221.4 | 181.8 | 143.6 | 150.1 | 103.4 | 76.2 |
经过四年的研发,晶体管数目达到6.81亿、拥有128个unified shader的Geforce8800GTX性能并没有令我们失望。1600x1200成为8800GTX的入门分辨率这种说法并不过分,专门为满足XHD分辨率(2560x1600)流畅游戏而生的8800GTX即使是在1600x1200分辨率已经拉开跟7900GTX和X1950XTX拉开足够的距离。当然这种优势随着分辨率和AA/AF选项的打开而扩大。1600x1200 4xAA 16xAF环境,8800GTX在Farcry、Half life2和Doom3这三个经典FPS游戏中,相当于7900GTX的197%、 152%和162%。在2048x1536 HDR环境下,上古卷轴4:湮灭和细胞分裂两个游戏中,8800GTX拥有7900GTX 220%和159%的性能;最令人恐怖的则是在新近发布的极品飞车Carbon峡谷中,8800GTX拥有268%的7900GTX性能(1600x1200 4xAA 16xAF)。目前大屏幕液晶显示器的持续降价也迎合了高端显卡的显示需求。
同样采用G80图形核心的8800GTS这是NVIDIA的高端产品,无论unified shader数量、时钟频率、ROP数目、显存带宽和显存容量都跟旗舰的8800GTX拉开了足够的距离。虽然8800GTS 500Mhz/1200Mhz的时钟频率较低,但是仍然拥有96个运行在1200Mhz的unified shader,性能自然不俗,在2048x1536的分辨率大幅领先于前代的7900GTX和X1950XTX,这种优势随着AA/AF选项打开而扩大。
不过不能否定,ATI的RadeonX1950XTX仍然保持不错的实力,基本上都能以10%附近的幅度压制7900GTX。其实无论是ATI还是NVIDIA,都十分注重的pixel shader, 虽然前代的R580并没有采用unified shader设计,但是固定配备48个pixel shader的设计仍然使R580在繁复的shader运算中受益不浅。目前G80的unified shader只是运行在兼容模式,执行逻辑起着分派vertex、pixel和geomery shader的作用,即使是在DirectX9.0C环境下,复杂的指令、密集的顶点/几何预算和的高负荷的像素渲染都能一定程度体现unified shader的威力。
NVIDIA的G80 GPU显然显得相当超前,就像当年的ATI R300一样,都超前支持了尚未发布的DirectX版本;事实上已经证明这种做法早已经为日后的成功打下坚实的基础。作为首款支持DirectX10的图形芯片,拥有128个steaming processors和64 pixels texture过滤每时钟的8800GTX需要一个均衡的架构, 如果显存子系统不能及时足够的数据,或者是ROP系统在pixel操作时候遇到瓶颈,又或者是其他子系统并不是十分匹配,那么后果将会是不堪着想。
Unified Steam proccessors可以处理各种多样的shader程序,瞬时就能迎合需求而达到平衡,内建的高速缓存拥有极高性能和命中率,和高速的显存子系统相结合。和前代texture fetch和过滤的延迟相比,GIGAthrad技术可以迅速向texture unit派送有效的工作,texture unit进行的操作并不需要过多的等待。在复杂的vertex和pixel shader程序中,有相当多的时钟用来将这些shader合成,并进行Z运算,ROP子系统的总容量也要考虑在内,而900Mhz的时钟频率的显存子系统让更高阶的分辨率进行高质量过滤更加有效。除了硬件架构方面,NVIDIA的Forcware驱动也起了重要的作用,我们相信随着驱动的完善,Geforce8800系列的性能也会不断提高 。
- 相关阅读:
- ·白色的诱惑 微星助你搭建一台白色主机
//diy.zol.com.cn/542/5425717.html - ·Z战队专属 榜Young定制主机性能大考验
//diy.zol.com.cn/546/5460696.html - ·榜young定制机选用 技嘉G1-B6装机赏析
//diy.zol.com.cn/546/5460901.html - ·榜young定制机选用 航嘉MVP+机箱解读
//diy.zol.com.cn/546/5461617.html - ·三风扇GTX 950 榜young主机显卡图赏
//diy.zol.com.cn/546/5460893.html