新一代GDDR5X显存
为了进一步提高性能,GeForce GTX 1080 Ti配备了以11 Gbps运行的新一代GDDR5X显存,这是目前显存所能达到的单端IO信号传输的最快速度。NVIDIA与显存供应商倾力协作,改进显存的数据通道,使用先进的均衡技术减少物理接口的不利影响,并使抖动和噪声达到最小,实现更高的数据传输速率。
上图为显存工作时的数据眼图,左侧的图像显示了以11 Gbps运行的原始GDDR5X显存,右侧为新一代GDDR5X@11 Gbps显存,我们可以看到,左图采样数据的中心与转换中的数据混淆在一起,因此无法可靠地捕获数据,而右图显示新的GDDR5X显存具有显着改进的数据眼,结合Pascal强大的IO设计,使显存IO速度达到了一个新高度。
图块缓存技术(Tiled Caching)
NVIDIA最新的GPU采用了旨在放大原始内存带宽并为GPU核心提供更高有效内存带宽的技术,该技术被称为区块缓存。传统的渲染架构分为两种,高端桌面级GPU使用的是立即式渲染器,如左图所示;绝大多数移动级GPU使用的是图块式渲染架构,如右图所示:
在立即式渲染架构中,输入命令列表中的每个命令按序执行并完成,例如当输入三角形时,在开始下一个三角形的绘制之前先绘制之前的整个三角形。此架构的优势包括只读取一次输入的几何数据,并且能够在复杂输入时节约资源。缺点是在具有高透明度的区域中,相同的像素被多次读取和写入,增加了存储器带宽的消耗。
图块式渲染器的工作原理是屏幕被分成许多单独的区块,并且进行两次渲染,第一次处理几何数据并确定每个三角形覆盖哪些区块,并将该信息写入DRAM;第二次为每个区块再添加几何列表,每次一个区块,在移动到下一个区块之前渲染完成之前的区块。这样做的好处是所有渲染都在芯片内发生,最终只有颜色信息被写入DRAM。
与立即式渲染相比,图块式渲染有两个明显的限制:首先,对于合并通道的需求增加了数据延迟和复杂性;第二,保存和读取合并通道信息所需的显存带宽是与渲染场景中几何形状的量成正比,如果每像素带宽节省超过合并带宽量,则图块渲染是相对节省带宽的。对于那些相对简单,几何复杂度低的场景,例如移动端游戏是可行的,但对于具有丰富几何形状的桌面级游戏,图块式渲染对带宽的需求可能要比立即式渲染更高。
从Maxwell架构开始,NVIDIA便一直都在使用不同于以上两种传统渲染方式的渲染技术,其名为“图块渲染”,这种技术在Pascal架构中演变得更加成熟。这种渲染技术的基本理论是“化整为零”,将整个屏幕划分为一个个16*16或者32*32的小区域,然后以每一个小区块为基础对整个画面进行光栅化处理。Maxwell和Pascal GPU可以动态地评估每个帧所需的图块大小,根据场景的复杂度随时调整。
“化整为零”的好处是GPU需要处理的单位画面数据变少,也就是说待渲染数据可以被暂时存储在GPU的L2高速缓存当中。这意味着GPU不必在更大、更慢的显存池中大海捞针,从而减少了显存系统的负载,增加可用于其他任务的可用显存,同时加速渲染速度和渲染质量。此外,这种图块化的渲染方式也很符合GPU的并行运算逻辑,GPU可以根据可用资源同时处理许多独立的图块,在多路显卡系统中的优势更加明显。
从上面的解释中我们不难看出,图块渲染的核心就在于L2缓存,更大的L2缓存将能够提供更多的渲染画面数据存储,于是我们看到由Kepler升级至Maxwell时,L2缓存被增加了8倍,从256KB大幅攀升至2MB,而从Maxwell升级至Pascal时,GP102核心L2容量达到了3MB,再次大幅提升。
本文属于原创文章,如若转载,请注明来源:撞破烟楼寻极致 GTX 1080 Ti首发测试//diy.zol.com.cn/630/6300698.html