详细解读Vega织女星GPU架构,AMD的翻身神器?
Vega GPU 允许在显卡 PCB 上放置 SSD、网络存储等多种形式的基片外存储部件,而且这些存储部件的访问对用户(开发人员)来说是可以像显存一样直接存取的,HBM2 扮演的就是作为 GPU 和外部存储单元的大容量高速缓存。
HBM2 的带宽是 HBM1 的两倍,达到 256GiB/s,根据配置的不同,Vega GPU 可以实现 256GiB/s 或者 512GiB/s 的超高带宽。
Vega GPU 不仅有更快更大的 HBM2,它的 HBCC 还提供了高达 512 TiB 的寻址能力,这样的寻址能力当然不会只用于 HBM 上,在去年 Siggraph 上 AMD 公布的 RADEON PRO SSG 其实就是基于 Vega GPU 的专业显卡,该卡的最大特点就是集成了 1TiB 的 NAND 闪存,可以藉此将海量的数据全部存放到显卡上,不再受限于系统总线和存储一致性(存储一致性就是指各层次存储器中存放的数据确保为最新修改的)的性能约束,AMD 这次就用一块 Vega GPU 显卡进行了数据规模达数 TiB 的豪华卧室场景的成品级真实渲染。
更灵活的几何体渲染
目前的 RADEON GPU 在前端还保留了固定功能单元实现的几何处理硬件,不过 AMD 表示他们已经注意到了越来越多的开发人员使用计算着色器来进行几何处理。
上面两张图都是 PC 游戏《杀出重围:人类分裂》中巨像之城(Golem City)的场景图,下面的则是它的线框图。按照 AMD 的说法,上面这个场景有 2.2 亿个多边形,但是最终输出的画面其实只有 0.02 亿个多边形需要着色处理,明确哪些多边形需要被渲染将能够显著降低渲染负荷。
AMD 为此在 Vega GPU 的几何流水线上引入了名为 Primitive Shader(图元着色器)的全新工位,开发人员可以透过图元着色器,实现高效的几何着色处理。AMD 认为这个新着色器可以让无效图元以极高的比值被舍弃掉,最终将会彻底替换掉现有的固定几何处理功能单元。
为了实现更高效的几何处理性能,AMD 引入了名为 Intelligent Workgroup Dostributor 的工作组分发器,可以支持更多的着色器引擎(NVIDIA 对应的层级单元被称作 GPC,AMD 目前的 GCN 架构最多只有 4 个 着色器引擎),实现更灵活的载荷分配。
按照 AMD 的说法,Vega GPU 现在可以在四个几何引擎的情况下每个周期处理多达 11 个多边形,达到两倍于现有产品的几何处理能力。
更快的GPU微架构
为了实现在某些负载中的计算需求,AMD 在 Vega GPU 中首次引入 packed(紧缩)数学操作支持。例如深度学习,并不需要 GPU 所提供的32 位浮点或者说单精度运算。
在之前的 Fiji 和 Polaris 中,AMD 的单精度(FP32,32 位浮点)性能和半精度(FP16,16 位浮点)是相同速率的,16 位处理的时候,可以有两倍于 32 位的寄存器,不过 NVIDIA 那边的 GP100(Tesla 100 采用的 GPU)还实现了两倍 32 位性能比率的 16 位计算性能。
AMD 在 Vega GPU 上引入了名为 NCU(下一代计算单元)的微架构,这里 NCU 是对应 GCN 中的 CU 而言的,全新的 NCU 支持紧缩(packed)数学处理,每个 NCU 拥有 64 个 ALU,在采用紧缩数学操作指令的时候,可以支持每个周期 512 个 8 位计算,或者 256 个 16 位计算,又或者是 128 个 32 位计算。
AMD 强调 Vega GPU 在提升单线程性能方面上下了不少功夫,包括更高的频率以及更高的 IPC,前者目前还绝对保密,而后者或者说 IPC 方面,AMD 表示 Vega GPU 具备更大的指令缓存,确保指令流可以运行得更持续,尤其是三操作的指令。
AMD 还在 Vega GPU 上对像素着色处理流程进行了大幅度的改进,引入了 AMD 称之为渲染流分仓光栅器(draw-streaming binning rasterizer,简称 DSBR)的下一代像素引擎。
这个 DSBR 实际上类似于 PowerVR 的块元式渲染技术,能让 GPU 更高效地处理像素着色,尤其是具有高度复杂性(意味着大量无效渲染)深度缓存的像素。DSBR 对重叠的图元只拾取、渲染一次,从而显著节省耗电并提升性能,尤其适合于延后式着色操作。
DSBR 会按照 AMD 称之为高速缓存感知化的方式来调度,它先在一个高速缓冲中对一个场景中给定的"对象包"进行尽可能多的处理,然后 GPU 才会清空掉这个高速缓存并拾取其余的数据。DSBR 可以让 GPU 在无需考虑重叠的前后关系的情况下,在复杂的重叠几何体里抓出哪些像素无需渲染,节省掉在最终场景中非可视的像素渲染处理,从而提升性能。
为了让 DSBR 更有效运作,AMD 还对 Vega GPU 的二级高速缓存进行了重大的改进--在以往的 AMD GPU 中,纹理和像素的内存存取是非一致性操作,如果是执行渲染至纹理操作的话,需要先写到内存后,再
- 中国正探寻如何快速进驻HPC芯片领域(03-23)
- 一季度AMD全球处理器市场份额遭英特尔蚕食(07-01)
- 显卡市场份额之争 AMD逐渐让位NVIDIA(08-04)
- AMD 2016-2017 x86处理器路线图曝光(05-08)
- AMD结合显示与传统芯片力拚数据中心市场(05-18)
- 通过创新架构和电源技术提升处理器能效(08-05)