从身世到技术特点，全面解读AMD翻身神器Vega GPU构架

时间：02-21 来源：微型计算机点击：

Vega GPU的逻辑架构示意

在今年一月份的CES展会上，AMD对外披露了Vega的部分技术细节，虽然关键的性能指标还不得而知，但我们还是可以从下列资料中可以看出Vega所具有的巨大潜力。而总结起来，Vega将有以下四大技术要点，分别是：革命性的存储架构、更灵活的几何渲染、高级像素引擎以及NCU下一代计算单元。

革命性的存储架构：HBM2+ HBCC
Fiji架构中引入的HBM（高带宽）显存是AMD的独门绝技，在2015年这项技术引入时确实引起业界的瞩目。HBM架构将显存的管芯（DIE）与GPU的DIE集成在同一个基片上，等于图形处理器本身就集成了显存，这样，显卡的PCB板上就没有传统的显存，只需要供电电路和输出接口元器件，显卡的尺寸可以变得非常之小-相当于笔记本显卡模块的尺寸，作为当时的高端显卡，Fiji的高集成度和小尺寸因此给人留下深刻印象。再者，HBM的显存以3D堆叠的方式封装在一起，单枚芯片的传输位宽可以达到1024bit，相当于GDDR5的32倍之多！我们知道，传输带宽等于位宽乘以频率，HBM具有高位宽的优势，显存的频率就可以大大降低，在Fiji中它的频率只有1GHz，每个显存堆栈的带宽突破100GB/s，比GDDR5的传统方案高出数倍！

AMD Vega GPU与HBM2显存

AMD现有Radeon R9 GPU与HBM显存

由于显存芯片的工作频率低，第一代HBM仅需要1.3V电压、低于GDDR5的1.5V，而它的每瓦特传输性能达到35GB/s，也比GDDR5的10GB/s快出3.5倍之多！

不过第一代HBM存在显存容量低的问题，旗舰显卡Radeon Fury X也只能提供4GB容量，在应付大型游戏时这点显存显然是杯水车薪。而这次Vega架构引入了升级的第二代HBM方案，在继承高性能、低功耗、高集成度的同时，将显存容量提升到8GB和16GB多个规格，消除了容量不足的瓶颈。同时，HBM2 的带宽达到HBM1的两倍，可以实现256GB/s 或512GB/s的超高传输性能。

HBM2堆叠内存方案可以获得显著的容量、空间优势

如果说HBM2只是寻常的改良升级，Vega存储架构的真正革命之处在于，它对显存控制器进行全新的设计，并称为HBCC（高带宽高速缓存控制器）。HBCC除了连接前面说的HBM2集成显存外，还可以连接显卡PCB上放置的SSD、网络存储等多种形式的基片外存储部件，而它的寻址能力高达512TB！开发者可以像使用显存一样直接使用这些部件，而HBM2显存此时则作为GPU与外部存储单元的高速缓存来使用-我们稍稍转变一下思路，将Vega GPU视作是传统的CPU，显存就是内存，外部存储就是硬盘，很简单就会得出结论：基于Vega的计算卡不只是显卡、同时还是一部独立的计算机，这显然是为通用计算和认知计算所准备。

Vega GPU的高速缓存控制器示意

几何渲染引擎：更灵活、更快速
几何计算是3D渲染的基础，在AMD的GPU中，几何渲染还是由固定的几何着色引擎来完成。专属硬件的优点是运行效率高、速度快，缺点是硬件处理缺乏灵活性，每一次几何计算都必须机械化地执行，而很难进行优化。

我们举一个例子，右边两张图片分别是PC游戏《杀出重围：人类分裂》中的巨像之城（Golem City）的场景和该场景的几何线框图。AMD介绍说，这幅场景有多达2.2亿个多边形需要进行计算，但最终输出的画面其实只有 0.02 亿个多边形，也就是大多数的多边形，其实都是后台计算、不需要被显示出来，但它们耗费了超过98%的计算资源。

《杀出重围：人类分裂》游戏中的场景

《杀出重围：人类分裂》游戏场景对应的几何线框图

有鉴于此，越来越多的开发者抛弃了传统的几何单元，改用灵活的计算着色器来进行几何处理-通过对算法的优化，可以将大量的中间计算省略，达到节省硬件资源、提高游戏性能的目的。

AMD在Vega架构中，也引入了这套机制--Vega GPU的几何流水线中新增了名为 Primitive Shader（图元着色器）的新型计算单元，这个新的着色器可以舍弃大量的无效几何计算，从而精简、快速地完成任务。AMD的最终目标是彻底抛弃传统的几何单元、以这套灵活的着色器来代替它。

此外，为了持续提升几何处理性能，AMD还引入了名为"Intelligent Workgroup Dostributor（智能工作组分发器）"的计算单元，它可以支持更多的着色器引擎，并且可以根据负载情况智能地在各引擎间分配几何计算任务。而当前AMD的GCN架构最多只支持4个几何着色引擎，没有增强的潜力。而即便在同样4个着色引擎的情况下，Vega GPU每周期也能处理11个多边形、相当于现有产品的两倍。

Vega中的智能工作组分发器，允许支持更多的几何引擎。

Vega的几何效率提升了两倍

下一代像素引擎
Vega的像素着色引擎同样进行大量的优化，AMD将它称为Draw-streaming binning rasterizer（简称 DSBR，渲染流分仓光栅器）。

DSBR引擎在执行效率上获得质的飞跃，我们知道，复杂的3D画面，需要进行大量的渲染，而其中绝大多数的工作都是位于后台，真正展现出最终画面的有效渲染只占据极小的部分-这与我们前面说的几何渲染类似。之前AMD GPU对此并没有很好的优化，都是直接进入到渲染环节。而DSBR引擎则对工作流程作了优化：它会先在一个高速缓存中对3D场景给定的对象预先处理，然后GPU清空掉这个缓存、再拾取起其余的数据。而DSBR就可以让GPU抓取出有效渲染和非可视像素的无效渲染，并将无效的渲染操作省略掉，只专注于可视部分的像素渲染。

上一篇：别解释了，高通将骁龙处理器改名不就为了这点野心？
下一篇：小米这次玩真的，澎湃S2流片归来能带来多少奇迹？

AMD VEGA 构架 GPU 相关文章：

栏目分类