从身世到技术特点,全面解读AMD翻身神器Vega GPU构架
Vega GPU的逻辑架构示意
在今年一月份的CES展会上,AMD对外披露了Vega的部分技术细节,虽然关键的性能指标还不得而知,但我们还是可以从下列资料中可以看出Vega所具有的巨大潜力。而总结起来,Vega将有以下四大技术要点,分别是:革命性的存储架构、更灵活的几何渲染、高级像素引擎以及NCU下一代计算单元。
革命性的存储架构:HBM2+ HBCC
Fiji架构中引入的HBM(高带宽)显存是AMD的独门绝技,在2015年这项技术引入时确实引起业界的瞩目。HBM架构将显存的管芯(DIE)与GPU的DIE集成在同一个基片上,等于图形处理器本身就集成了显存,这样,显卡的PCB板上就没有传统的显存,只需要供电电路和输出接口元器件,显卡的尺寸可以变得非常之小-相当于笔记本显卡模块的尺寸,作为当时的高端显卡,Fiji的高集成度和小尺寸因此给人留下深刻印象。再者,HBM的显存以3D堆叠的方式封装在一起,单枚芯片的传输位宽可以达到1024bit,相当于GDDR5的32倍之多!我们知道,传输带宽等于位宽乘以频率,HBM具有高位宽的优势,显存的频率就可以大大降低,在Fiji中它的频率只有1GHz,每个显存堆栈的带宽突破100GB/s,比GDDR5的传统方案高出数倍!
AMD Vega GPU与HBM2显存
AMD现有Radeon R9 GPU与HBM显存
由于显存芯片的工作频率低,第一代HBM仅需要1.3V电压、低于GDDR5的1.5V,而它的每瓦特传输性能达到35GB/s,也比GDDR5的10GB/s快出3.5倍之多!
不过第一代HBM存在显存容量低的问题,旗舰显卡Radeon Fury X也只能提供4GB容量,在应付大型游戏时这点显存显然是杯水车薪。而这次Vega架构引入了升级的第二代HBM方案,在继承高性能、低功耗、高集成度的同时,将显存容量提升到8GB和16GB多个规格,消除了容量不足的瓶颈。同时,HBM2 的带宽达到HBM1的两倍,可以实现256GB/s 或512GB/s的超高传输性能。
HBM2堆叠内存方案可以获得显著的容量、空间优势
如果说HBM2只是寻常的改良升级,Vega存储架构的真正革命之处在于,它对显存控制器进行全新的设计,并称为HBCC(高带宽高速缓存控制器)。HBCC除了连接前面说的HBM2集成显存外,还可以连接显卡PCB上放置的SSD、网络存储等多种形式的基片外存储部件,而它的寻址能力高达512TB!开发者可以像使用显存一样直接使用这些部件,而HBM2显存此时则作为GPU与外部存储单元的高速缓存来使用-我们稍稍转变一下思路,将Vega GPU视作是传统的CPU,显存就是内存,外部存储就是硬盘,很简单就会得出结论:基于Vega的计算卡不只是显卡、同时还是一部独立的计算机,这显然是为通用计算和认知计算所准备。
Vega GPU的高速缓存控制器示意
几何渲染引擎:更灵活、更快速
几何计算是3D渲染的基础,在AMD的GPU中,几何渲染还是由固定的几何着色引擎来完成。专属硬件的优点是运行效率高、速度快,缺点是硬件处理缺乏灵活性,每一次几何计算都必须机械化地执行,而很难进行优化。
我们举一个例子,右边两张图片分别是PC游戏《杀出重围:人类分裂》中的巨像之城(Golem City)的场景和该场景的几何线框图。AMD介绍说,这幅场景有多达2.2亿个多边形需要进行计算,但最终输出的画面其实只有 0.02 亿个多边形,也就是大多数的多边形,其实都是后台计算、不需要被显示出来,但它们耗费了超过98%的计算资源。
《杀出重围:人类分裂》游戏中的场景
《杀出重围:人类分裂》游戏场景对应的几何线框图
有鉴于此,越来越多的开发者抛弃了传统的几何单元,改用灵活的计算着色器来进行几何处理-通过对算法的优化,可以将大量的中间计算省略,达到节省硬件资源、提高游戏性能的目的。
AMD在Vega架构中,也引入了这套机制--Vega GPU的几何流水线中新增了名为 Primitive Shader(图元着色器)的新型计算单元,这个新的着色器可以舍弃大量的无效几何计算,从而精简、快速地完成任务。AMD的最终目标是彻底抛弃传统的几何单元、以这套灵活的着色器来代替它。
此外,为了持续提升几何处理性能,AMD还引入了名为"Intelligent Workgroup Dostributor(智能工作组分发器)"的计算单元,它可以支持更多的着色器引擎,并且可以根据负载情况智能地在各引擎间分配几何计算任务。而当前AMD的GCN架构最多只支持4个几何着色引擎,没有增强的潜力。而即便在同样4个着色引擎的情况下,Vega GPU每周期也能处理11个多边形、相当于现有产品的两倍。
Vega中的智能工作组分发器,允许支持更多的几何引擎。
Vega的几何效率提升了两倍
下一代像素引擎
Vega的像素着色引擎同样进行大量的优化,AMD将它称为Draw-streaming binning rasterizer(简称 DSBR,渲染流分仓光栅器)。
DSBR引擎在执行效率上获得质的飞跃,我们知道,复杂的3D画面,需要进行大量的渲染,而其中绝大多数的工作都是位于后台,真正展现出最终画面的有效渲染只占据极小的部分-这与我们前面说的几何渲染类似。之前AMD GPU对此并没有很好的优化,都是直接进入到渲染环节。而DSBR引擎则对工作流程作了优化:它会先在一个高速缓存中对3D场景给定的对象预先处理,然后GPU清空掉这个缓存、再拾取起其余的数据。而DSBR就可以让GPU抓取出有效渲染和非可视像素的无效渲染,并将无效的渲染操作省略掉,只专注于可视部分的像素渲染。
- 中国正探寻如何快速进驻HPC芯片领域(03-23)
- 一季度AMD全球处理器市场份额遭英特尔蚕食(07-01)
- 显卡市场份额之争 AMD逐渐让位NVIDIA(08-04)
- AMD 2016-2017 x86处理器路线图曝光(05-08)
- AMD结合显示与传统芯片力拚数据中心市场(05-18)
- 通过创新架构和电源技术提升处理器能效(08-05)