一文总结AMD Vega架构变革史，Vega显卡真的能实现计算和游戏的大一统吗？

时间：06-28 来源：超能网点击：

自适应、细粒度数据迁移

在《杀出重围：人类分裂》中，启用了HBCC（高带宽缓存控制器）后，GPU的显存寻址效率提升明显，对应所需的显存大小需求更小，从而提升了游戏画面速度。在帧率优化演示中，启用了HBCC后，游戏平均帧数提升了50%，最小帧率提升一倍，游戏画面非常流畅。

演示过程中，AMD还将HBCC的显存寻址上限从4GB缩小到2GB，即便如此，在显卡只能使用一半的显存依旧能获得流畅而稳定的游戏画面，这个就要归功于超高带宽的HBM 2显存和高效率的HBCC。

新一代NCU单元：

AMD GCN架构改了一代又一代，不过测试下来一看，每一代的性能提升并不大。今年在Vega上，AMD也是痛定思痛，设计了"全新"的NCU（Next-Generation Compute Engine）架构，不仅优化了IPC性能，还提高了运算单元的灵活性。

一般来说我们玩游戏、3D渲染对于单精度FP32、双精度FP64要求比较高，而在大规模深度计算中却对半精度FP16有非常高的需求，在深度计算领域先行一步的NVIDIA早就意识到这个问题，率先加入了对FP16半精度支持，半精度性能几乎是双精度的两倍，在深度计算上性能优势十分明显。而AMD在Fiji还是Polaris架构上都慢半拍，没有周全考虑到，导致其专业卡在市场是不受青睐。

因此Vega GPU中首度引入了紧缩的半精度计算支持，Vega的微架构被称为"NCU（下一代计算单元）"，每个NCU中拥有64个ALU，它可以灵活地执行紧缩数学操作指令，如每个周期可以进行512个8位数学计算，或者256个16位计算，或者128个32位计算。这不仅充分利用了硬件资源，也大幅度提升Vega在深度学习计算的性能。效果也非常显著，在之前公布的Radeon Instinct MI25计算卡就是基于Vega架构的，其FP32单精度浮点性能12.5TFLOPS，而半精度FP16性能直接翻倍到25TFLOPS。

现有的GCN单元中每个CU计算单元是64个流处理器，实际上是由4组固定16-Wide的单元组成，而Vega显卡的NCU单元中流处理器数目更具灵活性，可以根据工作负载来动态调配。

AMD与NVIDIA在单精度与半精度单元使用上如出一辙，都是可以将两个16bit单元组装成一个完成的32bit单元使用。

现在AMD强调Vega显卡为更高的时钟频率及IPC性能优化，其实Polaris显卡的频率经历RX 400、RX 500两代，频率对比从前已经大有长进，能跑到1500MHz上，不过这也是AMD显卡的上限了。而老对手NVIDIA Pascal显卡起步就是1500MHz水平，Boost频率分分钟能上2000MHz。

既然AMD说明Vega的NCU已经对更高时钟频率作出优化，我们从已经发售的AMD Radeon Vega Frontier Edition专业显卡就知道，最高频率可以达到1600MHz，不过依然是不够出彩，据说RX Vega游戏卡频率将会设定在1630MHz。

下一代计算单元NCU中引入了RPM（Rapid Packed Math），专门用于加速FP16的运算速度，新的着色器可以利用RPM，在AMD一直引以为豪的TressFX毛发渲染中，Radeon RX Vega显卡每秒能渲染的头发数量增加了一倍，因此RPM能够辅助GPU核心进行更快更强的的物理计算。

新一代几何渲染可编程引擎:

几何渲染计算是所有图形渲染的基础，它的重要性不言而喻。不过在过往，AMD一直都是采用固定的流水线来处理几何计算，虽然这种固定的几何着色引擎具有像DSP那样的高效、速度快等优势，但是对于现在的游戏来说，渲染场景变化非常大，这种固定式流水线显得不够灵活。

AMD举出了一个例子，那就是Benchmark杀手的《杀出重围：人类分裂》，在这个Benchmark测试场景中，画面中的物体元素非常复杂，整个场景每个物体共包含2.2亿个多边形需要计算，但是很多物体都是被遮盖，实际上只要输出0.02亿个多边形就能完成画面渲染，其余的多边形根本不需要显示出来，换而言之，多达98%的性能被白白浪费了。

《杀出重围：人类分裂》Benchmark场景

《杀出重围：人类分裂》几何线框渲染图

因此新一代的几何渲染可编程引擎诞生了，灵活地运用几何着色器进行特定的算法优化，将大量不必要的渲染计算全部忽略掉，只保留我们可视部分，从而达到节省硬件资源和能耗、提高游戏性能目的，其实这个也是游戏优化思路之一。

图像除了经过顶点着色器和几何着色器常规处理，Vega架构中还引入了一个全新的Primitive Shader（原始着色器），AMD解释这种新型着色器可以大幅度减少不必要的几何计算，实现更加快速、精简的渲染过程。据说引入这个机制的灵感是因为主机开发者对于主机性能更为敏感，总是要各种花式优化游戏（讲到底就是在你看不到的地方砍渲染精细度，

上一篇：AMD芯片遭遇最大难题，7nm这条路为啥这么难走
下一篇：AMD公布2017第二季度财报营业额同比上涨19%

AMD Vega架构 Vega游戏卡显卡相关文章：

栏目分类