微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 行业新闻动态 > 一文总结AMD Vega架构变革史,Vega显卡真的能实现计算和游戏的大一统吗?

一文总结AMD Vega架构变革史,Vega显卡真的能实现计算和游戏的大一统吗?

时间:06-28 来源:超能网 点击:

自适应、细粒度数据迁移

在《杀出重围:人类分裂》中,启用了HBCC(高带宽缓存控制器)后,GPU的显存寻址效率提升明显,对应所需的显存大小需求更小,从而提升了游戏画面速度。在帧率优化演示中,启用了HBCC后,游戏平均帧数提升了50%,最小帧率提升一倍,游戏画面非常流畅。

演示过程中,AMD还将HBCC的显存寻址上限从4GB缩小到2GB,即便如此,在显卡只能使用一半的显存依旧能获得流畅而稳定的游戏画面,这个就要归功于超高带宽的HBM 2显存和高效率的HBCC。

新一代NCU单元:

AMD GCN架构改了一代又一代,不过测试下来一看,每一代的性能提升并不大。今年在Vega上,AMD也是痛定思痛,设计了"全新"的NCU(Next-Generation Compute Engine)架构,不仅优化了IPC性能,还提高了运算单元的灵活性。

一般来说我们玩游戏、3D渲染对于单精度FP32、双精度FP64要求比较高,而在大规模深度计算中却对半精度FP16有非常高的需求,在深度计算领域先行一步的NVIDIA早就意识到这个问题,率先加入了对FP16半精度支持,半精度性能几乎是双精度的两倍,在深度计算上性能优势十分明显。而AMD在Fiji还是Polaris架构上都慢半拍,没有周全考虑到,导致其专业卡在市场是不受青睐。

因此Vega GPU中首度引入了紧缩的半精度计算支持,Vega的微架构被称为"NCU(下一代计算单元)",每个NCU中拥有64个ALU,它可以灵活地执行紧缩数学操作指令,如每个周期可以进行512个8位数学计算,或者256个16位计算,或者128个32位计算。这不仅充分利用了硬件资源,也大幅度提升Vega在深度学习计算的性能。效果也非常显著,在之前公布的Radeon Instinct MI25计算卡就是基于Vega架构的,其FP32单精度浮点性能12.5TFLOPS,而半精度FP16性能直接翻倍到25TFLOPS。

现有的GCN单元中每个CU计算单元是64个流处理器,实际上是由4组固定16-Wide的单元组成,而Vega显卡的NCU单元中流处理器数目更具灵活性,可以根据工作负载来动态调配。

AMD与NVIDIA在单精度与半精度单元使用上如出一辙,都是可以将两个16bit单元组装成一个完成的32bit单元使用。

现在AMD强调Vega显卡为更高的时钟频率及IPC性能优化,其实Polaris显卡的频率经历RX 400、RX 500两代,频率对比从前已经大有长进,能跑到1500MHz上,不过这也是AMD显卡的上限了。而老对手NVIDIA Pascal显卡起步就是1500MHz水平,Boost频率分分钟能上2000MHz。

既然AMD说明Vega的NCU已经对更高时钟频率作出优化,我们从已经发售的AMD Radeon Vega Frontier Edition专业显卡就知道,最高频率可以达到1600MHz,不过依然是不够出彩,据说RX Vega游戏卡频率将会设定在1630MHz。

下一代计算单元NCU中引入了RPM(Rapid Packed Math),专门用于加速FP16的运算速度,新的着色器可以利用RPM,在AMD一直引以为豪的TressFX毛发渲染中,Radeon RX Vega显卡每秒能渲染的头发数量增加了一倍,因此RPM能够辅助GPU核心进行更快更强的的物理计算。

新一代几何渲染可编程引擎:

几何渲染计算是所有图形渲染的基础,它的重要性不言而喻。不过在过往,AMD一直都是采用固定的流水线来处理几何计算,虽然这种固定的几何着色引擎具有像DSP那样的高效、速度快等优势,但是对于现在的游戏来说,渲染场景变化非常大,这种固定式流水线显得不够灵活。

AMD举出了一个例子,那就是Benchmark杀手的《杀出重围:人类分裂》,在这个Benchmark测试场景中,画面中的物体元素非常复杂,整个场景每个物体共包含2.2亿个多边形需要计算,但是很多物体都是被遮盖,实际上只要输出0.02亿个多边形就能完成画面渲染,其余的多边形根本不需要显示出来,换而言之,多达98%的性能被白白浪费了。

《杀出重围:人类分裂》Benchmark场景

《杀出重围:人类分裂》几何线框渲染图

因此新一代的几何渲染可编程引擎诞生了,灵活地运用几何着色器进行特定的算法优化,将大量不必要的渲染计算全部忽略掉,只保留我们可视部分,从而达到节省硬件资源和能耗、提高游戏性能目的,其实这个也是游戏优化思路之一。

图像除了经过顶点着色器和几何着色器常规处理,Vega架构中还引入了一个全新的Primitive Shader(原始着色器),AMD解释这种新型着色器可以大幅度减少不必要的几何计算,实现更加快速、精简的渲染过程。据说引入这个机制的灵感是因为主机开发者对于主机性能更为敏感,总是要各种花式优化游戏(讲到底就是在你看不到的地方砍渲染精细度,

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top