微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 行业新闻动态 > 从身世到技术特点,全面解读AMD翻身神器Vega GPU构架

从身世到技术特点,全面解读AMD翻身神器Vega GPU构架

时间:02-21 来源:微型计算机 点击:


DSBR引擎同样通过优化、显著提升执行效率

换言之,DSBR并不直接提升硬件的能力,而是通过削减无效渲染、减轻硬件负担,同样达到提升像素渲染性能的效果。这套机制同时也意味着,节省功耗、降低发热量,具备更高的性能提升潜力。

为配合DSBR的运作,AMD对Vega的缓存架构进行重大改进,GPU的后端单元可以直接访问到片上的二级高速缓存,数据的访问、操作动作直接在此实现。而传统的GPU中,纹理和像素的内存读取操作并不一致,比如渲染纹理操作时,数据要先写到显存中、然后再被读取到纹理缓存里,也就是每一次数据都要来回搬动、效率低下。而如果开发者要执行纹理、像素同步渲染时,程序指令与硬件工作流程就会出现冲突,增加了编程的难度。显然,Vega的改进要渲染流程简单了许多,大量的数据访问都可以在片内二级缓存高效率地完成,对性能的增益显而易见。


Vega的后端渲染单元可直接访问二级缓存

不过,DSBR只是Vega像素渲染的一个可选项,实际的任务还是根据游戏的情况来完成,有的游戏还是对传统架构进行编程,那DSBR暂时还无用武之地。但对支持该特性的新游戏而言,DSBR可以带来显著的效能提升。

NCU:下一代计算单元,为深度学习优化
单精度和双精度计算应用于3D渲染领域,但诸如深度学习等计算任务并不需要用到,它们只需16位半精度浮点计算操作就行。AMD现有的 Fiji和Polaris GPU中没有考虑到这一点,它的半精度性能与32位单精度性能是一样的,而半精度计算需要的寄存器资源却少得多,也就是说AMD没有对此作优化。与之相比,英伟达的Tesla 100加速卡,半精度性能就达到双精度的两倍,这让它在通用计算中占据性能优势。

为此,Vega GPU中首度引入了名为"Packed(紧缩)"的半精度计算支持,Vega的微架构被称为"NCU(下一代计算单元)",每个NCU中拥有64个ALU,它可以灵活地执行紧缩数学操作指令,如每个周期可以进行512个8位数学计算,或者256个16位计算,或者128个32位计算-这不仅充分利用了硬件资源,也大幅度提升Vega在深度学习计算的性能。

Vega GPU的性能推算
Vega的架构改进,给业界带来很大的想象力,但它的性能究竟能达到何种级别,还是存在很大的悬念。虽然基于Vega GPU的显卡尚未发布,但AMD在去年12月份却带来一款Radeon Instinct MI25 计算卡的消息,它所搭载的就是Vega GPU芯片。


Radeon Instinct MI25 计算卡

Radeon Instinct MI25计算卡针对深度学习领域,GPU中直接集成了16GB容量的HBM2高速缓存(对应显卡则是显存),卡上另外还集成了1TB容量的NAND闪存,海量的计算数据可以直接放在这块存储器中,而不必经过系统内存再到传统硬盘上,由此满足大计算量所需的高速交换需求。M125的16位半精度浮点性能达到25TFLOPS,而用于3D渲染的32位单精度浮点性能也达到12.5TFLOPs,与之相比,目前AMD的主力显卡RX 480的单精度浮点性能只有5.8 TFLOPs-我们可以简单得出这样的推论,Vega GPU的3D渲染性能,理论上将能达到目前RX480显卡的两倍左右。

而在Radeon Instinct MI25的发布会上,AMD同样展示了基于Vega GPU的下一代Radeon显卡的测试成绩,AMD在现场使用《DOOM2016》进行了演示,游戏配置为4K@60Hz分辨率、Ultra 画面。这块显卡的显存只有8GB容量,在实际测试中,游戏帧数达到60~70fps的性能,整体相当于NVIDIA的 GTX 1070、1080之间。考虑到展示卡是早期版本、规格也不高,能达到这样的性能足以让外界振奋,这让我们想到图形双雄并立的美好时光。

Radeon Instinct 平台:Vega进军深度学习市场
AMD对Vega GPU在图形领域的实力秘而不宣,但在吹风会上,它将Vega的应用重点更多放在机器学习领域。为此,AMD专门发布了新的AI 计算子品牌"Radeon Instinct",该平台包括硬件的加速卡和ROCm软件平台,我们前面提到的Radeon Instinct MI25计算卡就是加速卡中的旗舰型号。ROCm软件平台更为我们所关注。

我们知道,NVIDIA占据通用计算市场,除了Tesla加速卡在硬件性能方面的优势外,更重要的它提供了软件解决方案,借助它的方案,开发者能够编制出相应的Tesla加速程序。由于Tesla在并行计算应用中比传统的CPU优势巨大,方案一出就快速获得业界的接受,并成为事实上的市场热门标准,以至于英特尔都无法在密集计算市场与之争锋。NVIDIA现在将他们的GPU定位于AI、神经网络的首选的计算平台,并开始转型将自身定位于AI计算公司,而不是单单停留在传统的游戏显卡市场。这对于AMD显然是非常大的刺激,现在AMD也想在该AI计算获得突破,那么光靠Vega平台的硬件实力显然不行,ROCm软件平台的出台就是为了解决开发环境支持的短板。

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top