微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 行业新闻动态 > 移动GPU混战,英特尔和Nvidia互亮杀招

移动GPU混战,英特尔和Nvidia互亮杀招

时间:09-17 来源:3721RD 点击:
Nvidia X1功耗普遍被认为是10W,但实际可能只有5W左右; 跟最新的GPU比,它的性能仍属上乘; 移动游戏需要进行大量FP16运算,这点对Nvidia和英特尔架构是不利的; 新的Nvidia架构和英特尔的驱动器将能驱动2倍的FP16运算,同时有更好的能效表现; 如果Nvidia能卖得更便宜,英特尔和Nvidia还有筹码可以赌一赌。

大家可能认为Nvidia已经退出移动领域的竞赛,尤其当它凭Shield Android TV在主流电视机顶盒市场上一枝独秀。与此同时,英特尔一直在智能手机领域苦苦挣扎,仅在华硕Zenfone 2手机上成绩不错。Nvidia最新Tegra X1产品以显著的功耗为代价实现了极佳的图形处理性能,但英特尔在类似GFXbench这些产品中却表现欠佳。相反,如果采用典型X86架构,这些SoC的表现通常很好。

基于这个问题的特殊性,来分析下英特尔和Nvidia架构的内部特性,我们有一些有意思的发现:

Nvidia Tegra X1的功耗

首先,Tegra X1明显被低估了。通常在Shield Android TV中Tegra X1被当作功耗10W的SoC来采用,但实际上这颗SoC功耗应该更低。

Nvidia出示了一份测试报告,采用一个小的散热片来处理近5W的热源,复制了平板电脑的热表现。Nvidia表示,相同条件下,与苹果的A8X相比,X1可以实现每瓦80%的性能提升。这样考虑到A8X仅有4~5W TDP,同时考虑到各种基准值,Tegra X1有10W TDP是不太可能的。此外,Nvidia声称X1 GPU以最高速度进行1024 GFLOPS(FP16)运算时功耗仅为4W(GPU处理游戏时,CPU负载和功耗很低,所以5W功耗是可信的)。

要知道Tegra K1是基于Kepler,而X1则基于Maxwell。X1采用20nm工艺,Cuda核增加了33%同时GPU频率也提升了17%。考虑到与Kepler架构相比,Maxwell架构每瓦性能有了大幅提升,以及更先进的工艺节点可极大降低功耗,很明显,X1和K1应该有相近的功耗表现(K1是一颗5W TDP SoC)。

Anandtech表示,当Nvidia Shield Android TV要运转一些大型游戏时功耗为19.4W,这也是大家会认为这款SoC的功耗约为10W的原因。但在这种情况下还要考虑到如下一些因素:

如果是80Plus规格的电源,大概要损失20%的效率,意味着实际器件功耗约为15W;
如果AC转换器输出电压不够低,转换过程中主板会产生额外的功率损耗;
相对于智能手机的逻辑主板,带有众多连接器的大型主板会拉高功耗;
以太网端口的存在;
BT模式激活;
WiFi AC模式激活以及负载过轻;
HDMI 4K线缆连接和激活;
测试中2~4.5W SDD的连接和使用;
NAND存储器在工作;
散热风扇。

还要考虑到Shield内的WiFi和BT模块会比一般的移动模块消耗更多的电量,因为不受电源寿命的限制。基于这些因素,大家应该会同意X1的功耗远低于10W。

如果SoC开始工作时的温度比较低,它的功耗可能会超过TDP的额定值,通常为TDP的1.5倍(大约为7~8W),如果散热系统足够好,SoC在全速运转下可能要花相当长的时间才能回复到正常的TDP。因为散热片被连接到一个厚的导热管和一个活跃的散热风扇,X1很可能发生上面的情况:用一根活跃的散热管来冷却一个5W的CPU,这样一个系统将保持全速、极低温度以及低功耗。

说得更清楚些,即如果SoC在80℃下全速运转时功耗为5W,那么在60℃下全速运转时功耗只会更低。

这意味着什么?X1很有可能比我们此前想象的更高效,那么接下来的讨论就有意思了。

FP16/32对移动和PC/控制台的支持
对实际游戏而言浮点运算是很有意思的一个技术。通常,计算机和游戏控制器主要基于FP32运算,这一运算属于耗电大户,同时相比FP16效率更低但也更加精准。移动端的游戏标准则不同,通常采用大量的FP16运算,因为FP16运算功率利用率更高,非常适用于功率受限的应用。它一个明显的问题是精密度不够高,但对于一般游戏和小屏而言这点不构成问题。

如3DMark这样的计算机游戏基准测试套件,更多关注在FP32运算上,而像GFXBench这样主要针对移动游戏领域的基准则比较关注FP16运算。

此外,Android UX也采用一些FP16运算,因此FP16在移动设备中利用率较高。那么问题来了。

GPU FP16支持场景
Nvidia X1 GPU采用Maxwell架构,源于笔记本,意味着在其Cuda核中并没有FP16单元。针对这一问题,Nvidia采用了双速FP16解决方案,让FP16运算仅在有限的应用场景下发挥作用。
通常一款无FP16支持的GPU会在一个FP32单元中集成一个FP16运算单元,FP32单元完成运算,然后转换返给FP16单元,这样会消耗很大电量并占用带宽。X1的替代方案是采用两格FP16运算单元,但仅在特定条件下工作并且要求两个运算单元要完全一致。这让X1可执行远高于512 GFLOPS FP16的运算,但在实际应用中无法达到1024 GFLOPS的运算能力。

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top