移动GPU混战，英特尔和Nvidia互亮杀招

时间：09-17 来源：3721RD 点击：

Nvidia X1功耗普遍被认为是10W，但实际可能只有5W左右；跟最新的GPU比，它的性能仍属上乘；移动游戏需要进行大量FP16运算，这点对Nvidia和英特尔架构是不利的；新的Nvidia架构和英特尔的驱动器将能驱动2倍的FP16运算，同时有更好的能效表现；如果Nvidia能卖得更便宜，英特尔和Nvidia还有筹码可以赌一赌。

大家可能认为Nvidia已经退出移动领域的竞赛，尤其当它凭Shield Android TV在主流电视机顶盒市场上一枝独秀。与此同时，英特尔一直在智能手机领域苦苦挣扎，仅在华硕Zenfone 2手机上成绩不错。Nvidia最新Tegra X1产品以显著的功耗为代价实现了极佳的图形处理性能，但英特尔在类似GFXbench这些产品中却表现欠佳。相反，如果采用典型X86架构，这些SoC的表现通常很好。

基于这个问题的特殊性，来分析下英特尔和Nvidia架构的内部特性，我们有一些有意思的发现：

Nvidia Tegra X1的功耗

首先，Tegra X1明显被低估了。通常在Shield Android TV中Tegra X1被当作功耗10W的SoC来采用，但实际上这颗SoC功耗应该更低。

Nvidia出示了一份测试报告，采用一个小的散热片来处理近5W的热源，复制了平板电脑的热表现。Nvidia表示，相同条件下，与苹果的A8X相比，X1可以实现每瓦80%的性能提升。这样考虑到A8X仅有4~5W TDP，同时考虑到各种基准值，Tegra X1有10W TDP是不太可能的。此外，Nvidia声称X1 GPU以最高速度进行1024 GFLOPS(FP16)运算时功耗仅为4W（GPU处理游戏时，CPU负载和功耗很低，所以5W功耗是可信的）。

要知道Tegra K1是基于Kepler，而X1则基于Maxwell。X1采用20nm工艺，Cuda核增加了33%同时GPU频率也提升了17%。考虑到与Kepler架构相比，Maxwell架构每瓦性能有了大幅提升，以及更先进的工艺节点可极大降低功耗，很明显，X1和K1应该有相近的功耗表现（K1是一颗5W TDP SoC）。

Anandtech表示，当Nvidia Shield Android TV要运转一些大型游戏时功耗为19.4W，这也是大家会认为这款SoC的功耗约为10W的原因。但在这种情况下还要考虑到如下一些因素：

如果是80Plus规格的电源，大概要损失20%的效率，意味着实际器件功耗约为15W；
如果AC转换器输出电压不够低，转换过程中主板会产生额外的功率损耗；
相对于智能手机的逻辑主板，带有众多连接器的大型主板会拉高功耗；
以太网端口的存在；
BT模式激活；
WiFi AC模式激活以及负载过轻；
HDMI 4K线缆连接和激活；
测试中2~4.5W SDD的连接和使用；
NAND存储器在工作；
散热风扇。

还要考虑到Shield内的WiFi和BT模块会比一般的移动模块消耗更多的电量，因为不受电源寿命的限制。基于这些因素，大家应该会同意X1的功耗远低于10W。

如果SoC开始工作时的温度比较低，它的功耗可能会超过TDP的额定值，通常为TDP的1.5倍（大约为7~8W），如果散热系统足够好，SoC在全速运转下可能要花相当长的时间才能回复到正常的TDP。因为散热片被连接到一个厚的导热管和一个活跃的散热风扇，X1很可能发生上面的情况：用一根活跃的散热管来冷却一个5W的CPU，这样一个系统将保持全速、极低温度以及低功耗。

说得更清楚些，即如果SoC在80℃下全速运转时功耗为5W，那么在60℃下全速运转时功耗只会更低。

这意味着什么？X1很有可能比我们此前想象的更高效，那么接下来的讨论就有意思了。

FP16/32对移动和PC/控制台的支持
对实际游戏而言浮点运算是很有意思的一个技术。通常，计算机和游戏控制器主要基于FP32运算，这一运算属于耗电大户，同时相比FP16效率更低但也更加精准。移动端的游戏标准则不同，通常采用大量的FP16运算，因为FP16运算功率利用率更高，非常适用于功率受限的应用。它一个明显的问题是精密度不够高，但对于一般游戏和小屏而言这点不构成问题。

如3DMark这样的计算机游戏基准测试套件，更多关注在FP32运算上，而像GFXBench这样主要针对移动游戏领域的基准则比较关注FP16运算。

此外，Android UX也采用一些FP16运算，因此FP16在移动设备中利用率较高。那么问题来了。

GPU FP16支持场景
Nvidia X1 GPU采用Maxwell架构，源于笔记本，意味着在其Cuda核中并没有FP16单元。针对这一问题，Nvidia采用了双速FP16解决方案，让FP16运算仅在有限的应用场景下发挥作用。
通常一款无FP16支持的GPU会在一个FP32单元中集成一个FP16运算单元，FP32单元完成运算，然后转换返给FP16单元，这样会消耗很大电量并占用带宽。X1的替代方案是采用两格FP16运算单元，但仅在特定条件下工作并且要求两个运算单元要完全一致。这让X1可执行远高于512 GFLOPS FP16的运算，但在实际应用中无法达到1024 GFLOPS的运算能力。

上一篇：剑指全球半导体资源，紫光在下一盘怎样的大棋
下一篇：剧情大反转，AMD处理器加入苹果供应链竞逐阵营

NVIDIA Tegra X1 英特尔 SoC Maxwell SoFIA 相关文章：

栏目分类