Xilinx 16nm UltraScale+器件实现2至5倍的性能功耗比优势

时间：04-13 来源：互联网点击：

源于ULTRARAM的性能功耗比优势

Myron说通过采用最新大型片上存储器UltraRAM，众多UltraScale+设计相对28nm将获得更多的性能功耗比提升。赛灵思将在大部分UltraScale+器件中新增UltraRAM。

Myron指出：“从根本上来说，片上存储器（如LUT RAM 或分布式RAM和Block RAM）和片外存储器（DDR或片外SRAM等）之间的差距越来越大。有很多处理器密集型应用需要不同类型存储器。尤其是当您设计更大型更复杂的设计时，就更需要较快速的片上存储器。Block RAM太细太少。而如果您将存储器放在片外，不仅会增加功耗，让I/O变得复杂，而且还会增加材料清单（BOM）成本。

这就是赛灵思开发UltraRAM的原因。Myron 指出：“我们所做的就是增加片上存储器分层结构的层数，以及能够在设计中轻松实现大型存储器模块。我们不仅帮助设计人员轻松放置恰当尺寸的片上存储器，而且时序也有保障。”

通过LUT或分布式RAM，设计人员可以添加1b和kb级大小的RAM，而BRAM可让他们添加10 Mb大小的存储器模块。UltraRAM允许采用UltraScale+器件的设计人员用100Mb级的存储器块实现片上SRAM（如图2所示）。这样做，设计人员只需较少量的片外RAM (SRAM、RLDRAM和TCAM)就能够打造出性能/能效更高的系统。同时还会降低材料清单（BOM）成本。最大型的UltraScale+ 器件VU13P具有432 Mb的UltraRAM。

图2 – UltraRAM可填补片上存储器和片外存储器之间的存储器空白，从而使设计人员能够利用较大型的本地存储器模块创建性能更高、功耗更低的系统。

源于SmartConnect的性能功耗比优势

另一项新技术SmartConnect，可进一步提升UltraScale+设计的性能功耗比优势。

Myron说：“SmartConnect是工具和硬件协同优化的结晶，也是一种智能方法，即便设计越来越复杂，也可轻松实现。”

传统上，当工程师在设计中填充的IP模块越多，开销（功耗和占用面积需求）就越大。Myron说借助SmartConnect，赛灵思已向Vivado设计套件增加了一些优化功能，从而可以从系统级层面考虑整个设计。SmartConnect具有最有效的互联拓扑结构，可实现最小的占位面积和最高的性能，从而充分发挥AXI互联的一些最新增强功能以及16nm UltraScale+芯片的优势。

Myron指出：“16nm UltraScale+器件在这个更高的协议层而不仅仅是在路由层上具有更高的效率。这意味着在16nm FinFET优势的基础上进一步提高性能功耗比优势。”

图3展示了一个真实的设计，其含有8个视频处理引擎，所有这些引擎均与处理器和储存器相连。Myron说：也许奇怪，像这样的一个真实世界的设计，互连逻辑竟然差不多占用了设计总面积的一半。这不仅影响功耗，而且还会限制频率。而SmartConnect可以自动重组互连模块并在不影响性能的情况下将功耗降低20%。

16nm ULTRASCALE FPGA标准测试

举例说明FPGA设计方案的性能功耗比优势，在28nm Virtex-7 FPGA中实现的48端口无线CPRI压缩与基带硬件加速器的功耗为56W（如图4）。在同一性能水平下运行的同一设计实现在16nm Virtex UltraScale+ FPGA中，功耗仅为27 W，相比28nm设计功耗降低了55%，性能功耗比提升了2.1倍。加上UltraRAM和SmartConnect提供的额外性能功耗比优势，实现在Virtex UltraScale+中的设计相比28 nm Virtex-7 FPGA实现方案，性能功耗比提升了2.7倍，功耗降低了63%。
同样，在FPGA功耗预算为15W的图像处理PCI模块中，28 nm Virtex-7可实现每秒525次操作的性能。相比之下，实现在16 nm UltraScale中的同一设计则可实现每秒1255次操作的高性能，性能功耗比提升了2.4倍。加上UltraRAM和SmartConnect提供的额外性能功耗比优势，Virtex UltraScale +实现方案相比28 nm Virtex-7 FPGA实现方案，性能功耗飙升3.6倍。

图中文字如下：
在相同性能水平下功耗降低20%

• 专门针对吞吐量、时延和占位面积精心优化
• 可提升互联的性能功耗比
• 智能桥接不同接口类型

互联占位面积
设计占位面积

功耗和占位面积减少20%
采用SmartConnect之前采用SmartConnect之后

为您的设计匹配互联方式

优化分组
纵横机
仲裁器
直连

提升吞吐量降低时延
图3 – SmartConnect技术将互联所占用的面积削减达20%，这样在相同性能水平下，功耗可降低20%。

在相同性能水平下功耗降低	相同功耗下性能提升
超过2.7倍	超过3.6倍
性能功耗比	性能功耗比
56W	每秒超过1880次操作
总功耗降低63%	每秒525次操作采用16 FinFET+的UltraScale架构

上一篇：零基础学FPGA （二十五）一路走来：SDR SDRAM（架构篇）
下一篇：FPGA实战演练逻辑篇22：扩展子板设计概述

栏目分类