Xilinx 16nm UltraScale+器件实现2至5倍的性能功耗比优势
时间:04-13
来源:互联网
点击:
源于ULTRARAM的性能功耗比优势
Myron说通过采用最新大型片上存储器UltraRAM,众多UltraScale+设计相对28nm将获得更多的性能功耗比提升。赛灵思将在大部分UltraScale+器件中新增UltraRAM。
Myron指出:“从根本上来说,片上存储器(如LUT RAM 或分布式RAM和Block RAM)和片外存储器(DDR或片外SRAM等)之间的差距越来越大。有很多处理器密集型应用需要不同类型存储器。尤其是当您设计更大型更复杂的设计时,就更需要较快速的片上存储器。Block RAM太细太少。而如果您将存储器放在片外,不仅会增加功耗,让I/O变得复杂,而且还会增加材料清单(BOM)成本。
这就是赛灵思开发UltraRAM的原因。Myron 指出:“我们所做的就是增加片上存储器分层结构的层数,以及能够在设计中轻松实现大型存储器模块。我们不仅帮助设计人员轻松放置恰当尺寸的片上存储器,而且时序也有保障。”
通过LUT或分布式RAM,设计人员可以添加1b和kb级大小的RAM,而BRAM可让他们添加10 Mb大小的存储器模块。UltraRAM允许采用UltraScale+器件的设计人员用100Mb级的存储器块实现片上SRAM(如图2所示)。这样做,设计人员只需较少量的片外RAM (SRAM、RLDRAM和TCAM)就能够打造出性能/能效更高的系统。同时还会降低材料清单(BOM)成本。最大型的UltraScale+ 器件VU13P具有432 Mb的UltraRAM。
图2 – UltraRAM可填补片上存储器和片外存储器之间的存储器空白,从而使设计人员能够利用较大型的本地存储器模块创建性能更高、功耗更低的系统。
源于SmartConnect的性能功耗比优势
另一项新技术SmartConnect,可进一步提升UltraScale+设计的性能功耗比优势。
Myron说:“SmartConnect是工具和硬件协同优化的结晶,也是一种智能方法,即便设计越来越复杂,也可轻松实现。”
传统上,当工程师在设计中填充的IP模块越多,开销(功耗和占用面积需求)就越大。Myron说借助SmartConnect,赛灵思已向Vivado设计套件增加了一些优化功能,从而可以从系统级层面考虑整个设计。SmartConnect具有最有效的互联拓扑结构,可实现最小的占位面积和最高的性能,从而充分发挥AXI互联的一些最新增强功能以及16nm UltraScale+芯片的优势。
Myron指出:“16nm UltraScale+器件在这个更高的协议层而不仅仅是在路由层上具有更高的效率。这意味着在16nm FinFET优势的基础上进一步提高性能功耗比优势。”
图3展示了一个真实的设计,其含有8个视频处理引擎,所有这些引擎均与处理器和储存器相连。Myron说:也许奇怪,像这样的一个真实世界的设计,互连逻辑竟然差不多占用了设计总面积的一半。这不仅影响功耗,而且还会限制频率。而SmartConnect可以自动重组互连模块并在不影响性能的情况下将功耗降低20%。
16nm ULTRASCALE FPGA标准测试
举例说明FPGA设计方案的性能功耗比优势,在28nm Virtex-7 FPGA中实现的48端口无线CPRI压缩与基带硬件加速器的功耗为56W(如图4)。在同一性能水平下运行的同一设计实现在16nm Virtex UltraScale+ FPGA中,功耗仅为27 W,相比28nm设计功耗降低了55%,性能功耗比提升了2.1倍。加上UltraRAM和SmartConnect提供的额外性能功耗比优势,实现在Virtex UltraScale+中的设计相比28 nm Virtex-7 FPGA实现方案,性能功耗比提升了2.7倍,功耗降低了63%。
同样,在FPGA功耗预算为15W的图像处理PCI模块中,28 nm Virtex-7可实现每秒525次操作的性能。相比之下,实现在16 nm UltraScale中的同一设计则可实现每秒1255次操作的高性能,性能功耗比提升了2.4倍。加上UltraRAM和SmartConnect提供的额外性能功耗比优势,Virtex UltraScale +实现方案相比28 nm Virtex-7 FPGA实现方案,性能功耗飙升3.6倍。
图中文字如下:
在相同性能水平下功耗降低20%
• 专门针对吞吐量、时延和占位面积精心优化
• 可提升互联的性能功耗比
• 智能桥接不同接口类型
互联占位面积
设计占位面积
功耗和占位面积减少20%
采用SmartConnect之前 采用SmartConnect之后
为您的设计匹配互联方式
优化分组
纵横机
仲裁器
直连
提升吞吐量 降低时延
图3 – SmartConnect技术将互联所占用的面积削减达20%,这样在相同性能水平下,功耗可降低20%。
Myron说通过采用最新大型片上存储器UltraRAM,众多UltraScale+设计相对28nm将获得更多的性能功耗比提升。赛灵思将在大部分UltraScale+器件中新增UltraRAM。
Myron指出:“从根本上来说,片上存储器(如LUT RAM 或分布式RAM和Block RAM)和片外存储器(DDR或片外SRAM等)之间的差距越来越大。有很多处理器密集型应用需要不同类型存储器。尤其是当您设计更大型更复杂的设计时,就更需要较快速的片上存储器。Block RAM太细太少。而如果您将存储器放在片外,不仅会增加功耗,让I/O变得复杂,而且还会增加材料清单(BOM)成本。
这就是赛灵思开发UltraRAM的原因。Myron 指出:“我们所做的就是增加片上存储器分层结构的层数,以及能够在设计中轻松实现大型存储器模块。我们不仅帮助设计人员轻松放置恰当尺寸的片上存储器,而且时序也有保障。”
通过LUT或分布式RAM,设计人员可以添加1b和kb级大小的RAM,而BRAM可让他们添加10 Mb大小的存储器模块。UltraRAM允许采用UltraScale+器件的设计人员用100Mb级的存储器块实现片上SRAM(如图2所示)。这样做,设计人员只需较少量的片外RAM (SRAM、RLDRAM和TCAM)就能够打造出性能/能效更高的系统。同时还会降低材料清单(BOM)成本。最大型的UltraScale+ 器件VU13P具有432 Mb的UltraRAM。
图2 – UltraRAM可填补片上存储器和片外存储器之间的存储器空白,从而使设计人员能够利用较大型的本地存储器模块创建性能更高、功耗更低的系统。
源于SmartConnect的性能功耗比优势
另一项新技术SmartConnect,可进一步提升UltraScale+设计的性能功耗比优势。
Myron说:“SmartConnect是工具和硬件协同优化的结晶,也是一种智能方法,即便设计越来越复杂,也可轻松实现。”
传统上,当工程师在设计中填充的IP模块越多,开销(功耗和占用面积需求)就越大。Myron说借助SmartConnect,赛灵思已向Vivado设计套件增加了一些优化功能,从而可以从系统级层面考虑整个设计。SmartConnect具有最有效的互联拓扑结构,可实现最小的占位面积和最高的性能,从而充分发挥AXI互联的一些最新增强功能以及16nm UltraScale+芯片的优势。
Myron指出:“16nm UltraScale+器件在这个更高的协议层而不仅仅是在路由层上具有更高的效率。这意味着在16nm FinFET优势的基础上进一步提高性能功耗比优势。”
图3展示了一个真实的设计,其含有8个视频处理引擎,所有这些引擎均与处理器和储存器相连。Myron说:也许奇怪,像这样的一个真实世界的设计,互连逻辑竟然差不多占用了设计总面积的一半。这不仅影响功耗,而且还会限制频率。而SmartConnect可以自动重组互连模块并在不影响性能的情况下将功耗降低20%。
16nm ULTRASCALE FPGA标准测试
举例说明FPGA设计方案的性能功耗比优势,在28nm Virtex-7 FPGA中实现的48端口无线CPRI压缩与基带硬件加速器的功耗为56W(如图4)。在同一性能水平下运行的同一设计实现在16nm Virtex UltraScale+ FPGA中,功耗仅为27 W,相比28nm设计功耗降低了55%,性能功耗比提升了2.1倍。加上UltraRAM和SmartConnect提供的额外性能功耗比优势,实现在Virtex UltraScale+中的设计相比28 nm Virtex-7 FPGA实现方案,性能功耗比提升了2.7倍,功耗降低了63%。
同样,在FPGA功耗预算为15W的图像处理PCI模块中,28 nm Virtex-7可实现每秒525次操作的性能。相比之下,实现在16 nm UltraScale中的同一设计则可实现每秒1255次操作的高性能,性能功耗比提升了2.4倍。加上UltraRAM和SmartConnect提供的额外性能功耗比优势,Virtex UltraScale +实现方案相比28 nm Virtex-7 FPGA实现方案,性能功耗飙升3.6倍。
图中文字如下:
在相同性能水平下功耗降低20%
• 专门针对吞吐量、时延和占位面积精心优化
• 可提升互联的性能功耗比
• 智能桥接不同接口类型
互联占位面积
设计占位面积
功耗和占位面积减少20%
采用SmartConnect之前 采用SmartConnect之后
为您的设计匹配互联方式
优化分组
纵横机
仲裁器
直连
提升吞吐量 降低时延
图3 – SmartConnect技术将互联所占用的面积削减达20%,这样在相同性能水平下,功耗可降低20%。
在相同性能水平下功耗降低 | 相同功耗下性能提升 |
超过2.7倍 | 超过3.6倍 |
性能功耗比 | 性能功耗比 |
56W | 每秒超过1880次操作 |
总功耗降低63% | 每秒525次操作 采用16 FinFET+的UltraScale架构 |
赛灵思 SoC PSoC ARM Cortex FPGA LTE 物联网 嵌入式 收发器 电源管理 解码器 无线电 相关文章:
- 赛灵思:可编程逻辑不仅已是大势所趋,而且势不可挡(07-24)
- FPGA可帮助搜索引擎降低功耗和碳排放(09-12)
- 基于Spartan-3A DSP的安全视频分析(05-01)
- 赛灵思新版视频入门套件加快视频开发速度(05-29)
- 赛灵思“授之以渔”理论:危机中如何巧降成本(06-04)
- 赛灵思详解新近推出的FPGA领域设计平台(12-16)