降低SoC中互连部分的功耗
时间:07-17
来源:互联网
点击:
事务、传输和物理层
NoC技术采用了一种三层协议,其中事务层作为最高层。该技术使用AMBA、PIF、OCP或其它工业标准协议执行所要求的读写操作,同时也是对于通过互连连接的IP模块的设计师来说,也是可见的接口。
NoC中的传输层协议由网络接口单元(NIU)进行管理。它为每个事务创建一个或多个数据包。所有数据包都一个包头。读数据包和写数据包都在包头后包含数据载荷。包头将地址、事务参数和边带信号作为域进行解码。NIU控制显著的事务和带标签的序列。包头格式是最小的,并针对每个NoC作了不同程度的优化。包头在互连内的每个伪开关处将来自发起者的请求路由到目标,并将来自目标的响应路由到发起者。请求和响应路径是独立的,因此可以消除逻辑和架构方面的依赖性,从而避免死锁。
图7:将地址/控制信号与事务接口和包传输接口间的数据复用起来可以简化互连设计。
模块化设计支持使用非常简单的协议在物理层上传输传送包。这种协议由以下信号组成:
●Data [N 位] (由发送者驱动)
●Valid [1 位] (由发送者驱动)
● Ready [1 位] (由接收者驱动)
“Valid”和“Ready”实现流程控制,支持后压式反馈。这种简单的握手协议存在于NoC的所有单元之间。简单接口标准化后允许所有单元可交换地连接在一起,就像儿童的积木一样。
时钟树选通
利用众所周知的芯片设计方法,可以在不要求触发的周期内选通每个触发器端的时钟。这种方法适用于采用所有互连技术的触发器,不过不能解决时钟树功耗问题。
时钟树是个单一信号,因此比数据路径要窄得多。然而,为了到达所有物理上分布的触发器,时钟树比每个数据路径位有多得多的基本特征。根据定义,时钟在每个时钟周期内会触发两次,因此时钟树的功耗一般要显著大于数据路径。
在交叉矩阵中,每个时钟网络即使在数据不流动时也会触发。虽然理论上在交叉矩阵中的任何地方都没有数据传送时仍能在周期中实现到所有交叉矩阵逻辑的时钟选通,但有些不切实际。它要求对多个远端信号进行大的时钟选通复用,以产生激活信号并回送至多个远端触发器。
因此,用组合逻辑的最简模块搭建互连可以实现单元级时钟选通功能,并且其颗粒远比单片交叉矩阵中的精细得多。
图8:通过模块化方法搭建互连就可以使用组合逻辑的单元级时钟选通功能。
只有在有效的握手信号有效时单元内和单元间的寄存器才会触发,用于指示数据业务的存在。选通逻辑对每个单元来说是局部的,因此路径更短,并且最大限度地减少了产生激活信号所需的复用电路。时钟选通是分布式的,模块化互连的每个模块在空闲时钟周期时关闭,而不管系统余下部分的状态。这样可以实现接近理想的最小开关功耗。
模块化的其它好处
除了时钟选通外,其它好处包括改进了混合式阈值电压(Vt)综合的使用、减少了漏电功耗、改善了逻辑简易性,并实现了局部化。
在小模块之间的任何地方插入管线结构以满足最小延时时序要求提高了综合工具收敛时序的能力。由于有更大的余量,综合有效减少了从默认高Vt单元到更快的低Vt单元的路径数量。这样,模块化设计单元之间的管线结构就能减少漏电功耗。另外,更容易的时序收敛也能改善EDA工具的使用,有助于实现最小面积方面的最优化(更小的裸片面积可减少漏电功耗)。
64位AXI事务接口协议要求至少272条走线。对于模块化方法来说,一个64位数据包接口要求148条线(每个请求响应网络中有64位数据+8字节激活+ready+valid=74)。因此,将事务打包并在发起者和目标传输时可以将芯片底层规划内的走线数量减少1.8倍(272/148=1.8)。
因为这种方法针对单元之间的接口使用的是简单物理层协议,所以很容易改变包数据的串行化处理。全部要求就是简单的复用器和寄存器,以便减小数据路径宽度。
改变数据路径的串行化处理方式,使之不超过满足芯片不同部分的带宽要求所需的宽度,可以减少芯片所有部分的互连逻辑面积,而且这些芯片都要求小于最大带宽。一般来说,大多数芯片中的绝大部分顶层互连不要求最大带宽。
局部化
将接口之间的复用器等单元实现局部化处理后,单元之间的走线平均长度将变短。这意味着走线电容使得电流的消耗变得更小。这样还能简化后端版图工艺,因为它能减少远距离放置的逻辑之间对连接的依赖性。
机顶盒(STB)SoC上的结果
支持1080p120帧的中端机顶盒SoC就使用了模块化NoC互连,它展示了模块化方法的优势。这种模型使用了11个主器件和6个从NIU的互连,消耗的逻辑面积是183k个门。
我们分析了三种时钟选通式开关活动场景。首先是最差的视频处理场景,其中被设为120Hz显示输出的视频解码器和CPU是系统的主要负载,它们消耗了几乎所有可用的DDR内存带宽。
第二种场景则呈现了普通案例视频解码器的复杂性。第三种场景没有视频解码,只是用网络浏览方式,可实现每秒30帧的中等显示刷新率。
交叉矩阵在DDR活动期间的每个周期都必须要激活,因此在第一种情况下模块化设计通过触发DDR活动可以降低2.3倍的功耗,第二种情况是2.5倍,第三种情况是3.4倍。
在待机场景,模块化NoC互连展示了比交叉矩阵更强的触发节省效果。另外,更大的芯片有更多的主NIU逻辑要访问同样受限的共享资源。这些芯片需要用更大比例的时间选通更多数量的触发器。因此对模块化NoC设计来说触发节省效果随着芯片尺寸的增加而增强。
电源管理 SoC 电容 总线 数字电视 机顶盒 电压 电路 EDA 电流 解码器 相关文章:
- 嵌入式系统电源管理软件比较(02-16)
- 在异步SRAM中实现速度与功耗的完美平衡(01-03)
- SoC:IP是新的抽象(10-24)
- 图形化系统设计加速应用实现和创新(11-04)
- 如何提高芯片级封装集成电路的热性能(03-16)
- 14nm的FPGA需要什么样的电源管理IC?(06-04)