微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 嵌入式设计 > 基于Xtensa可配置处理器技术的视频加速引擎开发技术

基于Xtensa可配置处理器技术的视频加速引擎开发技术

时间:10-31 来源:互联网 点击:

器管理部件(MMU)

d. 包含或者不包含系统总线接口

e. 系统总线宽度和局部存储器接口宽度

f. 局部(紧密耦合)存储器大小和数量。

g. 中断数量及中断类型和中断优先级。

(ii) 扩展选项:增加设计人员自己定义的功能部件,包括:

a. 寄存器和寄存器文件。

b. 多周期、仲裁复杂指令功能部件。

c. 单指令流多数据流SIMD功能部件。

d. 将单发射处理器变为多发射处理器。

e. 用户定制接口,可以直接对数据通路进行读写操作,例如,类似GPIO(通用输入/输出)引脚的处理器内核端口或者引脚,用于扩展先进先出FIFO队列的队列接口(可以与其它逻辑或者处理器内核进行接口)。

配置选项的好处是让设计人员通过仅选择与其应用有关的选项,就可以构建一个规模适度的处理器,并能够满足其特定应用。扩展选项的好处是让设计人员根据应用定制处理器,包括建立专用指令、寄存器文件、功能部件和相关接口,用于加速系统应用算法的执行。

4、自动化软件开发工具套件支持

可配置和可扩展的关键是不仅能够自动产生预先经过验证的RTL代码,用于设计人员定制处理器(包括所有系统扩展功能),而且还能够自动产生完整的软件工具,包括一个与处理器相匹配并经过优化的开发工具套件、一个基于时钟周期的指令集仿真器以及系统模型。

这种自动化意味着编译器知道设计人员所添加的新指令、相关的寄存器以及寄存器文件。因此,编译器能够对用户定义的指令进行调度,并执行寄存器分配操作。类似地,软件开发人员在调试时除了处理器本身的基本寄存器,还能够了解设计人员定义的寄存器和寄存器文件;同时,软件开发人员能够利用指令集仿真器对设计人员定义的新指令进行仿真。与处理器相关的实时操作系统RTOS端口和系统模型也能够自动产生。Tensilica的软件工具能够在一个小时内自动产生上述软件工具,这是对使用可配置处理器用户的核心承诺,能够执行诸如SAD运算,而不必采用RTL那样的实现方法。

5、采用可配置处理器构建视频加速引擎建立多操作功能部件

将SAD这样的融合操作加到一个可配置处理器中是一件麻烦的事情。一条称为“sub.abs.ac”的新指令可以完成“减法-绝对值-累加”运算操作。这条新指令能够将图2中的操作变成图3中的复操作。

图3 使用新指令计算“减法-绝对值-累加”操作

将该指令添加到处理器中后,C编译器能够识别这条新的“sub.abs.ac”指令,并调度相关指令;调度器将显示“sub.abs.ac”功能部件所使用的内部信号;汇编器能够处理这条新指令;指令集仿真器ISS能够按照时钟周期模式进行仿真。

新的专用视频功能部件插入处理器后的数据通路简图如图4所示。注意到,除了产生功能部件逻辑外,硬件生成工具还能够自动插入前馈通路、控制逻辑以及旁路逻辑,以便将新的功能部件与数据通路中的其它逻辑互连。

图4 插入sub.abs.ac视频专用功能部件后的简化数据通路示意图

包含新指令的C代码描述的SAD算法如下:

for (row = 0; row numrows; row++) { for (col = 0; col numcols; col++) {

sub.abs.ac( accum, macroblk1[row][col], macroblk2[row][col]);

} /* column loop */

} /* row loop */

正如前面提到的,对于一个16x16宏块而言,增加新指令后程序主循环中的操作数减少到256个(即numrows = numcols = 16)。

6、建立单指令流多数据流SIMD功能部件

前面的SAD程序还可以进一步优化。程序中的内循环将宏块中16列做相同的运算。这对于SIMD(单指令多数据)功能部件而言是理想选择,相应的指令“sub.abs.ac16”针对16个像素同时完成sub.abs.ac操作,如图5所示。

图5 对16个像素同时进行sub.abs.ac指令的单指令流多数据流计算操作

相应的C语言过程名为sub.abs.ac16,利用此过程名重新改写的SAD内核C程序代码如下:

for (row = 0; row numrows; row++) {

sub.abs.ac16( accum, macroblk1[row], macroblk2[row]);

} /* row loop */

通过改写后的SAD内核程序从768个算术操作减少为仅16个算术操作。

然而,仅仅只有上述C程序代码是不够的。因为指令sub.abs.ac16需要从两个宏块中读取128位的数据,这需要两个方面的支持:一个128位的寄存器文件和一个宽数据位的取数/存数接口,可配置处理器均支持这些功能。

7、建立用户定制的寄存器文件

在Xtensa可配置处理器中,说明一个任意宽度的定制寄存器文件就像写一行程序那么简单。例如,称为“myRegFile128”的过程语句建立一个宽度为128位的寄存器文件,长度为4,并建立一个相应的新的C数据类型,“myRegFile128”能够用于C/C++程序代码说明变

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top