微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 嵌入式设计 > TI 全新TMS320C66x 定点与浮点DSP内核成功挑战速度极限

TI 全新TMS320C66x 定点与浮点DSP内核成功挑战速度极限

时间:08-18 来源:互联网 点击:



请注意,指数需要相加操作,尾数则需要相乘操作。然后,最终 (M1×M2) 值需调整成 23 位的表示形式,这可能需要对指数的值也作更改。使用浮点技术进行所有基本运算时将需要很多额外的操作。

浮点计算带来的额外复杂度恰好说明了众多算法仅采用定点表示数和定点运算的原因。嵌入式处理器能够更快地运行定点运算,并且在众多情况下,只需要定点算法即可。例如,C66x DSP 内核在每个周期内都能执行 16 项定点乘法运算或者是 4 项浮点乘法运算。为使定点和浮点组件都能同时实现最佳性能,TI 为该款最新的 C66x DSP 内核开发了定点与浮点运算指令,所有这些都对实现高效率的无线基站信号处理至关重要。浮点指令 FPi 包括:
1. 单精度复数乘法
2. 矢量乘法
3. 单精度矢量加减法
4. 单精度浮点-整数之间的矢量变换
5. 支持双精度浮点算术运算(加、减、乘、除及与整数间的转换)并且完全为管线式

最新定点指令可实现最佳的矢量信号处理 (VSPi),其中包括:
1. 复数矢量和矩阵乘法,诸如针对矢量的 DCMPY,以及针对矩阵乘法的CMATMPYR1
2. 实矢量乘法
3. 增强型点积计算
4. 矢量加减法
5. 矢量位移
6. 矢量比较
7. 矢量打包与拆包
4
部分应用采用定点技术的隐性成本尽管与浮点处理相比,DSP 能够实现更快的定点处理,但却不得不为特定算法在开发时间方面相付出代价。通信系统典型的设计流程是首先基于计算机模型开发相应算法,然后再将这些算法用在初始系统部署中。随着部署及应用范围的不断扩大,工程师便可将收集到的现实世界的数据带回实验室,以通过对算法的校正、调优提升系统性能。通常可使用 Matlab 或其他固有的浮点工具开发新的算法。接下来面临的挑战是如何在保持算法和系统性能的同时,将这些浮点算法转换为定点算法。复杂拙劣的算法会占用大量系统资源,从而导致系统的整体性能下降。在需要用到复杂处理的情况下,将 Matlab 中的代码移植到真实系统中就算耗费数周乃至数月的时间也不是什么罕见的现象。TI 最新架构具有原生浮点支持,从而使从浮点到定点的整个转换过程变得毫无必要。通过在 C66x DSP 上使用浮点指令,可轻松将代码从 Matlab 等工具中进行移植,并直接编译至 TI 的 DSP 中,如图 3 所示。

图 3 - 浮点功能可大幅加速产品上市进程
浮点技术在 4G 基站中的重要作用无线电话正不断演进发展成为需要高数据量传输以支持视频流和其他高宽带应用的复杂媒体平台。为了充分满足这些需求,无线行业需要在基站中部署 WiMax 和 LTE 等最新的 4G 技术,力争为终端用户提供更高的数据吞吐量。这些 4G 基站利用多天线信号处理及 MIMO、Beamforming 等算法来提高其性能。通常情况下,这些算法会依赖本身易于量化和缩放与定点处理相关的问题的矩阵反演技术。采用浮点实施这些算法可进一步提高系统的速度及精确度,从而获得更高性能,并最终为移动电话用户带来更精彩的体验。

5

不断增长、层出不穷的高性能应用亟需浮点运算功能之前我们已经讨论过,由于执行每个基本算术运算需要较长时间,所以浮点处理是很耗时的,但这种情况在当算法需要很大动态范围操作时则不然。在 4G 处理的矩阵反转操作中,由于没有简单可行的定点操作方法,因此算法虽然运行于定点处理器(无原生浮点支持)中,但基本还是被迫对浮点运算进行仿真。由于处理器没有获得定点功能的优势,因而在与使用支持浮点运算的处理器运行时,这些算法的运行速度要慢很多。C66x DSP 自身支持浮点功能,所以消除了这种性能瓶颈。例如,C66x DSP 内核运行 MIMO 及其他关键的多天线信号处理算法比在 C64x+ DSP 上运行定点功能的相同算法整整快 4 倍。

在国防、公共安全基础设施及航空电子设备等各种任务关键型应用领域,浮点功能不仅可简化开发,同时还能大幅提高性能。由于能够直接使用 MATLAB 中的代码,浮点不仅能够显著缩短开发周期,并且与大型 FFT 等定点代码相比,众多算法的浮点实施也会占用更少的执行周期。例如,雷达、导航与制导系统会处理通过传感器阵列获取的据量。众多传感器组件的各种不同能源模式可提供与目标的跟踪和定位相关的信息。这组数据必须通过线性方程组处理才能提取到所需信息。解决办法包括矩阵反演、分解与自适应滤波等数学函数。对更高输出精度与更大动态范围的需求促使这些功能在诸如C66x 等 1.25GHz 浮点引擎上实现出众的表现。另外,C66x 拥有的 SIMD 增强以及每周期定点能力高达 1.25GHz 32 MAC 的卓越性能,也为设计人员在选择适合其应用的浮点与定点组合方面提供了极大的灵活性。

除机器视觉、

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top