DSP的特点、发展趋势与应用详谈
时间:06-06
来源:互联网
点击:
2004年5月
数字化技术正在极大地改变着我们的生活和体验。作为数字化技术的基石,数字信号处理(DSP)技术已经、正在、并且还将在其中扮演一个不可或缺的角色。DSP的核心是算法与实现,越来越多的人正在认识、熟悉和使用它。因此,理性地评价DSP器件的优缺点,及时了解DSP的现状以及发展趋势,正确使用DSP芯片,才有可能真正发挥出DSP的作用。
DSP器件与算法
DSP(数字信号处理器)作为一种微处理器,其设计的出发点和通用CPU以及MCU等处理器是不同的。DSP是为完成实时数字信号处理任务而设计的,算法的高效实现是DSP器件的设计核心。DSP在体系结构设计方面的很多考虑都可以追溯到算法自身的特点。我们可以通过考察一个FIR滤波器的I/O关系,即,来了解这两者之间的对应关系,如表1所示。
通过表1,可看出DSP器件和算法之间的必然联系。这不仅是芯片设计人员必须考虑的问题,也是芯片使用者必须了解的。
现代数字信号处理器的特点和发展趋势
DSP器件的发展,必须兼顾3P的因素,即性能 (performance) 、功耗 (power consumption) 和价格 (price)。总的来说,随着VLSI技术的高速发展,现代DSP器件在价格显著下降的同时,仍然保持着性能的不断提升和单位运算量的功耗不断降低。下面我们主要以TI公司的DSP为例来说明现代DSP芯片的一些特点和发展趋势。
通过并行提升DSP芯片的性能
传统的DSP芯片通过采用乘加单元和改进的哈佛结构,使其运算能力大大超越了传统的微处理器。一个合理的推论是:通过增加片上运算单元的个数以及相应的连接这些运算单元的总线数目,就可以成倍地提升芯片的总体运算能力。当然,这个推论有两个前提条件必须满足:首先是存储器的带宽必须能够满足由于总线数目增加所带来的数据吞吐量的提高;另外,多个功能单元并行工作所涉及的调度算法其复杂度必须是可实现的。
1997年,TI发布了基于VLIW (超长指令字) 体系结构的C62x DSP内核。它在片内集成了两组完全相同的功能单元,各包括一个ALU(算术及逻辑单元)、一个乘法单元、一个移位单元和一个地址产生单元。这8个功能单元通过各自的总线与两组寄存器组连接。理想情况下,这8个功能单元可以完全并行,从而在单周期内执行8条指令操作。VLIW体系结构使得DSP芯片的性能得到了大幅提升。在此基础上,TI又发布了C64x DSP内核,其主要改进之处在于进一步加宽了寄存器组与内存之间的总线宽度,以及改善了单个功能单元对于SIMD (单指令多数据) 操作的支持等。图1分别给出了C62x和C64x DSP内核的数据路径示意图。
VLIW结构对功能单元采用静态调度的策略,DSP内部只完成简单的指令分发,调度算法的实现可以由编译器完成,用户也可以通过手工编写汇编代码的形式实现自主调度。其好处是DSP芯片的使用难度大大降低。通过使用高效的C语言编译器,普通用户也可以开发出具有较高效率的DSP运行程序。
存储器构架的变化
随着芯片主频的不断攀升,存储器的访问速度日益成为系统性能提升的瓶颈。在现有的制造工艺下,片上存储单元的增加将导致数据线负载电容的增加,影响到数据线上信号的开关时间,这意味着片上高速存储单元的增加将是十分有限的。为了解决存储器速度与CPU内核速度不匹配的问题,高性能的CPU普遍采用Cache(高速缓存)机制,新的DSP芯片也开始采用这种结构。以TI的C64x DSP为例,它采用两级Cache的结构,如图2所示。L1 Cache分为独立的程序缓存 (L1P) 和数据缓存 (L1D) ,其大小各为16KBytes,访问速度与DSP内核的运行时钟相匹配,L2 Cache则采用统一的形式管理,其大小从256KB到1MB不等,访问速度相比L1 cache大大降低。L2 Cache通过DMA与外部低速的存储器件进行数据交换。为增加Cache的命中率,C64x的Cache还采用了多路径的结构形式。研究表明,在很多情况下,采用这种多级缓存的架构可以达到采用完全片上存储器结构的系统约80%的执行效率。但是,采用Cache机制也在一定程度上增加了系统执行时间的不确定性,其对于实时系统的影响需要用户认真地加以分析和评估。
Cache对于DSP芯片还是一个比较新的概念。DSP开发人员需要更深入地了解Cache的机制,相应地对算法的数据结构、处理流程以及程序结构等做出调整,以提高Cache的命中率,从而更有效地发挥Cache的作用。
SoC的趋势
对于特定的终端应用,SoC (系统芯片) 可以兼顾体积、功耗和成本等诸多因素,因而逐渐成为芯片设计的主流。DSP器件也逐渐从传统的通用型处理器中分离出更多的直接面向特定应用的SoC器件。这些SoC器件多采用DSP+ARM的双核结构,既可以满足核心算法的实现需求,又能够满足网络传输和用户界面等需求。同时,越来越多的专用接口以及协处理器被集成到芯片中,用户只需添加极少的外部芯片,即可构成一个完整的应用系统。以TI公司为例,其推出的面向第3代无线通信终端的OMAP1510芯片等,面向数码相机的DM270芯片等,面向专业音频设备的DA610芯片等,面向媒体处理的DM642芯片等,都是SoC的典型例子。
数字化技术正在极大地改变着我们的生活和体验。作为数字化技术的基石,数字信号处理(DSP)技术已经、正在、并且还将在其中扮演一个不可或缺的角色。DSP的核心是算法与实现,越来越多的人正在认识、熟悉和使用它。因此,理性地评价DSP器件的优缺点,及时了解DSP的现状以及发展趋势,正确使用DSP芯片,才有可能真正发挥出DSP的作用。
DSP器件与算法
DSP(数字信号处理器)作为一种微处理器,其设计的出发点和通用CPU以及MCU等处理器是不同的。DSP是为完成实时数字信号处理任务而设计的,算法的高效实现是DSP器件的设计核心。DSP在体系结构设计方面的很多考虑都可以追溯到算法自身的特点。我们可以通过考察一个FIR滤波器的I/O关系,即,来了解这两者之间的对应关系,如表1所示。
通过表1,可看出DSP器件和算法之间的必然联系。这不仅是芯片设计人员必须考虑的问题,也是芯片使用者必须了解的。
现代数字信号处理器的特点和发展趋势
DSP器件的发展,必须兼顾3P的因素,即性能 (performance) 、功耗 (power consumption) 和价格 (price)。总的来说,随着VLSI技术的高速发展,现代DSP器件在价格显著下降的同时,仍然保持着性能的不断提升和单位运算量的功耗不断降低。下面我们主要以TI公司的DSP为例来说明现代DSP芯片的一些特点和发展趋势。
通过并行提升DSP芯片的性能
传统的DSP芯片通过采用乘加单元和改进的哈佛结构,使其运算能力大大超越了传统的微处理器。一个合理的推论是:通过增加片上运算单元的个数以及相应的连接这些运算单元的总线数目,就可以成倍地提升芯片的总体运算能力。当然,这个推论有两个前提条件必须满足:首先是存储器的带宽必须能够满足由于总线数目增加所带来的数据吞吐量的提高;另外,多个功能单元并行工作所涉及的调度算法其复杂度必须是可实现的。
1997年,TI发布了基于VLIW (超长指令字) 体系结构的C62x DSP内核。它在片内集成了两组完全相同的功能单元,各包括一个ALU(算术及逻辑单元)、一个乘法单元、一个移位单元和一个地址产生单元。这8个功能单元通过各自的总线与两组寄存器组连接。理想情况下,这8个功能单元可以完全并行,从而在单周期内执行8条指令操作。VLIW体系结构使得DSP芯片的性能得到了大幅提升。在此基础上,TI又发布了C64x DSP内核,其主要改进之处在于进一步加宽了寄存器组与内存之间的总线宽度,以及改善了单个功能单元对于SIMD (单指令多数据) 操作的支持等。图1分别给出了C62x和C64x DSP内核的数据路径示意图。
VLIW结构对功能单元采用静态调度的策略,DSP内部只完成简单的指令分发,调度算法的实现可以由编译器完成,用户也可以通过手工编写汇编代码的形式实现自主调度。其好处是DSP芯片的使用难度大大降低。通过使用高效的C语言编译器,普通用户也可以开发出具有较高效率的DSP运行程序。
存储器构架的变化
随着芯片主频的不断攀升,存储器的访问速度日益成为系统性能提升的瓶颈。在现有的制造工艺下,片上存储单元的增加将导致数据线负载电容的增加,影响到数据线上信号的开关时间,这意味着片上高速存储单元的增加将是十分有限的。为了解决存储器速度与CPU内核速度不匹配的问题,高性能的CPU普遍采用Cache(高速缓存)机制,新的DSP芯片也开始采用这种结构。以TI的C64x DSP为例,它采用两级Cache的结构,如图2所示。L1 Cache分为独立的程序缓存 (L1P) 和数据缓存 (L1D) ,其大小各为16KBytes,访问速度与DSP内核的运行时钟相匹配,L2 Cache则采用统一的形式管理,其大小从256KB到1MB不等,访问速度相比L1 cache大大降低。L2 Cache通过DMA与外部低速的存储器件进行数据交换。为增加Cache的命中率,C64x的Cache还采用了多路径的结构形式。研究表明,在很多情况下,采用这种多级缓存的架构可以达到采用完全片上存储器结构的系统约80%的执行效率。但是,采用Cache机制也在一定程度上增加了系统执行时间的不确定性,其对于实时系统的影响需要用户认真地加以分析和评估。
Cache对于DSP芯片还是一个比较新的概念。DSP开发人员需要更深入地了解Cache的机制,相应地对算法的数据结构、处理流程以及程序结构等做出调整,以提高Cache的命中率,从而更有效地发挥Cache的作用。
SoC的趋势
对于特定的终端应用,SoC (系统芯片) 可以兼顾体积、功耗和成本等诸多因素,因而逐渐成为芯片设计的主流。DSP器件也逐渐从传统的通用型处理器中分离出更多的直接面向特定应用的SoC器件。这些SoC器件多采用DSP+ARM的双核结构,既可以满足核心算法的实现需求,又能够满足网络传输和用户界面等需求。同时,越来越多的专用接口以及协处理器被集成到芯片中,用户只需添加极少的外部芯片,即可构成一个完整的应用系统。以TI公司为例,其推出的面向第3代无线通信终端的OMAP1510芯片等,面向数码相机的DM270芯片等,面向专业音频设备的DA610芯片等,面向媒体处理的DM642芯片等,都是SoC的典型例子。
- 异步DSP核心设计方案:更低功耗,更高性能(06-06)
- 现场总线的发展趋势(12-19)
- 嵌入式系统历史及发展趋势(09-12)
- 国内32位MCU产业发展趋势及技术壁垒分析(12-24)
- Windows CE 进程、线程和内存管理(11-09)
- RedHatLinux新手入门教程(5)(11-12)
鐏忓嫰顣舵稉鎾茬瑹閸╃顔勯弫娆戔柤閹恒劏宕�
- 妤傛ḿ楠囩亸鍕暥瀹搞儳鈻肩敮鍫濆悋閹存劕鐓跨拋顓熸殌缁嬪顨滅憗锟�
閸忋劍鏌熸担宥咁劅娑旂姴鐨犳0鎴滅瑩娑撴氨鐓$拠鍡礉閹绘劕宕岄惍鏂垮絺瀹搞儰缍旈懗钘夊閿涘苯濮幃銊ユ彥闁喐鍨氶梹澶歌礋娴兼ḿ顫呴惃鍕殸妫版垵浼愮粙瀣瑎...
- 娑擃厾楠囩亸鍕暥瀹搞儳鈻肩敮鍫濆悋閹存劕鐓跨拋顓熸殌缁嬪顨滅憗锟�
缁箖鈧拷30婢舵岸妫亸鍕暥閸╃顔勭拠鍓р柤閿涘奔绗撶€硅埖宸跨拠鎾呯礉閸斺晛顒熼崨妯烘彥闁喕鎻崚棰佺娑擃亜鎮庨弽鐓庣殸妫版垵浼愮粙瀣瑎閻ㄥ嫯顩﹀Ч锟�...
- Agilent ADS 閺佹瑥顒熼崺纭咁唲鐠囧墽鈻兼總妤勵棅
娑撴挸顔嶉幒鍫n嚦閿涘苯鍙忛棃銏n唹鐟欘枃DS閸氬嫮顫掗崝鐔诲厴閸滃苯浼愮粙瀣安閻㈩煉绱遍崝鈺傚亶閻€劍娓堕惌顓犳畱閺冨爼妫跨€涳缚绱癆DS...
- HFSS鐎涳缚绡勯崺纭咁唲鐠囧墽鈻兼總妤勵棅
鐠у嫭绻佹稉鎾愁啀閹哄牐顕抽敍灞藉弿闂堛垼顔夐幒鍦欶SS閻ㄥ嫬濮涢懗钘夋嫲鎼存梻鏁ら敍灞藉簻閸斺晜鍋嶉崗銊╂桨缁崵绮洪崷鏉款劅娑旂姵甯夐幓顡嶧SS...
- CST瀵邦喗灏濆銉ょ稊鐎广倕鐓跨拋顓熸殌缁嬪顨滅憗锟�
閺夊孩妲戝ú瀣╁瘜鐠佽绱濋崗銊╂桨鐠佸弶宸緾ST閸氬嫰銆嶉崝鐔诲厴閸滃苯浼愮粙瀣安閻㈩煉绱濋崝鈺傚亶韫囶偊鈧喕鍤滅€涳附甯夐幓顡塖T鐠佹崘顓告惔鏃傛暏...
- 鐏忓嫰顣堕崺铏诡攨閸╃顔勭拠鍓р柤
娑撳洣绗€妤傛ɑ銈奸獮鍐叉勾鐠у嚖绱濇潻娆庣昂鐠囧墽鈻兼稉杞扮稑閸︺劌鐨犳0鎴炲Η閺堫垶顣崺鐔枫亣鐏炴洘瀚甸懘姘剧礉閹垫挷绗呴崸姘杽閻ㄥ嫪绗撴稉姘唨绾偓...
- 瀵邦喗灏濈亸鍕暥濞村鍣洪幙宥勭稊閸╃顔勭拠鍓р柤閸氬牓娉�
鐠愵厺鎷遍崥鍫ユ肠閺囨潙鐤勯幆鐙呯礉缂冩垵鍨庨妴渚€顣剁拫鍙樺崕閵嗕胶銇氬▔銏犳珤閵嗕椒淇婇崣閿嬬爱閿涘本鍨滅憰浣圭壉閺嶉绨块柅锟�...
栏目分类