微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 硬件工程师文库 > 神经网络协同处理器降低视觉处理功耗

神经网络协同处理器降低视觉处理功耗

时间:05-30 来源:互联网 点击:

  嵌入式视觉(EV)系统的成长正推动对于更高性能与节能的视觉处理能力需求。包括AMD、CEVA、Imagination、英特尔(Intel)、Nvidia以及ARM的授权客户等业界多家公司均积极因应这一成长中的趋势,利用FPGA、FPGA/MPU组合、GPU与专用异质多核心等各种不同的硬体,为设计任务实现最佳化。

  新思科技(Synopsys Inc.)日前发布另一种解决方案——DesignWare EV处理器核心(IP)系列,专为整合于具有多颗CPU的SoC而设计,无论是采用来自ARM、英特尔、Imagination MIPS或PowerPC等其他CPU均可相容。

  该IP核心系列目前包括EV52与EV54两款可为视觉运算应用最佳化的产品,采用28nm制程制造。EV52搭载基于该公司ARC指令集的双核心 RISC处理器,以高达1GHz的频率作业;而EV54则采用四核心建置,提供较EV52更高的性能。两款产品均内建2-8个可编程配置的物件侦测引擎处理单元(PE)。

  

  Synopsys的视觉处理器结合基于ARC的RISC核心,以及卷积神经网路侦测引擎处理单元。

  EV52和EV54处理器利用‘卷积神经网路’(CNN)演算法——从人脑处理视觉资讯方式取得灵感,为视觉运算应用实现最佳化。CNN利用前馈人工神经网路,其中,个别神经元以一种反应视线内重叠区域的方式拼接排列。这种重叠是人眼得以追踪动作、辨识环境变化、区别不同物体以及反应脸部表情细微变化的重要关键。

  Synopsys DesignWare ARC处理器资深产品行销经理Mike Thompson介绍:"该EV处理器系列是专为以1,000GOPS/W的性能执行CNN计算而设计的,它仅需使用约竞争视觉方案一小部份的功耗,即可为一系列广泛的物件应用实现更迅速与准确的侦测。"

  Thompson指出,"虽然有多种视觉辨识演算法竞相争宠,我们一直认为CNN具有最重大进展,而且也是目前我们看到在目标应用中最佳的物件辨识方案,可作为相机、可穿戴式装置、家庭自动化、DTV、虚拟实境、游戏、机器人、数位看板、医疗与车载资讯娱乐系统等目标应用的理想选择。"

  Synopsys目前正与嵌入式视觉市场中的多家厂商合作,包括Nvidia、CEVA、微软(Microsoft)等。然而,虽然透过CNN能够取得超过95%的准确结果,但问题仍取决于如何在市场可接受的功耗/性能范围内达到这样的准确度。

  Thompson表示,通用处理器(GPP)虽可用于视觉处理,但由于缺乏先进的数学运算资源而使其速度过于缓慢;绘图处理器(GPU)虽然有必要的数学运算资源,但却缺少有效移动视觉资料的能力,使其视觉性能相对较低而功耗相对较高。

  "我们提出的协同处理器策略将有助于使CNN成本降低到可负担的范围,以及可应用在消费产品的功耗水平。"Thompson以一系列典型物件侦测与手势办识应用的比较为例表示,EV处理器执行视觉任务的功耗大约比其他视觉解决方案的功耗更低5倍。采用内建EV处理器的SoC以每秒30格的视讯处理速率执行一项脸部侦测任务时,大约仅需175mW的功耗。相形之下,如果采用GPU来执行相同任务的话,至少需要更高8-10倍的功耗。

  

  以每瓦数十亿次作业为衡量基准,EV处理器(最右)的执行效率超越了其他视觉方案的物件侦测与分析能力。

  嵌入式视觉导入CNN演算法

  为了将1或多个EV处理器整合于SoC,Synopsys利用与主处理器平行/同步作业的方式——透过复杂和高效的讯息传送设定以及中断机制,让不同卷积物件侦测引擎处理单元与其他处理器核心之间实现通讯(图3)。ARC EV处理器可经由编程实现自动化作业,或者,当应用必须符合特定的功耗/性能限制时,开发人员也可以选择尽量在EV处理器与主处理器之间实现最多的控制与功能共享。

  

  EV处理器的核心是物件侦测引擎,其中包含2-8颗专用的处理单元。

  Thompson说:"PE的数量是由用户在建构设计时所配置的,就像在PE之间的串流互连网路一样——在所有的PE之间配置灵活的点对点互连。取决于物件侦测引擎上的CNN绘图执行情况,每个点或连线均可动态改变。"

  该架构的建置在于让EV处理器记忆体映射可完全由主处理器进行存取,这将能够让主处理器一方面持续进行控制,同时让所有的视觉处理任务卸载至EV单元,主处理器与EV处理器二者均可降低功耗,并加速关键的视觉任务进行。

  此外,Thompson强调,这种方法还可让各种不同的视觉处理单元都能与主处理器即时通讯。为了让EV之间以及与主处理器之间的通讯更有效率,每个EV 处理器都能存取储存于SoC记忆体映射区的影像,或是在需要时透过内建的AMBA AXI标准系统介面存取晶片外接记忆体资源。

为CNN开发提供软体

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top