针对智能算法的硬件加速

低成本、低功耗,针对智能计算提供数十倍的性能加速

我们研究并设计了可以针对机器人智能算法进行加速的,基于FPGA的深度卷积神经网络加速器。由于深度卷积神经网络在计算机视觉相关的应用(如图像识别、物体检测、人脸检测等)中展现出了极高的准确率,越来越多的系统中都开始插入卷积神经网络的处理单元,其中基于FPGA的卷积神经网络加速器受到了愈发广泛的重视和研究,期望能达到较高的加速效果和能效。然而,如何高效地利用和匹配FPGA上的计算资源、存储资源和数据带宽一直是一个难题,已有的FPGA卷积神经网络加速器也并没有最大化地发挥FPGA平台所能提供的计算能力。为了解决这一系列的问题,在这项工作中,我们着重对于卷积运算进行优化,同时利用循环分块、循环展开、循环流水化等优化方法,实现了一个高效的卷积运算加速模块。在此基础上,我们对于不同的硬件优化方法各自设计和提取了配置参数,并使用这些配置参数较为准确地估计FPGA平台上卷积运算加速器的运算速度、对于运算资源和数据交互带宽的要求等。随后,我们借鉴之前在传统CPU系统设计中已有的天花板模型,将其应用到我们的系统设计的配置参数选择中。这项工作于2015年初在FPGA领域最高级别国际会议上发表,其性能大幅度超过当时所有的基于FPGA的卷积神经网络加速器。我们还在2017年发表的论文中,对利用数据压缩技术对卷积神经网络FPGA加速器进行了进一步的优化,减少了FPGA加速器对于外部存储(DRAM)的带宽需求,给加速器的整体性能带来提升。

                                                                                                                      

我们还针对其它深度神经网络算法研究设计了多个加速系统。在我们2017年发表的论文中,提出了针对长短期记忆递归神经网络(LSTM-RNN,广泛应用于输入带有有时序特性的人工智能应用中,比如:语音识别、机器翻译等)的FPGA加速器,提升了加速器的整体性能。我们还研究设计了针对模型压缩后的稀疏卷积神经网络的加速器,同时利用了权重参数的稀疏性和激活值的稀疏性,达到提升硬件利用率和加速器性能的目的。

一系列工作成果发表在FPGA 2015、ISLPED 2016、ASP-DAC 2017、FCCM 2017、TCAD等,其中发表在FPGA领域顶级会议FPGA 2015的论文获得最佳论文奖提名。