基于FPGA的语音识别解决方案


语音识别主要包括语音采集和预处理、声学模型、语言模型,其中声学模型采用深度学习实现。采用DNN实现声学模型可以实现非常高的识别率(超过95%)。传统的使用深度学习实现DNN一般采用CPU和GPU,CPU实现性能较弱但功耗很高,使用GPU性能很好但功耗太高,大规模部署运营成本太高。同等条件下,FPGA的性能功耗比是GPU的2~3倍,所以采用FPGA实现DNN的在线预测是非常适合的方案。


网络结构图

基于FPGA的语音识别解决方案


解决方案

该系统主要包括外围接口与存储器(PCIe,DMA,DDR4)和DNN算法两部分。外围接口主要实现和X86的高速通信及参数的缓存,DNN算法实现7层网络结构和非线性函数。所有功能在加速科技SC-OPM加速卡(采用Intel® Arria 10 GX660 FPGA器件,集成 660k LE,具备1.5T FLOPS 单精度浮点处理能力)上实现。


系统架构

基于FPGA的语音识别解决方案



系统规格

1. 整体网络为7层,总运算量为84M单精度浮点,激活函数为sigmod/softmax

2.各层网络参数可以软件配置下载,提供SDK和上层应用集成

3.模型支持浮点和定点

4.单卡可以实现60路(单精度浮点)语音识别声学模型,8ms全部完成

5.单卡可以实现120~150路(16位定点)语音识别声学模型,8ms全部完成

6.单卡功耗仅33W 




相关内容
Copyright ©2018 - 2020 杭州加速云信息技术有限公司 犀牛云提供企业云服务