阿里达摩院公布自研语音识别模型DFSMN，识别准确率达96.04%-电子发烧友网

【导读】：日前，阿里巴巴达摩院机器智能实验室推出了新一代语音识别模型DFSMN，据悉语音识别准确率达96.04%，未来将用于智能家居设备。

达摩院机器智能实验室的语音识别团队主导了这个模型的研发，并宣布向全世界企业与个人开源。对比目前业界使用最为广泛的LSTM模型，DFSMN模型训练速度更快、识别准确率更高。采用全新DFSMN模型的智能音响或智能家居设备，相比前代技术深度学习训练速度提到了3倍，语音识别速度提高了2倍。

在近期举行的云栖大会武汉峰会上，装有DFSMN语音识别模型的“AI收银员”在与真人店员的PK中，在嘈杂环境下准确识别了用户的语音点单，在短短49秒内点了34杯咖啡。此外，装备这一语音识别技术的自动售票机也已在上海地铁“上岗”。

著名语音识别专家，西北工业大学教授谢磊表示：“阿里此次开源的DFSMN模型，在语音识别准确率上的稳定提升是突破性的。是近年来深度学习在语音识别领域最具代表性的成果之一。对全球学术界和AI技术应用都有巨大影响。”有业内人士称，DFSMN有望成为继传统的LSTM模型后，成为全球语音识别领域最主要的声学识别模型之一。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

阿里巴巴

阿里巴巴

+关注

关注
7

文章
1571

浏览量
46430
语言识别

语言识别

+关注

关注
0

文章
15

浏览量
4789

在全志V853平台上成功部署深度学习步态识别算法

集上测试了NB模型的步态识别准确率。CASIA-B是一个大规模、多视角的步态识别数据集，共包含124个样本，每个样本都有10种步态序列，分为6个正常行走的序列（NM），2个身着长外套行

发表于 03-04 10:15

重塑翻译与识别技术：开源语音识别模型Whisper的编译优化与部署

模型介绍Whisper模型是一个由OpenAI团队开发的通用语音识别模型。它的训练基于大量不同的音频数据集，是一个多任务

发表于 01-06 08:33 •684次阅读

重塑翻译与<b class='flag-5'>识别</b>技术：开源<b class='flag-5'>语音</b><b class='flag-5'>识别</b><b class='flag-5'>模型</b>Whisper的编译优化与部署

离线语音识别与在线语音识别有什么不一样？

离线语音识别与在线语音识别有什么不一样？离线语音识别和在线

发表于 12-12 14:36 •621次阅读

离线语音识别，“自然说”为产品赋能

相比于云端语音识别，离线语音识别技术具有更高的识别准确率和更快的响应速度。因为离线

发表于 12-11 11:20 •165次阅读

离线语音识别及控制是怎样的技术？

信号转化为文本或语义结果。　与传统的云端语音识别相比，离线语音识别的工作原理是将语音识别技术算

发表于 11-24 17:41

离线语音识别和控制的工作原理及应用

的准确率和鲁棒性。　　2.卷积神经网络（CNN）　　CNN 是针对网格结构数据的处理而设计的。在语音识别领域，CNN 主要用于处理语音信号的短时傅里叶变换（STFT）后的频谱图。通

发表于 11-07 18:01

智慧矿山：AI算法为何能提高未戴安全带识别准确率！

未穿戴安全带识别AI算法是智慧矿山的重要应用之一，可以提高矿山工作人员的安全意识和降低事故发生的概率。为了提高识别准确率，研究人员可以优化数据集、改进网络结构、混合模型融合、应用强化学

发表于 10-22 22:01 •236次阅读

厨房秤也能语音控制？#语音控制 #语音模块 #语音识别 #离线语音识别

芯片语音识别

轻生活科技语音模块
发布于 :2023年10月19日 16:36:15

语音识别技术的优化与发展趋势

模型优化：针对模型结构的优化是提高语音识别技术的重要途径之一。研究人员可以通过调整模型结构、引入新的损失函数等方式，提高

发表于 10-12 18:33 •410次阅读

语音识别技术：原理、应用与未来

一、引言语音识别技术是一种让计算机理解和解析人类语音的方法。这种技术已经存在多年，但随着硬件性能的提升和深度学习算法的发展，语音识别技术在

发表于 09-19 18:30 •1176次阅读

语音识别发展 Python进行语音识别案例

隐马尔可夫模型（HMM）、动态时间规整（DTW）、矢量量化（VQ）等技术。随着研究的深入，发现以线性系统理论为基础的方法和语音的非线性过程特性不能很好的融合，采用非线性理论研究成为了语音识别

发表于 07-19 14:32 •4次下载

启英泰伦离线语音&腾讯云小微在线语音识别方案 #启英泰伦 #腾讯云小微 #在线语音识别 #离线语音识别

语音识别

启英泰伦
发布于 :2023年07月18日 16:50:34

语音识别唤醒词的技术与应用

词是语音识别技术中的重要组成部分，它的作用是检测语音输入并判断是否包含唤醒词，如果包含则执行相应的指令或响应。语音识别唤醒词的技术是基于机

发表于 06-24 04:02 •884次阅读

如何开发智能家居语音控制方案

6MB Flash，相比于其他芯片，其可以支持存储更大容量的神经网络模型和更多播报音等功能，具备更好的降噪效果并支持OTA升级功能，此外在应用功能方面既支持声纹识别又支持语音识别，

发表于 05-31 09:50

国产工业级RK3568核心板-AI人脸识别产品方案

，自动对焦等功能的摄像头模组，以保证图像质量和拍摄效果。在图像采集的过程中，可以使用RK3568内置的ISP图像处理单元对图像进行优化，提高人脸识别的准确率和稳定性。 LCD显示屏：目前提供7寸MIPI屏

发表于 05-06 14:30

搜索历史

阿里达摩院公布自研语音识别模型DFSMN，识别准确率达96.04%

评论

在全志V853平台上成功部署深度学习步态识别算法

重塑翻译与识别技术：开源语音识别模型Whisper的编译优化与部署

离线语音识别与在线语音识别有什么不一样？

离线语音识别，“自然说”为产品赋能

离线语音识别及控制是怎样的技术？

离线语音识别和控制的工作原理及应用

智慧矿山：AI算法为何能提高未戴安全带识别准确率！

厨房秤也能语音控制？#语音控制 #语音模块 #语音识别 #离线语音识别

语音识别技术的优化与发展趋势

语音识别技术：原理、应用与未来

语音识别发展 Python进行语音识别案例

启英泰伦离线语音&腾讯云小微在线语音识别方案 #启英泰伦 #腾讯云小微 #在线语音识别 #离线语音识别

语音识别唤醒词的技术与应用

如何开发智能家居语音控制方案

国产工业级RK3568核心板-AI人脸识别产品方案