侵权投诉

语音识别下一步发展如何?哪些技术可以使用?哪些价值可以发掘?

2020-10-23 16:27 次阅读

2020科大讯飞全球1024开发者节今天正式拉开帷幕,伴随着AI的发展,我们得以更全面和细致地洞察人们的生活习惯,并为人们提供更加智能和便捷的服务。在人工智能的应用场景中,最重要的一个就是语音交互。针对这一点,科大讯飞AI研究院常务副院长刘聪做了细致的讲解,让我们对当前语音交互技术有了更清晰和深入的了解。

我们知道语音识别是讯飞的传统强项,从早期的呼叫、导航到2010年发布的讯飞超脑语音云和输入法,从而开启了中文语音输入的新时代。通过深度学习等框架持续的迭代效果,我们又陆续推出了方言识别、远场交互、多麦克风阵列等相关的功能。2015年,我们又将人机交互的场景拓展到人人对话的场景。为此我们总结出三点,我们将语音听写从简单场景的可用做到了通用。这种场景的好用,语音转写从原来的不好用,做到了像演讲、会议、庭审等很多复杂场景的好用。像语音控制、命令唤醒,我们也是从简单场景的可用,做到了复杂场景的好用。

随着现在语音识别在更多场景的应用,语音识别的下一步发展方向是什么?又有哪些技术可以从实验室场景走向成熟,还有哪些价值得我们发掘?

首先,我们认为语音识别需要持续的去挑战更加复杂的场景,去实现从语音到声音,从单纯的文字内容识别到音频的全场景解析。例如现在我们在泛娱乐当中,直播、短视频,我们可以看到这里面有很多的更加复杂的声音场景需要我们去解决。例如在直播的过程中,背景可能是复杂多样的,可能有视频声、游戏声或者音乐声。此外直播连麦的时候还会经常出现多人混叠的对话,这些对我们的语音识别都会有很大的影响。除此之外,这些视频当中还会包含像笑声、掌声、各种音效等声音,所以我们需要提出一些新的方案。当前的框架已经难以去解决这样一个复杂的问题。

针对这样一个场景,我们一方面需要降低各种背景的噪声对识别精度的影响。另外一方面,要有针对性的将我们感兴趣的声音提取出来。这里我们也是展示了全场景音频解析的整体方案。首先我们是通过多分辨率特征提取的声音检测方案,再结合我们的序列训练,对一些相似声音进行精细建模,可以实现将笑声、音效等非语音的声音和语音内容分离。针对包含语音的有效内容,我们也使用了语音降噪和分离的方案,综合利用我们的声音、文本、说话等信息,以及在有条件的情况下,还可以使用多模态的唇形、视线以及麦克风阵列的空间位置等信息来进行联合建模。以上这些才能保证我们能够持续保持语音合成以及语音识别技术的领先。

与此同时,我们也和合作伙伴一起,不断提升在直播等复杂场景上的语音识别效果,并且准确率从60%提到了85%。未来我们相关的技术也会在我们的开放平台——讯飞听见等上线。未来,我们会做得更好,请大家继续期待。
责任编辑:PSY

收藏 人收藏
分享:

评论

相关推荐

MONAI成像框架快速投入生产,加速医疗健康领域的AI应用

MONAI(Medical Open Network for AI)是针对医疗健康领域进行优化的开源....
发表于 12-02 16:46 186次 阅读
MONAI成像框架快速投入生产,加速医疗健康领域的AI应用

如何用Recast.AI 创建一个聊天机器人?

据 Gartner 2018 年 2 月的报告,到 2020 年,25% 的客户服务和支持业务将在参....
的头像 工程师邓生 发表于 12-02 16:30 48次 阅读
如何用Recast.AI 创建一个聊天机器人?

使用AI技术推动药物发展的新路径

发现是什么?在数学领域,存在着一个古老的问题,即究竟该说发现了新的数学方法、还是发明了新的数学方法。....
的头像 电子魔法师 发表于 12-02 15:49 144次 阅读
使用AI技术推动药物发展的新路径

打造具备职业技能的“行业AI”

为了实现这一目标,联通大数据公司进行了诸多探索。如果以人为例,大脑、五官与肢体功能是基本构造,每个人....
的头像 通信视界 发表于 12-02 15:28 213次 阅读
打造具备职业技能的“行业AI”

英伟达开发新AI算法,视频通话的流量最高压缩90%以上

为了让网速慢的用户用上高清通话,英伟达可谓绞尽脑汁。他们开发的新AI算法,可以将视频通话的流量最高压....
的头像 工程师邓生 发表于 12-02 14:29 89次 阅读
英伟达开发新AI算法,视频通话的流量最高压缩90%以上

美国开发自动还原马赛克的AI开源算法

看到模糊的照片,是不是有还原真实面目的冲动?以前的技术做不到,在AI时代一切皆有可能。美国杜克大学开....
的头像 如意 发表于 12-02 13:53 110次 阅读
美国开发自动还原马赛克的AI开源算法

百度语义单元驱动的 AI 同传模型,翻译准确率为 80%与人类水平相当

12 月 1 日,百度大脑开放日举办。IDC 中国副总裁兼首席分析师武连峰表示,到 2021 年底,....
的头像 工程师邓生 发表于 12-02 13:52 211次 阅读
百度语义单元驱动的 AI 同传模型,翻译准确率为 80%与人类水平相当

华为云:让每一个企业都能成为“新云原生企业”

云原生2.0是企业智能升级新阶段,企业云化从ONCloud走向INCloud,成为新云原生企业。 日....
的头像 璟琰乀 发表于 12-02 11:44 202次 阅读
华为云:让每一个企业都能成为“新云原生企业”

AI在变电运维中的实用化提升与应用

责任编辑:xj 原文标题:人工智能技术在变电运维中的实用化提升与应用 文章出处:【微信公众号:电网智....
的头像 电网智囊团 发表于 12-02 11:38 78次 阅读
AI在变电运维中的实用化提升与应用

微软和Code.org合作,向学生们教授AI技术

MSPU 报道称,微软今日宣布和 Code.org 达成了合作伙伴关系,以向小学到高中的学生们教授人....
的头像 如意 发表于 12-02 11:24 214次 阅读
微软和Code.org合作,向学生们教授AI技术

AI很火,但为什么很难落地

人工智能(AI)技术在工业现代化的浪潮下向各个领域渗透,包括市政、交通、医疗、商用等,随着5G商用的....
的头像 电子魔法师 发表于 12-02 11:11 231次 阅读
AI很火,但为什么很难落地

AI芯片融资哪家强?

前言:今年,国内AI芯片产业高潮迭起。去年国内AI芯片领域投资金额总计58.57亿元,同比增幅超过9....
的头像 璟琰乀 发表于 12-02 11:11 389次 阅读
AI芯片融资哪家强?

CPU、GPU及AI将成为处理器的三大核心方向

用电脑这么多年,大家现在能分清CPU和处理器的关系吗?很多年中,大家默认处理器就等于CPU,后者全称....
的头像 如意 发表于 12-02 10:54 125次 阅读
CPU、GPU及AI将成为处理器的三大核心方向

特高压直流故障智能诊断系统建设:保障电网安全

责任编辑:xj 原文标题:【焦点】国网浙江省电力公司 潘武略:特高压直流故障智能诊断系统建设 文章出....
的头像 电网智囊团 发表于 12-02 10:52 118次 阅读
特高压直流故障智能诊断系统建设:保障电网安全

快讯:京东数科关联公司申请仿生机器人相关专利

天眼查App显示,近日,京东数科海益信息科技有限公司新增多条“仿生机器人”相关专利信息。专利名称为关....
的头像 机器人大讲堂 发表于 12-02 10:51 670次 阅读
快讯:京东数科关联公司申请仿生机器人相关专利

人工智能趋势之下,职业教育将紧握机遇以赋能产业

11月25日,全国民办职业教育质量提升现场会在厦门召开,此次会议以提质增效、增值赋能为主题,由中国民....
的头像 电子观察说 发表于 12-02 10:51 194次 阅读
人工智能趋势之下,职业教育将紧握机遇以赋能产业

北大校友出品:显著性目标检测工具,AI生成肖像画,精细到毛发

只要思想不滑坡,办法总比困难多,干巴得! 打工人的一天终于要结束了!拖着疲惫的身躯准备下班,却听到同....
的头像 机器人大讲堂 发表于 12-02 10:42 222次 阅读
北大校友出品:显著性目标检测工具,AI生成肖像画,精细到毛发

现代汽车开发全球首款基于机器学习的智能巡航控制技术

现代汽车集团宣布开发了全球首款基于机器学习的智能巡航控制技术,可识别和分析驾驶模式,打造定制的自动驾....
的头像 璟琰乀 发表于 12-02 10:37 193次 阅读
现代汽车开发全球首款基于机器学习的智能巡航控制技术

2030网络体系架构在技术堆栈上包括哪三个方面?

在“2020年网络5.0峰会”上,谈及面向2030年的网络体系架构,网络5.0产业和技术创新联盟专家....
的头像 lhl545545 发表于 12-02 10:36 132次 阅读
2030网络体系架构在技术堆栈上包括哪三个方面?

美国学校用AI批改作业:自动批改软件经常把正确的答案标注为错误

前段时间,江苏一家长大呼我就退出家长群怎么了迅速引起公众关注。 很多家长在感叹压垮一个成年人只需一个....
的头像 机器人大讲堂 发表于 12-02 10:33 92次 阅读
美国学校用AI批改作业:自动批改软件经常把正确的答案标注为错误

腾讯 AI 王者「绝悟」升级了

AI 王者「绝悟」升级了,能达到精通金庸武侠里所有武功的那种水平。 腾讯宣布,由腾讯 AI Lab ....
的头像 机器人大讲堂 发表于 12-02 10:29 211次 阅读
腾讯 AI 王者「绝悟」升级了

宜家已在最新的Home Smart软件更新中推出了场景支持

1.仿人智能控制理论及应用研究进展 仿人智能控制是现代智能控制理论之一,利用分层递阶的控制结构与多控....
的头像 机器人大讲堂 发表于 12-02 10:23 324次 阅读
宜家已在最新的Home Smart软件更新中推出了场景支持

Intel处理器发展的三大核心:CPU、GPU、AI,三位一体

用电脑这么多年,大家现在能分清CPU和处理器的关系吗?很多年中,大家默认处理器就等于CPU,后者全称....
的头像 工程师邓生 发表于 12-02 10:20 264次 阅读
Intel处理器发展的三大核心:CPU、GPU、AI,三位一体

改变AI在自动驾驶汽车和网络安全中的运用

据外媒报道,英国兰卡斯特大学(Lancaster University)的一名研究人员Christo....
的头像 电子魔法师 发表于 12-02 10:14 213次 阅读
改变AI在自动驾驶汽车和网络安全中的运用

全球晶圆代工产能不足将持续到2022年之后

12月1日消息,晶圆代工厂力积电11月30日召开法人说明会,力积电董事长黄崇仁表示,全球晶圆代工产能....
的头像 lhl545545 发表于 12-02 10:05 172次 阅读
全球晶圆代工产能不足将持续到2022年之后

应用AI的企业与不采用AI的企业之间的差距可能会扩大

近期,麦肯锡发布了有关AI状况的全球调查报告,这是该报告连续第三年发布。对高管的访问和从业者的调查发....
的头像 机器人大讲堂 发表于 12-02 09:57 123次 阅读
应用AI的企业与不采用AI的企业之间的差距可能会扩大

海外大学生研发AI模型,可快速生成中国山水画

近日,普林斯顿大学本科生Alice Xue的毕业论文,获得了普林斯顿2020优秀毕业论文奖。
的头像 如意 发表于 12-02 09:47 122次 阅读
海外大学生研发AI模型,可快速生成中国山水画

华为将14款机型列入EMUI 11公测清单

等了许久,华为P30系列终于吃上EMUI 11了。
的头像 lhl545545 发表于 12-02 09:26 117次 阅读
华为将14款机型列入EMUI 11公测清单

CMOS图像传感器迎来新一轮的发展浪潮

无人机越来越聪明了!很多使用者都有这样的感慨。从前操作无人机都要小心翼翼,唯恐突遇障碍物挡道,遭遇炸....
的头像 我快闭嘴 发表于 12-02 09:18 263次 阅读
CMOS图像传感器迎来新一轮的发展浪潮

AI算力达到26 TOPS!年末最强5nm芯片骁龙888发布,小米11首发

12月1日晚间23点,2020高通骁龙技术峰会正式开始,高通公司总裁安蒙发表5G最新动态,并携手全球....
的头像 章鹰 发表于 12-02 08:48 1783次 阅读
AI算力达到26 TOPS!年末最强5nm芯片骁龙888发布,小米11首发

联发科AIoT芯片平台助力智能生活

近年来 AIoT 技术如何赋能智能生活的议题备受关注,在相关的技术领域,MediaTek 推出了面向....
的头像 璟琰乀 发表于 12-01 18:09 296次 阅读
联发科AIoT芯片平台助力智能生活

将机器学习转移到网络边缘变得引人注目

离网络边缘更近一步 机器学习介绍 机器学习是大多数AI应用的核心,负责教计算机学会识别数据中的模式。....
的头像 璟琰乀 发表于 12-01 18:03 224次 阅读
将机器学习转移到网络边缘变得引人注目

vivo宣布OriginOS开启内测:NEX 3S/iQOO尝鲜

今天,vivo宣布OriginOS开启内测招募。 招募机型包括vivo X50、vivo S7、vi....
的头像 工程师邓生 发表于 12-01 17:55 183次 阅读
vivo宣布OriginOS开启内测:NEX 3S/iQOO尝鲜

金山办公WPS 2021年更新:发布5款协作产品,升级多屏、云、AI、内容和协作

12 月 1 日消息,在 WPS 「CHAO」办公大会上,金山办公将宣布公司全新战略 协作,同时发布....
的头像 工程师邓生 发表于 12-01 17:12 438次 阅读
金山办公WPS 2021年更新:发布5款协作产品,升级多屏、云、AI、内容和协作

人工智能在家庭安全中的应用

家庭安全正在蓬勃发展。越来越多的人拥有智能的门铃,警报器和门锁,但是AI与云技术一起,将彻底改变这些....
的头像 电子魔法师 发表于 12-01 17:07 650次 阅读
人工智能在家庭安全中的应用

AI芯片TOP 6 哪家融资更强

前言:今年,国内AI芯片产业高潮迭起。去年国内AI芯片领域投资金额总计58.57亿元,同比增幅超过9....
的头像 Les 发表于 12-01 16:42 431次 阅读
AI芯片TOP 6 哪家融资更强

AI业务成为长期增长引擎,猎豹移动走出低谷时刻

对于一家企业而言,如何在风云莫测的商业环境中找准自身定位,不断适应瞬息万变的市场走向,是非常值得深思....
的头像 Les 发表于 12-01 16:35 115次 阅读
AI业务成为长期增长引擎,猎豹移动走出低谷时刻

俄罗斯建立建立水下、水面和空中无人机的全球网络

其他大国仍在使用机器人和自动武器取得巨大进展,仍然是一个巨大的危险。
发表于 12-01 16:27 56次 阅读
俄罗斯建立建立水下、水面和空中无人机的全球网络

猎豹移动已形成“安全工具+AI机器人场景”核心双轮驱动

对于一家企业而言,如何在风云莫测的商业环境中找准自身定位,不断适应瞬息万变的市场走向,是非常值得深思....
的头像 璟琰乀 发表于 12-01 15:32 203次 阅读
猎豹移动已形成“安全工具+AI机器人场景”核心双轮驱动

5G与AI结合有助于加速各自的应用创新

外媒报道称,据国际调研公司Moor Insights & Strategy最新发布的报告指出,将5G....
的头像 lhl545545 发表于 12-01 15:19 258次 阅读
5G与AI结合有助于加速各自的应用创新

中国人工智能大赛完美收官

继中国人工智能大赛语言与知识技术竞赛个人赛圆满结束后,中国人工智能大赛团体赛于7月22日正式开战。分....
的头像 璟琰乀 发表于 12-01 15:16 448次 阅读
中国人工智能大赛完美收官

企业可参考借鉴AI在医疗领域的成功经验

认知技术正在被用来解决世界上比较大的挑战。本文介绍了企业是如何让认知人工智能发挥作用的。
的头像 如意 发表于 12-01 15:15 107次 阅读
企业可参考借鉴AI在医疗领域的成功经验

概述不同类型的人工智能和机器学习技术

人工智能是一个广泛的术语,涵盖了许多技术,所有这些技术使计算机能够显示类似于我们人类的某种程度的智能....
发表于 12-01 15:10 501次 阅读
概述不同类型的人工智能和机器学习技术

中国电信为专网行业融合创新提供交流合作平台

当下,5G、AI(人工智能)作为新基建的重点领域不仅成为今年大家讨论的热点,更是在各项政策、新冠疫情....
的头像 lhl545545 发表于 12-01 11:40 251次 阅读
中国电信为专网行业融合创新提供交流合作平台

雷军澄清外界对小米的三个误解

在近日举行的2020亚布力论坛年会上,小米集团创始人、董事长兼CEO雷军分享了三个社会上对小米的常见....
的头像 lhl545545 发表于 12-01 11:36 339次 阅读
雷军澄清外界对小米的三个误解

科大讯发布智能录音:新增离线转写功能,内置摄像头,支持 OCR 文字

12月1日消息 今日,科大讯飞线上发布新一代讯飞智能录音笔 SR502,新增离线转写功能,内置摄像头....
的头像 工程师邓生 发表于 12-01 11:26 204次 阅读
科大讯发布智能录音:新增离线转写功能,内置摄像头,支持 OCR 文字

浅谈中国AI芯片的创新之路

清华大学微纳电子系副主任、微电子所副所长尹首今(1)日发表了以《中国AI芯⽚的创新之路》为主题的演讲....
的头像 我快闭嘴 发表于 12-01 11:17 568次 阅读
浅谈中国AI芯片的创新之路

微软深度神经网络:基于Azure云的端到端语音合成系统

以往,谈及对合成语音的刻板印象,很多人会联想到《星球大战》中的C-3PO那个有着近似人类外形金光闪闪....
的头像 Les 发表于 12-01 11:05 100次 阅读
微软深度神经网络:基于Azure云的端到端语音合成系统

AI在手游方面有哪些新的应用?

AI不仅能够帮助拍摄出更加清晰通透的夜景照片,实现更流畅的实时翻译,也可以让游戏体验更进一步。高通骁....
的头像 Qualcomm中国 发表于 12-01 10:48 163次 阅读
AI在手游方面有哪些新的应用?

AI领域人才表现出高增长态势

据BOSS直聘职业科学实验室提供的数据显示,人工智能领域人才进入高速可持续增长阶段。在这个领域的新职....
的头像 Les 发表于 12-01 10:48 165次 阅读
AI领域人才表现出高增长态势

HiSpark_WiFi_IoT_智能小车开发套件的安装文档和安装视频有问题,谁来解决下。

HiSpark_WiFi_IoT_智能小车开发套件资源的下载地址如下: http://www.hihope.org/download/WiFi 但安装文档和安装视...
发表于 09-13 20:39 334次 阅读
HiSpark_WiFi_IoT_智能小车开发套件的安装文档和安装视频有问题,谁来解决下。

【免费申请】万物互联,HiSpark Wi-Fi IoT HarmonyOS 智能家居套件帮你实现!

万物互联时代,提到Wi-Fi大家都不陌生,因为Wi-Fi作为日常电子产品无线网络连接有着非常高的普及程度。如智能手机、平板电脑...
发表于 09-10 15:54 5085次 阅读
【免费申请】万物互联,HiSpark Wi-Fi IoT HarmonyOS 智能家居套件帮你实现!

基于51单片机的智能教室设计!(智能照明+人数统计,原理图&PCB&源码)

教室智能照明控制系统功能概述:1.单片机STC89C52、时钟芯片DS1302、液晶屏LCD1602、光敏电阻、红外对管、设计一个教室...
发表于 08-26 18:55 231次 阅读
基于51单片机的智能教室设计!(智能照明+人数统计,原理图&PCB&源码)

详解语音识别技术原理

简要给大家介绍一下语音怎么变文字的吧。需要说明的是,这篇文章为了易读性而牺牲了严谨性,因此文中的很多表述实际上是不准确的...
发表于 05-30 07:41 526次 阅读
详解语音识别技术原理

RFX2402E与RFX2401C对比分析以及选型芯片详解

1. 产品简述: CMOS 2.4GHZ发射/接收WLAN芯片RFX2402E是一个包含所有射频功能完全集成的、单芯片、单模的RF前...
发表于 01-10 13:45 1035次 阅读
RFX2402E与RFX2401C对比分析以及选型芯片详解

串口屏在智能厨电行业的应用

串口屏在智能厨电行业的应用.pdf
发表于 12-13 15:02 508次 阅读
串口屏在智能厨电行业的应用

大彩智能屏在广播音响行业的应用.pdf

大彩智能屏在广播音响行业的应用:在传统按键式控制方案无法满足用户对于设备美观、便于上手操作需求的前提下,智能屏方案应运而...
发表于 11-22 16:09 737次 阅读
大彩智能屏在广播音响行业的应用.pdf

大彩串口屏在充电桩行业的应用

大彩串口屏在充电桩行业的应用: 电动汽车作为一种发展前景广阔的绿色交通工具,今后的普及速度会异常迅猛,未来的市场前景也是...
发表于 11-21 14:46 654次 阅读
大彩串口屏在充电桩行业的应用

什么是Windows Embedded Compact 7技术?

家,最早的功能是为人类提供遮风避雨和安全防护的功能。随着人类改造自然能力的不断提高,相应对家居的要求也不断提高。人们期望...
发表于 10-22 06:25 383次 阅读
什么是Windows Embedded Compact 7技术?

4G智能时代的射频技术长什么样呢?

由于4G LTE的出现,使得频段越来越多,频段越多就会导致智能手机的设计复杂性越来越大;加上频谱资源是一个非常稀缺的资源,...
发表于 09-03 07:17 446次 阅读
4G智能时代的射频技术长什么样呢?