0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语音识别下一步发展如何?哪些技术可以使用?哪些价值可以发掘?

工程师邓生 来源:中关村在线 作者:张彬 2020-10-23 16:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2020科大讯飞全球1024开发者节今天正式拉开帷幕,伴随着AI的发展,我们得以更全面和细致地洞察人们的生活习惯,并为人们提供更加智能和便捷的服务。在人工智能的应用场景中,最重要的一个就是语音交互。针对这一点,科大讯飞AI研究院常务副院长刘聪做了细致的讲解,让我们对当前语音交互技术有了更清晰和深入的了解。

我们知道语音识别是讯飞的传统强项,从早期的呼叫、导航到2010年发布的讯飞超脑语音云和输入法,从而开启了中文语音输入的新时代。通过深度学习等框架持续的迭代效果,我们又陆续推出了方言识别、远场交互、多麦克风阵列等相关的功能。2015年,我们又将人机交互的场景拓展到人人对话的场景。为此我们总结出三点,我们将语音听写从简单场景的可用做到了通用。这种场景的好用,语音转写从原来的不好用,做到了像演讲、会议、庭审等很多复杂场景的好用。像语音控制、命令唤醒,我们也是从简单场景的可用,做到了复杂场景的好用。

随着现在语音识别在更多场景的应用,语音识别的下一步发展方向是什么?又有哪些技术可以从实验室场景走向成熟,还有哪些价值得我们发掘?

首先,我们认为语音识别需要持续的去挑战更加复杂的场景,去实现从语音到声音,从单纯的文字内容识别到音频的全场景解析。例如现在我们在泛娱乐当中,直播、短视频,我们可以看到这里面有很多的更加复杂的声音场景需要我们去解决。例如在直播的过程中,背景可能是复杂多样的,可能有视频声、游戏声或者音乐声。此外直播连麦的时候还会经常出现多人混叠的对话,这些对我们的语音识别都会有很大的影响。除此之外,这些视频当中还会包含像笑声、掌声、各种音效等声音,所以我们需要提出一些新的方案。当前的框架已经难以去解决这样一个复杂的问题。

针对这样一个场景,我们一方面需要降低各种背景的噪声对识别精度的影响。另外一方面,要有针对性的将我们感兴趣的声音提取出来。这里我们也是展示了全场景音频解析的整体方案。首先我们是通过多分辨率特征提取的声音检测方案,再结合我们的序列训练,对一些相似声音进行精细建模,可以实现将笑声、音效等非语音的声音和语音内容分离。针对包含语音的有效内容,我们也使用了语音降噪和分离的方案,综合利用我们的声音、文本、说话等信息,以及在有条件的情况下,还可以使用多模态的唇形、视线以及麦克风阵列的空间位置等信息来进行联合建模。以上这些才能保证我们能够持续保持语音合成以及语音识别技术的领先。

与此同时,我们也和合作伙伴一起,不断提升在直播等复杂场景上的语音识别效果,并且准确率从60%提到了85%。未来我们相关的技术也会在我们的开放平台——讯飞听见等上线。未来,我们会做得更好,请大家继续期待。
责任编辑:PSY

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能
    +关注

    关注

    8

    文章

    1761

    浏览量

    122273
  • AI
    AI
    +关注

    关注

    91

    文章

    42239

    浏览量

    303291
  • 语音识别技术

    关注

    0

    文章

    55

    浏览量

    13347
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    大理5G研究院加速建设面向南亚东南亚新代信息技术产业化合作新通道

    下一步,大理5G研究院将继续聚焦‘工业级5G+北斗+AI+卫星通信’等核心方向,持续完善科技创新平台,发掘和拓展跨境应用场景,深化与南亚东南亚国家在科技研发、产业合作、人才交流等方面的务实合作,推动
    的头像 发表于 05-22 12:30 190次阅读
    大理5G研究院加速建设面向南亚东南亚新<b class='flag-5'>一</b>代信息<b class='flag-5'>技术</b>产业化合作新通道

    可以使用串口控制MP3播放的芯片

    可以使用串口控制MP3播放的芯片串口指令控制是音频芯片领域应用比较广泛的交互方式之。相对而言纯按键方案具备布线简洁、可编程扩展、兼容性好等优势,特别适合需要和主控MCU协同工作的嵌入式场景。本篇
    的头像 发表于 04-25 11:41 291次阅读
    <b class='flag-5'>可以使</b>用串口控制MP3播放的芯片

    语音识别ic芯片分类工作原理,语音识别芯片分类

    设备执行相应动作。例如,在智能娃娃产品中,当用户说出“眨眨眼”,芯片识别指令后便会控制电机让娃娃完成眨眼动作。除了语音识别功能,现代语音识别
    的头像 发表于 04-24 15:14 270次阅读
    <b class='flag-5'>语音</b><b class='flag-5'>识别</b>ic芯片分类工作原理,<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片分类

    语音识别IC分类,语音识别芯片的工作原理

    语音识别芯片,也叫语音识别集成电路,是种集声音存储、播放、录音及语音
    的头像 发表于 01-14 15:22 520次阅读
    <b class='flag-5'>语音</b><b class='flag-5'>识别</b>IC分类,<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片的工作原理

    语音识别芯片有哪些(语音识别芯片AT680系列)

    在人工智能技术飞速发展的今天,语音识别芯片作为人机交互的重要桥梁,正逐渐成为各类智能设备不可或缺的核心部件。与传统的语音芯片不同,
    的头像 发表于 11-14 17:11 1656次阅读

    广州唯创电子WTK6900H-32N语音识别芯片:智能语音控制赋能LED灯带创新应用 | 语音IC厂家

    芯片,凭借其卓越的性能和精准的识别能力,在LED灯带控制领域展现出强大的应用价值,为智能照明系统带来了革命性的创新突破。、核心技术优势1.1高性能
    的头像 发表于 11-04 08:53 941次阅读
    广州唯创电子WTK6900H-32N<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片:智能<b class='flag-5'>语音</b>控制赋能LED灯带创新应用 | <b class='flag-5'>语音</b>IC厂家

    什么是离线语音识别芯片(离线语音识别芯片有哪些优点)

    离线语音识别芯片,是种集成了语音信号采集、前端处理和本地识别功能的专用集成电路,无须联网也可以
    的头像 发表于 10-31 15:27 783次阅读

    如何选择合适的语音识别芯片型号

    语音识别芯片(又称语音识别IC)是现代智能设备的核心组件,与传统语音芯片相比,其最大特点是能够主动识别
    的头像 发表于 10-30 16:32 828次阅读

    搭建自己的ubuntu系统之创建ubuntu虚拟机

    打开VMware软件,点击创建新的虚拟机。进入以下界面:选择自定义,点击“下一步”。选择对应VMware版本的兼容性,版本可在帮助-&gt;关于VMware Workstation中
    发表于 09-25 09:39

    ubuntu系统安装之Vmware虚拟机安装

    ,装到自己电脑安装软件的分区,点击“下一步”。 勾选,点击“下一步”。 勾选添加快捷方式,点击“下一步”。 点击“安装”。 等待安装完成。 点击完成安装。双击桌面上的VMware图标“” 学习
    发表于 09-22 16:27

    语音识别---大家怎么看呢?

    语音识别门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未
    发表于 08-09 10:54

    晶圆级封装:连接密度提升的关键一步

    了解晶圆级封装如何进一步提高芯片的连接密度,为后续技术发展奠定基础。
    的头像 发表于 06-27 16:51 1063次阅读

    各位大佬,想问下为什么这个程序一步一步运行就可以读出正确的读数,正常运行却读不出正确读数

    各位大佬,想问下为什么这个程序一步一步运行就可以读出正确的读数,正常运行却读不出正确读数
    发表于 06-23 09:57

    智驾安全,发展到哪一步了?

    智驾安全,发展到哪一步了?
    的头像 发表于 06-10 11:28 914次阅读

    门铃语音芯片有哪几种型号可以选择?

    门铃语音芯片的选择可以很广泛!因为简单的OTP语音芯片也可以用,高级点的FLASH语音芯片,或
    的头像 发表于 06-09 15:58 883次阅读