0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语音识别技术最新进展:视听融合的多模态交互成为主要演进方向

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-12-28 09:06 次阅读

电子发烧友网报道(文/李弯弯)所谓“模态”,英文是modality,用通俗的话说,就是“感官”,多模态即将多种感官融合。多模态交互技术是近年来人工智能领域的一项重要创新。随着语音识别技术的发展,采用多种模态(声学、语言模型、视觉特征等)进行联合建模,基于深度学习的多模态语音识别取得了新进展。

多模态交互的原理及优势

多模态交互技术融合了多种输入方式,包括语音、手势、触摸和眼动等,使用户可以根据自己的喜好和习惯选择最方便的交互方式。多模态交互通过将不同输入方式的数据进行融合和处理,实现更准确、智能的交互响应,提高用户体验。

上周在星宸科技2023开发者大会暨产品发布会论坛上,科大讯飞企业数字化副总裁卢尧谈到,人工智能有三个层次,1、运算智能:能存会算;2、感知智能:能听会说,能看会认;3、认知智能:能理解会思考。而感知智能典型的进展是多模态交互。

从卢尧的介绍来看,融合了视觉和语音的多模态免唤醒系统具有明显优势。如下图:这套多模态免唤醒交互系统,同时采用视觉检测和语音识别交互,误唤醒率仅为0.01%,交互响应成功率相较于仅基于语音识别交互系统大幅提升。

wKgaomWMymCACWUdAAZDJDahffk724.jpg

早在今年5月,科大讯飞AI研究院副院长高建清博士就在某论坛上介绍过公司在多模态语音交互技术方面的最新进展。据高建清介绍,科大讯飞依托语音与视觉方面的多年积累,打造了一套语音、视觉多模态融合的免唤醒多模态交互系统。

通过将麦克风提供的空间信息和音视频提供的说话人相关信息进行融合绑定,实现高准确度的说话人分离;通过多模态VAD与端到端意图技术的结合,实现无唤醒词的自然人机交互,具有可靠、自然、鲁棒的特点。

具体来看,基于多模态多通道的语音分离系统,将语音信号、麦克风阵列提供的空间信息以及主说话人的唇形输入分离模型,系统最终输出视频说话人的语音,抑制背景噪声及干扰说话人语音。在多人同时讲话、车载音乐情况下,语音识别效果相比单模分离系统有50%以上性能提升。不仅解决了传统麦克风阵列方法无法有效区分同向干扰的问题,还可提升非同向干扰分离场景的性能。

多模态交互技术的应用

语音识别是人工智能技术的一个重要分支,近些年来,智能语音也在多项技术难点上取得突破。业界普遍认为,在语音识别方面,视听融合的多模态交互技术成为技术演进的主要方向。

科大讯飞是国内主要的智能语音技术玩家,其多模语音增强技术融合语音与视觉的多模感知,让高噪音场景下的语音交互跨过实用门槛,目前已经在车载、会议、地铁购票和医疗挂号等场景落地。

wKgaomWMymyAGg6TAAa96QItwQ8667.jpg

在车载领域,人机交互系统需要攻克两大难题:一是环境噪音及人声干扰,尤其是麦克风阵列技术难以解决的同向人声干扰问题(如:驾驶员与左后方乘客同时说话);二是传统语音交互系统每次启动交互都需要说唤醒词,难以做到像人与人交流一样自然顺畅。

此前就有消息显示,科大讯飞多模态免唤醒交互解决方案将率先在广汽传祺和威马等自主品牌车型上部署应用。该方案能够适应复杂光线暗、语音嘈杂等多种工况,并支持主流SOC和DMS摄像头。

在地铁购票场景中,此前因为地铁站点太多,买票难以找到目的地站点,而且这些操作对于老年人不太友好,而语音购票的功能让这些问题迎刃而解。同时,因为地铁站人声嘈杂,也使得语音交互的体验并不友好。

根据此前的报道,深圳地铁12号线智能售票机及智慧客服终端上,率先采用了科大讯飞多模语音增强技术,该技术通过识别人脸唇形等信息,同时结合人声,使得即使在人声嘈杂的环境,语音识别的准确率也大大提升。

多模态语音识别技术在智能家居场景中也非常实用。融合语音、手势、视觉感知,用户可以过简单的口头指令控制智能家居设备,实现智能灯光、家居安防等功能,通过摄像头和深度学习技术,智能家居可以识别用户的手势动作,实现手势控制家居设备的操作。同时,通过视觉感知技术,识别用户的面部表情和情绪状态,根据不同情况提供相应的互动体验。

总结

经过多年的发展,语音识别技术已经相当成熟,并且在车载、智能家居等各种场景中实现应用,并给人们的生活带来便利。然而同时,一直以来语音识别也存在诸多难点,比如环境噪声、多人同时发出声音等情况,都会影响语音识别的准确率。而视听融合的多模态技术,将视觉和语音结合,能够很好的解决这些问题,使得语音识别的准确率大幅提升。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    37

    文章

    1635

    浏览量

    111835
收藏 人收藏

    评论

    相关推荐

    百度首席技术官王海峰解读文心大模型的关键技术最新进展

    4月16日,以“创造未来”为主题的Create 2024百度AI开发者大会在深圳国际会展中心成功举办。百度首席技术官王海峰以“技术筑基,星河璀璨”为题,发表演讲,解读了智能体、代码、多模型等多项文心大模型的关键
    的头像 发表于 04-18 09:20 234次阅读
    百度首席<b class='flag-5'>技术</b>官王海峰解读文心大模型的关键<b class='flag-5'>技术</b>和<b class='flag-5'>最新进展</b>

    四个50亿+,多个半导体项目最新进展

    来源:全球半导体观察,谢谢 编辑:感知芯视界 Link 近日,半导体行业多个项目迎来最新进展,其中浙江丽水特色工艺晶圆制造项目、浙江中宁硅业硅碳负极材料及高纯硅烷系列产品项目、晶隆半导体材料及器件
    的头像 发表于 02-27 09:35 479次阅读

    两家企业有关LED项目的最新进展

    近日,乾富半导体与英创力两家企业有关LED项目传来最新进展
    的头像 发表于 01-15 13:37 346次阅读

    情感语音识别技术前沿与未来趋势

    一、引言 情感语音识别是当前人工智能领域的前沿技术,它通过分析人类语音中的情感信息,实现更加智能化和个性化的人机交互。本文将探讨情感
    的头像 发表于 11-28 18:35 265次阅读

    离线语音识别及控制是怎样的技术

    引言:  随着人工智能的飞速发展,离线语音识别技术成为了一项备受瞩目的创新。离线语音识别
    发表于 11-24 17:41

    国星光电LED器件封装及其应用产品项目最新进展

    近日,国星光电LED器件封装及其应用产品项目传来新进展
    的头像 发表于 11-03 14:19 452次阅读

    VisionFive 2 AOSP最新进展即将发布!

    非常开心地在这里和大家提前预告,我们即将发布VisionFive 2 集成 AOSP的最新进展!请大家多多期待吧~ 此次通过众多社区成员的支持和贡献(https://github.com
    发表于 10-08 09:15

    语音识别技术进展、挑战和未来

    语音识别技术是一种人机交互的核心技术,它赋予机器“听懂”人类语言的能力。这项技术从早期的符号
    的头像 发表于 09-24 09:48 549次阅读

    峰会回顾第7期 | 视窗绘制技术演进和新趋势

    体验已成为趋势。当前UI开发框架对2D&3D融合场景支持仍不足,主要表现为:OS视窗的GUI框架以支持2D界面开发为主,缺乏3D的动态光影效果和空间深度感;而纯3D界面开发框架
    发表于 08-22 16:33

    三大MLED项目“动起来” Mini LED项目传来最新进展

    日前,博敏电子与穿越光电等企业有关Mini LED的项目传来最新进展
    的头像 发表于 08-14 14:15 1076次阅读

    常温超导最新进展 韩国室温超导体“LK-99”撤回论文

    常温超导最新进展 韩国室温超导体“LK-99”撤回论文 有业界人士认为超导跟人工智能一样都能被视为第四次工业革命的奇点,近期室温超导概念非常火爆,我们一起看看常温超导最新进展。 上一次室温超导
    的头像 发表于 08-02 17:22 2302次阅读

    ASML***的最新进展

    、与 Mike在SEMICON 上的一些讨论以及 ASML 最近的财报电话会议中的一些内容。以分享了ASML光刻机的最新进展
    的头像 发表于 07-30 10:39 1833次阅读
    ASML***的<b class='flag-5'>最新进展</b>

    2023汽车电子创新技术研讨会圆满落幕:探讨汽车电子的最新进展、应用趋势与挑战

    、凌鸥创芯(晶丰明源)、顺络电子、芯科集成 、华邦电子、茂睿芯、芯派科技、芯海科技、东方中科等多家国内外知名企业的专家和领导共同参与,探讨汽车电子创新技术最新进展、应用趋势和挑战。会议干货满满,现场精彩纷呈!!!     会议的开始,电子发烧友网
    发表于 06-14 17:41 926次阅读
    2023汽车电子创新<b class='flag-5'>技术</b>研讨会圆满落幕:探讨汽车电子的<b class='flag-5'>最新进展</b>、应用趋势与挑战

    碳纳米管薄膜光探测器最新进展

    、碳纳米管薄膜红外探测器以及碳纳米管光电集成研究方面的最新进展。 图1 碳纳米管探测器和光电集成 碳纳米管材料由于具有高红外吸收系数(3×10⁵ cm⁻¹)、高迁移率(10⁵ cm² V s⁻¹)、基底
    的头像 发表于 06-12 17:02 381次阅读
    碳纳米管薄膜光探测器<b class='flag-5'>最新进展</b>

    自动驾驶深度多模态目标检测和语义分割:数据集、方法和挑战

    深度学习推动了自动驾驶感知技术最新进展。为了实现鲁棒和准确的场景理解,自动驾驶汽车通常配备不同的传感器(如相机、激光雷达、雷 达),多种传感模式可以融合利用它们的互补特性。在此背景下,人们提出
    发表于 06-06 10:37 0次下载
    自动驾驶深度多<b class='flag-5'>模态</b>目标检测和语义分割:数据集、方法和挑战