0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语音识别技术最新进展:视听融合的多模态交互成为主要演进方向

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-12-28 09:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)所谓“模态”,英文是modality,用通俗的话说,就是“感官”,多模态即将多种感官融合。多模态交互技术是近年来人工智能领域的一项重要创新。随着语音识别技术的发展,采用多种模态(声学、语言模型、视觉特征等)进行联合建模,基于深度学习的多模态语音识别取得了新进展。

多模态交互的原理及优势

多模态交互技术融合了多种输入方式,包括语音、手势、触摸和眼动等,使用户可以根据自己的喜好和习惯选择最方便的交互方式。多模态交互通过将不同输入方式的数据进行融合和处理,实现更准确、智能的交互响应,提高用户体验。

上周在星宸科技2023开发者大会暨产品发布会论坛上,科大讯飞企业数字化副总裁卢尧谈到,人工智能有三个层次,1、运算智能:能存会算;2、感知智能:能听会说,能看会认;3、认知智能:能理解会思考。而感知智能典型的进展是多模态交互。

从卢尧的介绍来看,融合了视觉和语音的多模态免唤醒系统具有明显优势。如下图:这套多模态免唤醒交互系统,同时采用视觉检测和语音识别交互,误唤醒率仅为0.01%,交互响应成功率相较于仅基于语音识别交互系统大幅提升。

wKgaomWMymCACWUdAAZDJDahffk724.jpg

早在今年5月,科大讯飞AI研究院副院长高建清博士就在某论坛上介绍过公司在多模态语音交互技术方面的最新进展。据高建清介绍,科大讯飞依托语音与视觉方面的多年积累,打造了一套语音、视觉多模态融合的免唤醒多模态交互系统。

通过将麦克风提供的空间信息和音视频提供的说话人相关信息进行融合绑定,实现高准确度的说话人分离;通过多模态VAD与端到端意图技术的结合,实现无唤醒词的自然人机交互,具有可靠、自然、鲁棒的特点。

具体来看,基于多模态多通道的语音分离系统,将语音信号、麦克风阵列提供的空间信息以及主说话人的唇形输入分离模型,系统最终输出视频说话人的语音,抑制背景噪声及干扰说话人语音。在多人同时讲话、车载音乐情况下,语音识别效果相比单模分离系统有50%以上性能提升。不仅解决了传统麦克风阵列方法无法有效区分同向干扰的问题,还可提升非同向干扰分离场景的性能。

多模态交互技术的应用

语音识别是人工智能技术的一个重要分支,近些年来,智能语音也在多项技术难点上取得突破。业界普遍认为,在语音识别方面,视听融合的多模态交互技术成为技术演进的主要方向。

科大讯飞是国内主要的智能语音技术玩家,其多模语音增强技术融合语音与视觉的多模感知,让高噪音场景下的语音交互跨过实用门槛,目前已经在车载、会议、地铁购票和医疗挂号等场景落地。

wKgaomWMymyAGg6TAAa96QItwQ8667.jpg

在车载领域,人机交互系统需要攻克两大难题:一是环境噪音及人声干扰,尤其是麦克风阵列技术难以解决的同向人声干扰问题(如:驾驶员与左后方乘客同时说话);二是传统语音交互系统每次启动交互都需要说唤醒词,难以做到像人与人交流一样自然顺畅。

此前就有消息显示,科大讯飞多模态免唤醒交互解决方案将率先在广汽传祺和威马等自主品牌车型上部署应用。该方案能够适应复杂光线暗、语音嘈杂等多种工况,并支持主流SOC和DMS摄像头。

在地铁购票场景中,此前因为地铁站点太多,买票难以找到目的地站点,而且这些操作对于老年人不太友好,而语音购票的功能让这些问题迎刃而解。同时,因为地铁站人声嘈杂,也使得语音交互的体验并不友好。

根据此前的报道,深圳地铁12号线智能售票机及智慧客服终端上,率先采用了科大讯飞多模语音增强技术,该技术通过识别人脸唇形等信息,同时结合人声,使得即使在人声嘈杂的环境,语音识别的准确率也大大提升。

多模态语音识别技术在智能家居场景中也非常实用。融合语音、手势、视觉感知,用户可以过简单的口头指令控制智能家居设备,实现智能灯光、家居安防等功能,通过摄像头和深度学习技术,智能家居可以识别用户的手势动作,实现手势控制家居设备的操作。同时,通过视觉感知技术,识别用户的面部表情和情绪状态,根据不同情况提供相应的互动体验。

总结

经过多年的发展,语音识别技术已经相当成熟,并且在车载、智能家居等各种场景中实现应用,并给人们的生活带来便利。然而同时,一直以来语音识别也存在诸多难点,比如环境噪声、多人同时发出声音等情况,都会影响语音识别的准确率。而视听融合的多模态技术,将视觉和语音结合,能够很好的解决这些问题,使得语音识别的准确率大幅提升。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    39

    文章

    1816

    浏览量

    116226
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    智能机器人从0到1系统入门课程 带源码课件 百度网盘下载

    的深度理解。然而,未来的机器人交互必然是模态融合的——即“听觉”与“视觉”的深度协同。通过结合语音识别
    发表于 04-11 16:41

    2025年联接领域十大创新进展回顾

    的创新前沿技术加速落地,形成“短距+广域”协同发展格局,成为万物互联的核心基础。下面让我们一起回顾2025年联接领域十大创新进展
    的头像 发表于 01-19 13:08 751次阅读

    以智能交互拓展边界,乐鑫芯片模组的场景化应用实践

    乐鑫科技ESP系列芯片模组通过边缘AI与模态交互技术,为智能设备提供创新解决方案。支持"边缘预处理+云端智能"的AI语音
    的头像 发表于 01-08 15:52 1935次阅读
    以智能<b class='flag-5'>交互</b>拓展边界,乐鑫芯片模组的场景化应用实践

    从协议到实践——EtherNet/IP与NetStaX的最新进展

    从协议到实践——EtherNet/IP与NetStaX的最新进展
    的头像 发表于 12-19 15:26 1683次阅读
    从协议到实践——EtherNet/IP与NetStaX的<b class='flag-5'>最新进展</b>

    存算一体架构赋能AI眼镜革新:S300芯片定义模态智能终端新思路

    随着生成式AI与边缘计算的深度融合,智能眼镜正从单一功能的穿戴设备向“全天候AI助手”演进。根据资料显示,2025年前三季度全球AI眼镜市场规模同比增长119%,其中具备语音交互、视觉
    的头像 发表于 12-09 16:03 940次阅读
    存算一体架构赋能AI眼镜革新:S300芯片定义<b class='flag-5'>多</b><b class='flag-5'>模态</b>智能终端新思路

    语音核心网技术对运营商的战略意义

    2025 年 11 月 26 日在泰国曼谷举办主题为“智能核心网赋能移动AI时代” 的 5G 核心网峰会。届时,来自运营商、行业组织及标准化机构的专家将齐聚一堂,探讨语音核心网技术最新进展与关键发展趋势,并深入交流如何运用 A
    的头像 发表于 11-25 15:40 709次阅读

    RTC技术重塑AI玩具体验,实时交互的未来演进之路

    电子发烧友网综合报道 在全球AI玩具市场迅猛发展的浪潮中,实时通信(RTC)技术正从幕后走向台前,成为定义下一代产品体验的核心力量。当AI玩具从简单的语音应答升级为具备情感陪伴、
    的头像 发表于 11-21 14:19 2444次阅读

    语音识别芯片有哪些(语音识别芯片AT680系列)

    在人工智能技术飞速发展的今天,语音识别芯片作为人机交互的重要桥梁,正逐渐成为各类智能设备不可或缺的核心部件。与传统的
    的头像 发表于 11-14 17:11 1511次阅读

    芯科科技分享在物联网领域的最新进展

    Labs(芯科科技)亚太区业务副总裁王禄铭、中国大陆区总经理周巍及台湾区总经理宝陆格就公司技术路线、产品策略及市场趋势回答了媒体提问。三位高管围绕安全认证、无线连接、边缘计算等议题,介绍了公司在物联网领域的最新进展
    的头像 发表于 11-13 10:48 1881次阅读

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    “看图说话+语音问答”的融合交互。 五、结论与未来发展方向如果说 “大模型上云” 是 AI 的 “星辰大海”,那么 “
    发表于 09-05 17:25

    东风汽车转型突破取得新进展

    上半年,东风汽车坚定高质量发展步伐,整体销量逐月回升,经营质量持续改善,自主品牌和新能源渗透率和收益性进一步提升,半年累计终端销售汽车111.6万辆,转型突破取得新进展
    的头像 发表于 07-10 15:29 1028次阅读

    汽车模态交互测试:智能交互的深度验证

    在汽车智能座舱测试的关键进程中,北京沃华慧通测控技术有限公司展现出了独特的价值与优势。作为一家专注于测控技术领域的企业,沃华慧通在智能座舱测试方面积累了丰富的经验和专业的技术能力。其研发的测试设备能够精准模拟各种复杂的车载环境,
    的头像 发表于 06-25 09:00 1535次阅读
    汽车<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>交互</b>测试:智能<b class='flag-5'>交互</b>的深度验证

    芯资讯|广州唯创电子WTK6900P语音识别芯片:离线语音交互的革新者

    在智能设备全面普及的浪潮中,语音交互技术正逐步从“云端依赖”向“本地化高效处理”演进。广州唯创电子推出的WTK6900P语音
    的头像 发表于 05-22 09:22 939次阅读
    芯资讯|广州唯创电子WTK6900P<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片:离线<b class='flag-5'>语音</b><b class='flag-5'>交互</b>的革新者

    英特尔持续推进核心制程和先进封装技术创新,分享最新进展

    近日,在2025英特尔代工大会上,英特尔展示了代核心制程和先进封装技术最新进展,这些突破不仅体现了英特尔在技术开发领域的持续创新,也面向客户需求提供了更高效、更灵活的解决方案。 在
    的头像 发表于 05-09 11:42 970次阅读
    英特尔持续推进核心制程和先进封装<b class='flag-5'>技术</b>创新,分享<b class='flag-5'>最新进展</b>

    百度在AI领域的最新进展

    近日,我们在武汉举办了Create2025百度AI开发者大会,与全球各地的5000多名开发者,分享了百度在AI领域的新进展
    的头像 发表于 04-30 10:14 1457次阅读