0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是无声语音接口?

SSDFans 来源:SSDFans 2023-04-28 10:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

可穿戴设备依赖于具有标准物理能力的人机界面,如语音、触摸或运动。虽然这种形式的机器交互适用于大多数消费者,但残疾人可能很难或无法操作标准的可穿戴设备。为了使更多人能够使用可穿戴设备,研究人员正在研究新的人机界面。

最近,康奈尔大学的一个团队发表了一篇论文,描述了一副为不能发声的用户配备了无声语音接口(SSI)的智能眼镜。本文将讨论无声语音接口和来自康奈尔大学的可穿戴原型。

什么是无声语音接口?

无声语音接口(Silent speech interface,简称SSI)允许人们无需发声就能与机器互动。虽然AI助手(如苹果的Siri)等技术是通过声音交流工作的,但SSI通过与语音相关的动作来完成交流。

SSI技术通过嘴巴和舌头的运动而不是声音来识别语音。为了做到这一点,SSI依赖于各种不同的传感器,包括放置在嘴巴附近的振动传感器,用于检测人们嘴巴的振动,以及跟踪和分类与语音相关运动的摄像头。在许多情况下,这些信息会被机器学习算法处理,该算法会解释嘴巴的动作,并将其翻译成文字。

虽然大多数人可能找不到SSI的用途,但这项技术对于因疾病或受伤而失声的人来说是必不可少的,可以让他们更容易地交流。例如,患有声带损伤或影响语言的神经系统疾病的患者可以从SSI中获益良多。

康奈尔大学开发无摄像头SSI眼镜

最近,康奈尔大学的研究人员在SSI技术方面取得了重大进展,发明了基于SSI的智能眼镜。

该系统被称为EchoSpeech,是一种新颖的、侵入性最小的SSI技术,它使用低功率有源声学传感来捕捉由无声语音引起的细微皮肤变形,并将这些信息转换为可操作的数据。这款智能眼镜的原型建立在康奈尔大学之前对一种类似的声学传感可穿戴设备(“EarIO”)的研究基础上,EarIO可以从耳朵内追踪面部运动。

cf967ebe-e4fb-11ed-ab56-dac502259ad0.png

该系统依靠安装在眼镜框架上的一系列扬声器和麦克风向皮肤发射听不见的声波。发出的声波产生沿多条路径传播的回声,并被系统解释推断为佩戴者的无声语音。EchoSpeech完全可以在标准的智能手机上运行,只需要1到6分钟的训练数据,并以73.3 mW的低功耗实时运行。该团队的深度学习算法可以实时分析回声,准确率约为95%。

该系统通过12名用户研究进行了评估,成功展示了识别31个独立命令和三到六位连接数字的能力,单词错误率(WER)分别为4.5%(标准3.5%)和6.1%(标准4.2%)。此外,在行走和噪声注入等场景中测试了系统的鲁棒性。

更私密、低功耗、易使用

大多数SSI技术使用面部摄像头,从用户和与其交流的人那里收集数据。除了造成隐私问题外,可穿戴摄像头还会收集高带宽视频数据。

由于EchoSpeech不需要可穿戴摄像机,设备只捕捉音频数据,这比图像或视频数据需要的带宽要少得多,并且可以通过蓝牙实时发送到手机。隐私信息永远不会脱离用户的控制,因为数据是在智能手机上本地处理的(不用在云中处理)。研究人员表示,纯音频传感器的电池效率也更高:音频传感器可以工作10个小时,而摄像头只能工作30分钟。

康奈尔大学的研究小组表示,他们发现EchoSpeech在很多应用中都有应用价值,从默念密码来解锁智能手机,到跳过播放列表中的歌曲。该设备还可以与智能手机配对,在说话不方便的地方与他人交谈,比如嘈杂的餐厅或安静的图书馆。研究人员表示,该界面与手写笔和CAD等设计软件兼容,从而消除了对鼠标和键盘的需求。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人机界面
    +关注

    关注

    5

    文章

    551

    浏览量

    45449
  • SSI
    SSI
    +关注

    关注

    0

    文章

    40

    浏览量

    20048
  • 可穿戴设备
    +关注

    关注

    55

    文章

    3863

    浏览量

    169730

原文标题:什么?无声语音接口?

文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    什么是语音芯片串口AT指令?实现智能语音交互的核心技术详解

    什么是AT指令AT指令是一套基于串行通信接口的标准化指令集,专门用于声音播放芯片与其他设备之间的数据传输和控制操作。这种通信协议通过简单的文本命令格式,实现了对语音
    的头像 发表于 11-10 12:53 190次阅读
    什么是<b class='flag-5'>语音</b>芯片串口AT指令?实现智能<b class='flag-5'>语音</b>交互的核心技术详解

    无声的守护者:医疗设备电源滤波器的生命线作用

    无声的守护者:医疗设备电源滤波器的生命线作用|深圳维爱普
    的头像 发表于 09-28 11:50 357次阅读

    广州唯创电子WTN6xxx-8S语音芯片:智能充电桩的语音提示完美解决方案

    的使用说明或面对无声的操作流程,体验不够友好。据统计,清晰的语音提示可以降低40%以上的用户操作错误率,并显著提升用户满意度。广州唯创电子的WTN6xxx-8S语音芯片以其出色的低功耗、
    的头像 发表于 09-19 09:27 3228次阅读
    广州唯创电子WTN6xxx-8S<b class='flag-5'>语音</b>芯片:智能充电桩的<b class='flag-5'>语音</b>提示完美解决方案

    语音输出模块是什么?自控语音播报

    语音输出模块(VoiceOutputModule)是一种将数字信号或文本信息转换为人类可听语音的硬件/软件组件。相当于设备的“嘴巴”,让机器能够通过声音与人进行交互。 一、工作原理 1.输入接收
    的头像 发表于 08-13 15:20 616次阅读

    语音跳线和网络跳线区别

    语音跳线和网络跳线在传输信号类型、接口类型、线缆结构、应用场景等方面存在明显区别,以下是详细介绍: 传输信号类型 语音跳线:主要用于传输模拟语音信号,也就是我们日常打电话时所使用的声音
    的头像 发表于 06-27 10:09 643次阅读

    芯知识|语音芯片发码无声解析:上电无声、连发指令才响的三大根源及解决之道

    在嵌入式语音方案开发中,广州唯创电子语音芯片(如WT系列)以其高性价比和易用性广受青睐。但当开发者遭遇“上电发码无声”或“必须连发两次指令才有声音”的问题时,往往陷入调试困境。本文将深入剖析这些现象
    的头像 发表于 06-19 09:14 550次阅读
    芯知识|<b class='flag-5'>语音</b>芯片发码<b class='flag-5'>无声</b>解析:上电<b class='flag-5'>无声</b>、连发指令才响的三大根源及解决之道

    芯知识|语音芯片“无声之谜”:当DACL波形正常,功放开启却无声音时……

    信号“通道冲突”这一关键陷阱。一、无声故障的典型表现与诊断盲点“正常”的表象:工程师用示波器检测语音芯片(如广州唯创电子某型号)的关键引脚:供电电压稳定,逻辑通信正常
    的头像 发表于 06-13 08:53 641次阅读
    芯知识|<b class='flag-5'>语音</b>芯片“<b class='flag-5'>无声</b>之谜”:当DACL波形正常,功放开启却<b class='flag-5'>无声</b>音时……

    明远智睿SSD2351开发板:语音机器人领域的变革力量

    连续的长句语音识别,还是复杂口音的处理,都能快速响应,保证语音机器人与用户之间流畅的对话体验。 其丰富的接口语音机器人的功能拓展提供了可能。USB
    发表于 05-28 11:36

    芯知识|广州唯创电子蓝牙音频语音芯片IC通信接口配置与常见问题解析

    随着智能硬件设备的快速发展,蓝牙音频语音芯片在智能家居、穿戴设备、车载电子等领域得到广泛应用。广州唯创电子推出的蓝牙音频语音芯片凭借其低功耗、高集成度和灵活的通信接口,成为许多开发者的选择。然而,在
    的头像 发表于 05-19 09:45 591次阅读
    芯知识|广州唯创电子蓝牙音频<b class='flag-5'>语音</b>芯片IC通信<b class='flag-5'>接口</b>配置与常见问题解析

    芯资讯|广州唯创电子录音语音芯片应用指南及常见问题解析

    、存储及播放功能,但在实际应用中,用户可能遇到录音后播放无声音的问题。本文将从技术原理、常见故障及解决方案展开解析。二、录音语音芯片的工作原理唯创电子语音芯片的核心
    的头像 发表于 05-16 08:41 435次阅读
    芯资讯|广州唯创电子录音<b class='flag-5'>语音</b>芯片应用指南及常见问题解析

    明远智睿SSD2351核心板在语音对讲与HMI领域的创新应用

    在现代智能设备中,语音对讲和HMI(人机界面)作为重要的交互方式,直接影响着用户体验。明远智睿SSD2351核心板凭借其独特的硬件特性和丰富接口,在这两个领域实现了诸多创新应用。 在语音对讲方面
    发表于 04-16 10:46

    labview语音转文字

    labview语音转文字怎么实现,目前在论坛上找到了文字转语音
    发表于 04-07 19:44

    基于WTV380-8S语音芯片的智能电子锁语音交互系统设计方案介绍

    ​一、方案背景与需求智能电子锁作为现代家居安防的核心设备,用户对交互友好性、功能多样性和系统稳定性的需求日益提升。WTV380-8S语音芯片凭借多模式控制、高集成度、低功耗设计及丰富的外设接口,为
    的头像 发表于 03-06 08:56 753次阅读
    基于WTV380-8S<b class='flag-5'>语音</b>芯片的智能电子锁<b class='flag-5'>语音</b>交互系统设计方案介绍

    Flash语音芯片相比OTP语音芯片的优势

    Flash语音芯片和OTP语音芯片是两种常见的语音解决方案,在各自的应用领域中发挥着重要作用。本文‌将介绍Flash语音芯片相比OTP(One-TimeProgrammable)
    的头像 发表于 12-16 16:02 932次阅读
    Flash<b class='flag-5'>语音</b>芯片相比OTP<b class='flag-5'>语音</b>芯片的优势

    Flash语音芯片相比OTP语音芯片的优势

    Flash语音芯片和OTP语音芯片是两种常见的语音解决方案,在各自的应用领域中发挥着重要作用。本文‌将介绍Flash语音芯片相比OTP(One-Time Programmable)
    的头像 发表于 12-16 15:44 803次阅读