0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

聚焦语音 AI:在 AR 眼镜上可视化语音和声音

NVIDIA英伟达 来源:未知 2023-07-26 19:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

音频可以包含从人类语言到非语言声音等各种声音,例如狗吠和警笛声。在为听力困难的人设计无障碍应用程序时,该应用程序应能够识别声音并理解语义。

这种技术将有助于聋哑或听力有障碍的人可视化语音,例如人类的对话和非语音声音。通过将语音和声音 AI 相结合,可以将这些可视化效果叠加到 AR 眼镜上,从而使用户能够看到并理解他们无法听到的声音。

根据世界卫生组织的统计,约有 15 亿人(占全球人口近 20%)患有听力损失。到 2050 年,这一数字将上升至 25 亿。

Cochl 是 NVIDIA 的合作伙伴,总部位于圣何塞。该公司是一家利用声音 AI 技术来理解各类音频的科技密集型初创企业。他同时也是 NVIDIA 初创加速计划的会员。通过提供尖端技术和 NVIDIA 专家的支持,该计划帮助初创企业更快地构建解决方案。

该平台可识别 37 种环境声音,并且 CochI 还加入了先进的语音转文本技术,使用户能够真正全方位地了解声音世界。

AR 眼镜可视化任何声音

AR 眼镜作为一个可视化声音的工具,有望极大改善听力损失者的生活。这项技术可以帮助提高他们的交流能力,使他们更容易理解和融入到周围的世界。

Cochl.Sense 和 NVIDIA Riva 在微软 HoloLens 2 上运行!

在此方案中,自动语音识别(ASR)使眼镜能够识别并理解人类的语音。这项技术可通过多种方式集成到眼镜中:

  • 使用麦克风捕捉与聋哑人或听力有障碍者交谈的人的语音,然后使用 ASR 算法解释语音并将其转录为文本,最后将该文本显示在眼镜上,从而使聋哑人或听力有障碍者能够阅读并理解该语音。

  • ASR 还可以使眼镜能够响应语音命令,以便用户可以通过语音控制眼镜。

  • AR 眼镜还能在屏幕上显示所有对话(例如在驾车时转录地图上的语音指示)以及其他声音(例如紧急车辆的喇叭声、警报声以及风声)。

解决方案背后的技术

Cochl 在其软件堆栈中使用了 NVIDIA Riva 来增强其 ASR 功能。Riva 是一个使用 GPU 加速、完全可定制的 SDK,用于开发语音 AI 的应用程序。通过使用 Riva,该平台的功能得以扩展,能够理解包括非语音声音在内的各种声音。

Cochl 联合创始人兼首席执行官 Yoonchang Han 表示:“我们测试了很多语音识别服务,但只有 Riva 提供了极高且稳定的实时性能。所以现在我们可以让我们的声音 AI 系统更加接近人类的听觉感知。”

“正如我们所观察到的,AR 眼镜最有可能在环境嘈杂的开放空间中使用。NVIDIA Riva 帮助我们在嘈杂的环境中也能准确转录语音,并为我们提供了无缝体验,可以集成到我们的 Cochl.Sense 平台上。”

辅助技术的未来

创建一个能像人类一样感知声音的通用 AI 系统是一项巨大的挑战。为了使 AR 眼镜更易于使用,需要更轻便的可穿戴技术。

尽管它们仍然是将声音和语音转化为视觉信息的理想媒介。通过集成机器听觉功能,AR 眼镜能够为世界各地的聋哑或听力障碍者带来更加安全、便捷和愉快的日常生活体验。

Cochl 还在探索语音 AI 的更多用例,例如为 AR 眼镜上的任何视频提供隐藏式字幕和实现多个发言者的转录。为了给听力障碍者带来最佳体验,该公司正在探索分析并可视化音乐的方法,以帮助他们至少能够理解音乐的类型和情感。

该公司期待体验更多的 NVIDIA 解决方案,包括 Riva、NVIDIA NeMo 和 NVIDIA TensorRT。

点击“阅读原文”,或扫描下方海报二维码,在 8 月 8日聆听NVIDIA 创始人兼 CEO 黄仁勋在 SIGGRAPH 现场发表的 NVIDIA 主题演讲,了解 NVIDIA 的新技术,包括屡获殊荣的研究,OpenUSD 开发,以及最新的 AI 内容创作解决方案。


原文标题:聚焦语音 AI:在 AR 眼镜上可视化语音和声音

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    23

    文章

    4126

    浏览量

    99772

原文标题:聚焦语音 AI:在 AR 眼镜上可视化语音和声音

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Moonix AI眼镜全球首发:语音交互与智能助手引领未来

    Moonix公司于2026年4月29日正式发布全球首款AI眼镜,标志着智能穿戴设备正式迈入“语音交互+智能助手”的新纪元。这款名为Moonix AI Glasses的产品,以“让科技融
    的头像 发表于 04-29 09:46 3914次阅读

    《2024工业AR质量检测方案横评:5大主流工具深度对比》

    标准等数字信息实时叠加到真实生产场景中,实现\"虚实融合\"的可视化检测。其核心优势包括: 可视化精准指导 :操作员通过AR眼镜或平板设备实时看到检测标准、图纸对比和缺陷提示,显著
    发表于 04-27 10:42

    语音芯片怎么样写入声音?一文讲透语音播放芯片的声音写入之道

    如果说芯片是电子产品的“大脑”,那么语音芯片就是赋予设备“声音灵魂”的关键元器件。从商场迎宾器、电动车报警器,到智能门锁、医疗设备,凡是需要“开口说话”的设备,内部都藏着一颗或多颗能将数字信号转化
    的头像 发表于 04-24 10:04 189次阅读
    <b class='flag-5'>语音</b>芯片怎么样写入<b class='flag-5'>声音</b>?一文讲透<b class='flag-5'>语音</b>播放芯片的<b class='flag-5'>声音</b>写入之道

    485AI语音识别模块:多路语音控制,实现安防设备语音联动

    485AI语音识别模块凭借工业级的RS485总线通信与离线/在线AI语音识别能力,应用场景非常广泛,粗略划分可覆盖超10大领域、数十种细分场景,核心集中
    的头像 发表于 04-22 15:17 255次阅读

    语音识别芯片介绍,语音识别芯片工作原理解析

    智能交互不断深入的今天,语音识别芯片正成为众多设备实现语音控制与AI对话的关键部件。语音芯片广义
    的头像 发表于 04-01 16:26 325次阅读

    3D系统可视化

    本身的深入描述和F-Theta透镜的应用示例。 光学系统的3D-可视化 VirtualLab Fusion提供的工具可以实现光学系统的3D可视化,因此可以用于检查元件的位置,以及快速了解系统内部的光
    发表于 03-30 09:25

    可视化特点在AR远程协助方面的重要意义

    传递仍存在“理解偏差”“操作延迟”等问题。  而当增强现实(AR)技术融入远程协助场景后,信息传递方式发生了质的变化。通过可视化呈现,专家能够将操作指令、结构模型、标注信息、工艺参数以三维图像的形式直接叠加在现
    的头像 发表于 03-23 15:13 235次阅读

    KubePi:开源Kubernetes可视化管理面板,让集群管理如此简单

    KubePi:开源Kubernetes可视化管理面板,让集群管理如此简单 云原生时代,Kubernetes已成为容器编排的事实标准,但其复杂性却让许多开发者望而却步。KubePi作为一款现代
    发表于 02-11 12:53

    可视化AR巡检:工业智能发展的新引擎

    一背景下,可视化AR巡检应运而生,它将AR术与可视化数据分析能力相结合,让巡检工作变得更直观、更智能、更高效。  AR巡检的最大特征在于“虚
    的头像 发表于 02-02 21:17 217次阅读

    语音识别IC分类,语音识别芯片的工作原理

    语音识别芯片,也叫语音识别集成电路,是一种集声音存储、播放、录音及语音识别功能于一体的专用芯片。语音识别IC的核心功能在于实现
    的头像 发表于 01-14 15:22 507次阅读
    <b class='flag-5'>语音</b>识别IC分类,<b class='flag-5'>语音</b>识别芯片的工作原理

    芯知识|可录音语音芯片如何实现声音的储存与重放?

    语音交互技术高速发展的今天,绝大多数设备的“声音”功能仍停留在单向播报阶段。然而,有一类特殊的语音芯片,不仅能让设备“开口说话”,更能使其“听见并记住”外界
    的头像 发表于 01-08 09:44 384次阅读
    芯知识|可录音<b class='flag-5'>语音</b>芯片如何实现<b class='flag-5'>声音</b>的储存与重放?

    谷东智能AI+AR眼镜重塑手术远程协作标准

    医疗领域,每一台手术的安全边界都需要精准把控,而远程协作中的信息差,曾是制约手术安全的关键瓶颈。近期,谷东智能 C2000 AI+AR 眼镜毕节 - 杭州跨域手术中交出亮眼答卷 —
    的头像 发表于 12-19 14:31 810次阅读

    AR智能眼镜定制_ar眼镜PCBA硬件设计与AI赋能

    随着增强现实(AR)技术的快速发展,AR智能眼镜成为了科技领域的热门方向。设计和开发一款优秀的AR智能眼镜,需要综合考虑硬件选型、功能集成以
    的头像 发表于 11-05 20:27 1013次阅读
    <b class='flag-5'>AR</b>智能<b class='flag-5'>眼镜</b>定制_<b class='flag-5'>ar</b><b class='flag-5'>眼镜</b>PCBA硬件设计与<b class='flag-5'>AI</b>赋能

    AR/AI眼镜行业的未来趋势

    2025年被称为百镜大战元年,AR(增强现实)和AI(人工智能)眼镜领域风起云涌,众多科技巨头和创新企业纷纷推出智能眼镜产品。
    的头像 发表于 07-14 16:15 2093次阅读

    成都汇阳投资关于芯片+AI 眼镜核心公司

    视觉图像, 实现流畅交互体验。其低功耗特性也至关重要, 可延长 AI 眼镜续航, 保障长时间使用。市场中一些公司同时布局芯片与 AI 眼镜领域。它们能依据
    的头像 发表于 07-01 09:28 1341次阅读