0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

聚焦语音 AI:在 AR 眼镜上可视化语音和声音

NVIDIA英伟达 来源:未知 2023-07-26 19:30 次阅读

音频可以包含从人类语言到非语言声音等各种声音,例如狗吠和警笛声。在为听力困难的人设计无障碍应用程序时,该应用程序应能够识别声音并理解语义。

这种技术将有助于聋哑或听力有障碍的人可视化语音,例如人类的对话和非语音声音。通过将语音和声音 AI 相结合,可以将这些可视化效果叠加到 AR 眼镜上,从而使用户能够看到并理解他们无法听到的声音。

根据世界卫生组织的统计,约有 15 亿人(占全球人口近 20%)患有听力损失。到 2050 年,这一数字将上升至 25 亿。

Cochl 是 NVIDIA 的合作伙伴,总部位于圣何塞。该公司是一家利用声音 AI 技术来理解各类音频的科技密集型初创企业。他同时也是 NVIDIA 初创加速计划的会员。通过提供尖端技术和 NVIDIA 专家的支持,该计划帮助初创企业更快地构建解决方案。

该平台可识别 37 种环境声音,并且 CochI 还加入了先进的语音转文本技术,使用户能够真正全方位地了解声音世界。

AR 眼镜可视化任何声音

AR 眼镜作为一个可视化声音的工具,有望极大改善听力损失者的生活。这项技术可以帮助提高他们的交流能力,使他们更容易理解和融入到周围的世界。

Cochl.Sense 和 NVIDIA Riva 在微软 HoloLens 2 上运行!

在此方案中,自动语音识别(ASR)使眼镜能够识别并理解人类的语音。这项技术可通过多种方式集成到眼镜中:

  • 使用麦克风捕捉与聋哑人或听力有障碍者交谈的人的语音,然后使用 ASR 算法解释语音并将其转录为文本,最后将该文本显示在眼镜上,从而使聋哑人或听力有障碍者能够阅读并理解该语音。

  • ASR 还可以使眼镜能够响应语音命令,以便用户可以通过语音控制眼镜。

  • AR 眼镜还能在屏幕上显示所有对话(例如在驾车时转录地图上的语音指示)以及其他声音(例如紧急车辆的喇叭声、警报声以及风声)。

解决方案背后的技术

Cochl 在其软件堆栈中使用了 NVIDIA Riva 来增强其 ASR 功能。Riva 是一个使用 GPU 加速、完全可定制的 SDK,用于开发语音 AI 的应用程序。通过使用 Riva,该平台的功能得以扩展,能够理解包括非语音声音在内的各种声音。

Cochl 联合创始人兼首席执行官 Yoonchang Han 表示:“我们测试了很多语音识别服务,但只有 Riva 提供了极高且稳定的实时性能。所以现在我们可以让我们的声音 AI 系统更加接近人类的听觉感知。”

“正如我们所观察到的,AR 眼镜最有可能在环境嘈杂的开放空间中使用。NVIDIA Riva 帮助我们在嘈杂的环境中也能准确转录语音,并为我们提供了无缝体验,可以集成到我们的 Cochl.Sense 平台上。”

辅助技术的未来

创建一个能像人类一样感知声音的通用 AI 系统是一项巨大的挑战。为了使 AR 眼镜更易于使用,需要更轻便的可穿戴技术。

尽管它们仍然是将声音和语音转化为视觉信息的理想媒介。通过集成机器听觉功能,AR 眼镜能够为世界各地的聋哑或听力障碍者带来更加安全、便捷和愉快的日常生活体验。

Cochl 还在探索语音 AI 的更多用例,例如为 AR 眼镜上的任何视频提供隐藏式字幕和实现多个发言者的转录。为了给听力障碍者带来最佳体验,该公司正在探索分析并可视化音乐的方法,以帮助他们至少能够理解音乐的类型和情感。

该公司期待体验更多的 NVIDIA 解决方案,包括 Riva、NVIDIA NeMo 和 NVIDIA TensorRT。

点击“阅读原文”,或扫描下方海报二维码,在 8 月 8日聆听NVIDIA 创始人兼 CEO 黄仁勋在 SIGGRAPH 现场发表的 NVIDIA 主题演讲,了解 NVIDIA 的新技术,包括屡获殊荣的研究,OpenUSD 开发,以及最新的 AI 内容创作解决方案。


原文标题:聚焦语音 AI:在 AR 眼镜上可视化语音和声音

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3330

    浏览量

    87783

原文标题:聚焦语音 AI:在 AR 眼镜上可视化语音和声音

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    李未可科技发布全新首款AI眼镜Chat,搭载自研AI大模型

        4月26日,李未可科技推出旗下首款AI眼镜——Meta Lens Chat,定价699元,并于4月26日10点正式开启预售。AI 眼镜 Chat 主打
    发表于 04-26 10:45 408次阅读
    李未可科技发布全新首款<b class='flag-5'>AI</b><b class='flag-5'>眼镜</b>Chat,搭载自研<b class='flag-5'>AI</b>大模型

    OPPO发布全新AR眼镜Air Glass 3,集成AI语音助手功能

    OPPO于近日在MWC 2024上震撼发布了其最新增实境(AR眼镜原型——OPPO Air Glass 3。这款新型眼镜不仅在设计和技术上有所突破,更引入了AI
    的头像 发表于 03-04 14:00 303次阅读

    语音数据集:AI语音技术的灵魂

    一、引言 在人工智能领域,语音技术被誉为“未来人机交互的入口”,而语音数据集则是AI语音技术的灵魂。本文将深入探讨语音数据集的重要性、构建方
    的头像 发表于 12-14 14:33 359次阅读

    唯创知音WTR096A-16S语音芯片:引领喊话器声音还原新时代

    随着科技的不断发展,声音在各种场景中扮演着至关重要的角色。在喊话器领域,唯创知音的WTR096A-16S语音芯片以其卓越的性能和声音还原度的提高,为喊话器应用带来了全新的体验。1.声音
    的头像 发表于 12-06 09:26 255次阅读
    唯创知音WTR096A-16S<b class='flag-5'>语音</b>芯片:引领喊话器<b class='flag-5'>声音</b>还原新时代

    数据可视化大数据时代有哪些挑战?#可视化 #光点科技

    数据可视化
    光点科技
    发布于 :2023年10月17日 17:02:01

    数据可视化的应用有哪些?#可视化 #光点科技

    数据可视化
    光点科技
    发布于 :2023年10月13日 09:19:27

    基于Arduino做个音乐可视化LED灯带

    基于Arduino做个音乐可视化LED灯带,快来探索用了什么原理和材料!结合提供的简单代码,软硬件结合,你也可以音乐中成为最靓的仔!
    发表于 09-27 08:08

    数据可视化有什么优势?#可视化 #数据可视化 #光点科技

    数据可视化
    光点科技
    发布于 :2023年09月25日 09:50:22

    什么是数据可视化?如何进行数据可视化?#可视化 #光点科技

    数据可视化
    光点科技
    发布于 :2023年09月20日 17:41:03

    可视化大屏设计模板 | 主题皮肤(报表UI设计)

    效果: 下载使用步骤: 1、上传数据源。登录奥威软件数据可视化平台后,点击“新增数据源”,弹窗中填入数据源名称、类型后,以点击选中或拖拉到指定位置的方式上传数据源,点击确定即可。 2、新增报表
    发表于 09-12 10:10

    SpeedBI数据可视化工具:浏览器做分析

    SpeedBI数据分析云是一种浏览器上进行数据可视化分析的工具,它能够将数据以可视化的形式呈现出来,并支持多种数据源和图表类型。 所有操作,均在浏览器上进行 浏览器中打开Speed
    发表于 08-22 10:55

    keras可视化介绍

    (LR), 纵向显示(TB) expand_nested=False,# 是否将嵌套模型扩展到聚类中 dpi=96 )4 训练历史可视化 Keras Model 的 fit() 方法返回一个
    发表于 08-18 07:53

    如何使用Alexa语音服务集成受约束的物联网设备设置语音命令

    本指南供硬件和软件架构师学习如何使用Alexa语音服务集成受约束的物联网设备设置语音命令。AWS物联网核心的Alexa语音服务集成(AI
    发表于 08-02 12:53

    虹科AR数字化工作流解决方案

    Vuzix AR眼镜支持简单的 AI 运算,比如图片识别、人脸识别、瑕疵检测、语音识别、语音转文字等,提供更加多样化的服务。在汽车设计过程中
    发表于 07-31 11:17 352次阅读
    虹科<b class='flag-5'>AR</b>数字化工作流解决方案

    语音识别技术的概念及应用前景

    ,以降低服务器的消耗和网络带宽,更节省社会资源,云端作为服务和内容的提供商,和端侧语音配合,共同为人们的生活服务。 离线语音介绍 全屋智能家居中,离线语音也很关键,随着人们的生活更加
    发表于 05-27 09:41