0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用自然语言语音指令创建 XR 体验:Project Mellon 应用测试

NVIDIA英伟达企业解决方案 来源:未知 2023-04-08 00:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Project Mellon 是一个轻量级的 Python 软件包,能够利用强大的语音 AI(NVIDIA Riva)和大型语言模型(LLMs)(NVIDIA NeMo 服务),简化沉浸式环境中的用户交互。NVIDIA 在 GTC 2023 上宣布,Project Mellon 现已支持开发者进行测试。基于此,开发者可开始探索如何创建由自然语言语音指令控制的、解放双手的扩展现实(XR)体验。

正如 J·R·R·托尔金(J.R.R.Tolkien)在《都林之门(Doors of Durin)》中的谜语—“请说,朋友,而后进入”所示,文字可以移山倒海。Project Mellon 背后蕴含着一个基本理念,即以更实用有效的方式来利用语音 AI 和 LLM 之力打开虚拟世界的大门,并在其中完成更多的事情。

在 XR 中,用户界面可能非常复杂且难以使用,会破坏虚拟、混合和增强现实的本质—即沉浸式体验的自然感。Project Mellon 可赋能多类应用程序(无论是 XR 还是平板生态)开发者,轻松地将自然语言理解作为以人为本且可解放双手的新型用户界面,添加至其开发的软件之中。

Project Mellon 平台包含以下组成部分:

  • Project Mellon SDK(软件开发套件)

  • NVIDIA Riva(ASR 、TTS 、NMT)

  • NeMo 服务(其他 LLM 也可获取支持)

Project Mellon 1.0 发布的主要功能包括:

  • 轻量且易于集成的 Python 库

  • 保持自然语言理解准确性的 LLM

  • 无需特定指令进行训练的零样本语言模型

  • 具有对话和视觉上下文的自然语言指令支持

  • 支持询问有关指令和情境的问题,并提供自然语言回答

  • 用于理解和执行指令的简单 Python API

  • 基于 Web 的测试应用程序

  • 可以在本地或远程托管 ASR、TTS、LLM 和神经网络机器翻译(NMT),以实现低延迟响应

ESI 集团解决方案和技术专家 Jan Wurster 在 GTC 主题演讲—“在虚拟现实中与 AI 协作:沉浸式数字助手(会议代码:[S51355])中表示:“我们发现,通过集成对话式 AI 与 NVIDIA Project Mellon,可以降低使用 XR 展开协作的技术门槛,并为 IC.IDO Weave 用户提供更加人性化的体验。通过输入自然语音,我们的虚拟 AI 助手可以帮助团队完成复核任务、查询可用情况或发现相关问题,这些功能无需记住特定指令、仅需输入自然语言就可使用。”

(2023 年 4 月 10 日前登录 GTC 官网,即可观看演讲回放,了解其团队如何在动态、协作的 XR 环境中,在使用对话式 AI 的过程中受益)

Project Mellon 现已可供开发人员使用。观看 Project Mellon 相关演示,了解如何利用自然语音指令,驱动设计审查、更改实时配置、控制机器人以及操纵相机和场景元素。

了解如何启用 Project Mellon 进行开发

人工智能正在改变人类与工作及工具进行交互的方式。开发人员可以通过语音 AI 和 Project Mellon,简化并提升用户体验的人性化水平,且不再需要培训用户操作虚拟现实(VR)中的每一项功能。用户可以在虚拟现实应用程序中,用自己的语言来控制 XR 体验。

点击“阅读原文”,申请试用 Project Mellon。

0f42f7e0-d561-11ed-bfe3-dac502259ad0.png  

扫描海报二维码,即可观看 NVIDIA 创始人兼首席执行官黄仁勋 GTC23 主题演讲重播!

0f48be1e-d561-11ed-bfe3-dac502259ad0.jpg


原文标题:使用自然语言语音指令创建 XR 体验:Project Mellon 应用测试

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    23

    文章

    4041

    浏览量

    97688

原文标题:使用自然语言语音指令创建 XR 体验:Project Mellon 应用测试

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    智能语音识别控制器是什么?图形中文编程,多路设备控制

    智能语音识别控制器是一种融合语音识别技术、物联网通信技术与设备控制模块的智能终端设备,核心功能是将人类自然语言指令转化为设备可执行的电信号,实现对各类终端设备的
    的头像 发表于 12-03 16:35 423次阅读

    AI人工智能语音识别控制模块:自定义命令词,全维度落地应用场景

    AI人工智能语音识别控制模块是一种集成了语音识别、自然语言处理和智能控制功能的电子设备或系统。用户通过语音指令来操作、管理或控制其他设备、系统或应用,无需物理接触或传统交互界面(如按钮
    的头像 发表于 12-03 16:34 429次阅读

    云知声论文入选自然语言处理顶会EMNLP 2025

    近日,自然语言处理(NLP)领域国际权威会议 ——2025 年计算语言学与自然语言处理国际会议(EMNLP 2025)公布论文录用结果,云知声提交的《面向门诊病历生成的高质量医患对话合成技术
    的头像 发表于 11-10 17:30 519次阅读
    云知声论文入选<b class='flag-5'>自然语言</b>处理顶会EMNLP 2025

    什么是语音芯片串口AT指令?实现智能语音交互的核心技术详解

    一、语音芯片串口AT指令的基本概念在现代智能电子产品中,语音芯片已成为实现人机交互的关键组件。作为语音IC厂家与设备开发者之间的通信桥梁,串口通讯协议标准(AT)
    的头像 发表于 11-10 12:53 202次阅读
    什么是<b class='flag-5'>语音</b>芯片串口AT<b class='flag-5'>指令</b>?实现智能<b class='flag-5'>语音</b>交互的核心技术详解

    如何使用语音指令控制串口输出

    在上两篇文章中, 我们实现了GPIO输出, 和PWM输出(组件介绍在前文中已经介绍过 ),在本章节我们将继续进行使用语音指令控制串口输出。
    的头像 发表于 09-25 15:47 1900次阅读
    如何使用<b class='flag-5'>语音指令</b>控制串口输出

    HarmonyOSAI编程自然语言代码生成

    安装CodeGenie后,在下方对话框内,输入代码需求描述,将根据描述智能生成代码,生成内容可一键复制或一键插入至编辑区当前光标位置。 提问示例 使用ArkTs语言写一段代码,在页面中间部分
    发表于 09-05 16:58

    【HZ-T536开发板免费体验】5- 无需死记 Linux 命令!用 CangjieMagic 在 HZ-T536 开发板上搭建 MCP 服务器,自然语言轻松控板

    )进行调试或控制,不仅门槛高,还容易记错命令。 解决方案 :MCP(Machine Control Protocol)服务器可将自然语言指令转换为底层操作,结合 Cangjie Magic 的自然语言
    发表于 08-23 13:10

    UTP测试系统如何对智能家居进行自动化测试

    设计,确保用户在无网络或特殊场景下仍能直接、可靠地完成基础操作,兼顾稳定性与易用性。 •智能语音控制兼容主流智能音箱(如天猫精灵、小爱同学、小美音箱、ROKI先生等),用户可通过自然语言指令远程操控设备,大幅提升交互便捷性
    的头像 发表于 07-03 10:44 781次阅读
    UTP<b class='flag-5'>测试</b>系统如何对智能家居进行自动化<b class='flag-5'>测试</b>

    语音控制模块工作原理

    ,才能够发出正确的指令语音芯片控制模块是实现 “语音指令 - 设备响应” 的核心组件,其工作原理可拆解为信号采集、处理、识别及指令执行的完整链路,下面将以WTK69000为例给大家
    的头像 发表于 06-17 11:49 1000次阅读
    <b class='flag-5'>语音</b>控制模块工作原理

    智能座舱:车载语音交互测试内容

    随着汽车智能化的飞速发展,车载语音交互系统已从早期的辅助功能逐渐演变为智能座舱的核心交互方式之一。驾驶者通过语音指令即可轻松完成导航设置、音乐播放、电话拨打,甚至车辆部分功能的控制,这种便捷性不仅
    的头像 发表于 04-24 15:29 1777次阅读
    智能座舱:车载<b class='flag-5'>语音</b>交互<b class='flag-5'>测试</b>内容

    自然语言提示原型在英特尔Vision大会上首次亮相

    在英特尔Vision大会上,Network Optix首次展示了自然语言提示原型,该方案将重新定义视频管理,为各行各业由AI驱动的洞察和效率提速。
    的头像 发表于 04-09 09:30 791次阅读

    零知开源——ESP32语音交互系统(AI小智)开发教程

    小智AI聊天机器人是一个基于嵌入式硬件与人工智能技术深度融合的智能交互系统。该项目以ESP32开发板为核心,结合语音唤醒、自然语言处理、音频解码播放及图形化交互界面四大核心模块,实现人机交互功能
    的头像 发表于 03-29 15:33 1w次阅读
    零知开源——ESP32<b class='flag-5'>语音</b>交互系统(AI小智)开发教程

    网络语音控制器是什么设备

    网络语音控制器,作为一种能够通过语音识别技术接收并执行用户语音指令的智能设备,结合计算机、人工智能、物联网、网络通信、语音处理等技术,使用户能够以一种
    的头像 发表于 02-19 17:42 816次阅读

    前端技术的未来趋势:拥抱创新,塑造无限可能

    为未来的重要趋势之一。智能交互将变得更加自然和流畅。例如,通过语音识别和自然语言处理技术,用户可以直接通过语音指令与网页进行交互,实现更加便捷的操作。智能聊天机器人将在网页中得到更广泛
    的头像 发表于 01-22 10:07 892次阅读

    标贝数据标注案例分享:车载语音系统数据标注

    车载语音识别系统是指利用机器学习算法实现的一种自然语言处理技术,载语音识别系统通过辨别声音的语调、语速和音量,将所听到的语音转化成可读取的语言
    的头像 发表于 12-24 14:24 828次阅读
    标贝数据标注案例分享:车载<b class='flag-5'>语音</b>系统数据标注