0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用Riva和NeMo Megatron构建语音AI

星星科技指导员 来源:NVIDIA 作者:About Siddharth Sharm 2022-03-31 15:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

上周, NVIDIA GTC 2022 宣布了对 Riva 的重大更新。 Riva 是一个用于构建语音 AI 应用程序的 SDK ,以及一个付费的 Riva 企业产品。 NeMo Megatron 是一个用于训练大型语言模型的框架,它的几项关键更新也已宣布。

Riva 2.0 通用性

Riva 为跨多种语言的实时自动语音识别( ASR )和文本到语音( TTS )技能提供了世界级的准确性,并且可以部署在 prem 上、任何云中。 Snap 、 T-Mobile 、 RingCentral 和 Kore 等行业领导者。 ai 在客户服务中心应用程序、转录和虚拟助理中使用 Riva 。

最新的 Riva 版本包括:

ASR 有多种语言:英语、西班牙语、德语、俄语和普通话。

高质量的 TTS 语音可定制独特的语音字体。

使用 TAO Toolkit 或 NVIDIA NeMo 进行特定于领域的定制,在口音、领域和国家特定术语方面具有无与伦比的准确性。

支持在云端、 prem 和嵌入式平台上运行。

Riva-Controllable-TTS-Demo-GTC-Spring.gif

Riva-Controllable-TTS-Demo-GTC-Spring.gif

图 1:NVIDIA Riva 可控文本到语音使得使用 SSML 标签可以轻松调整音调和速度。

手机上尝试 Riva 自动语音识别 Riva 产品页面 。

Defined.ai 与 NVIDIA 合作,为希望购买跨语言、域和录音类型的语音培训和验证数据的企业提供一个顺畅的工作流程。可在 此处 中找到针对 NVIDIA 开发人员的 DefinedCrowd 数据集示例。

下载 RIVA ,它是免费的NVIDIA 开发人员的成员从 NGC 免费。

Riva 企业

NVIDIA 还推出了 Riva Enterprise ,这是一款付费产品,面向在NVIDIA 专家的业务标准支持下大规模部署 Riva 的企业。

好处包括:

在任何云和 prem 平台上不受限制地使用 ASR 和 TTS 服务。

在当地营业时间与NVIDIA 人工智能专家联系,获取有关配置和性能的指导。

为维护控制和升级计划提供长期支持。

优先访问新版本和功能。

Riva Enterprise 在 NVIDIA Launchpad 上提供免费试用版,供企业评估并制作应用程序原型。

Riva launchpad 上的 Enterprise 包括引导实验室,用于:

与实时语音 AI API 交互。

将语音 AI 功能添加到对话 AI 应用程序中。

在自定义数据上微调语音 AI 管道以获得更高的准确性。

申请 用于您的 Riva 企业试用。

通过 对话人工智能解谜 GTC 课程了解有关如何构建、优化和部署语音 AI 应用程序的更多信息。

NeMo Megatron

NVIDIA 宣布了新的更新 NVIDIA NeMo Megatron ,这是一个培训大型语言模型( LLM )的框架,其参数高达数万亿。基于 Megatron paper 的创新, NeMo Megatron 的研究机构和企业可以培训任何 LLM ,以实现融合。 NeMo Megatron 提供数据预处理、并行(数据、张量和管道)、编排和调度,以及自动精度自适应。

它包括经过彻底测试的配方、流行的 LLM 架构实现,以及组织快速开始 LLM 之旅所需的工具。

瑞典,法学博士。 com 、 Naver 和佛罗里达大学是 Nvidia 技术的早期采用者,用于建立大型语言模型。

最新版本包括:

Hyperparameter tuning tool 会根据客户需求和基础设施限制自动创建配方。

T5 和 mT5 车型的参考配方。

支持在云上培训 LLM ,从 Azure 开始。

分布式数据预处理脚本,缩短端到端培训时间。

关于作者

About Siddharth Sharma:

Siddharth Sharma 是NVIDIA 加速计算的高级技术营销经理。在加入NVIDIA 之前, Siddharth 是 Mathworks Simulink 和 Stateflow 的产品营销经理,与汽车和航空航天公司密切合作,采用基于模型的设计来创建控制软件。

About Gordana Neskovic:

Gordana Neskovic 是AI/DL产品营销团队的成员,负责 NVIDIA Maxine。在加入 NVIDIA 之前,Gordana曾在VMware、Wells Fargo、Pinterest、SFO-ITT和KLA Tencor担任过各种产品营销、数据科学家、AI架构师和工程职位。她拥有博士学位。圣塔 Clara 大学,塞尔维亚贝尔格莱德大学电气工程硕士和学士学位。

About Sirisha Rella:

Sirisha Rella 是 NVIDIA 的技术产品营销经理,专注于计算机视觉、语音和基于语言的深度学习应用。 Sirisha 获得了密苏里大学堪萨斯城分校的计算机科学硕士学位,是国家科学基金会大学习中心的研究生助理。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5685

    浏览量

    110111
  • AI
    AI
    +关注

    关注

    91

    文章

    41057

    浏览量

    302561
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    485AI语音识别模块:多路语音控制,实现安防设备语音联动

    485AI语音识别模块凭借工业级的RS485总线通信与离线/在线AI语音识别能力,应用场景非常广泛,粗略划分可覆盖超10大领域、数十种细分场景,核心集中在工业自动化、智能楼宇、智慧农业
    的头像 发表于 04-22 15:17 55次阅读

    一文了解语音AI的运作方式

    语音 AI 是对话式 AI 的一个子集,包括可将人类语音转换为文本的自动语音识别 (ASR) 和文本转
    的头像 发表于 02-27 16:10 513次阅读
    一文了解<b class='flag-5'>语音</b><b class='flag-5'>AI</b>的运作方式

    AI语音模组】自制小智管家?安信可Ai-WV01-32S测试体验

    项目名:默语小智管家 模组支持: 安信可科技 AI语音模组 作者:安信可论坛用户 molun 这两年, AI 硬件又卷起来了。   语音助手、AI
    的头像 发表于 11-19 16:06 858次阅读
    【<b class='flag-5'>AI</b><b class='flag-5'>语音</b>模组】自制小智管家?安信可<b class='flag-5'>Ai</b>-WV01-32S测试体验

    教你做“会说话”的小熊猫!AI语音对讲DIY教程来啦

    新品预告: Ai-WV01-32S 是由安信可科技设计的一款可接入 小智AI 智能体 的微型语音交互模组,该模组搭载BL602和VB6824芯片作为核心处理器,专为 轻量级智能语音场景
    的头像 发表于 09-30 15:24 1093次阅读
    教你做“会说话”的小熊猫!<b class='flag-5'>AI</b><b class='flag-5'>语音</b>对讲DIY教程来啦

    唯创知音AI语音交互芯片与模组介绍

    AI语音交互已经成为智能产品的基础配置,比如常见的AI玩具、智能家居、带AI功能的蓝牙音响,还有汽车的智能车机和智能穿戴设备等。唯创知音顺应市场趋势推出了WT2606A系列的
    的头像 发表于 09-17 15:51 934次阅读
    唯创知音<b class='flag-5'>AI</b><b class='flag-5'>语音</b>交互芯片与模组介绍

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    灵感的过程中发挥关键作用。五、AI实现诺贝尔奖级别的科学发现 这想法这能够大胆的。 1、AI科学家的构建 全自主科学实验室需要哪些部分: ①自动实验设备 ②流程管理系统 ③数据处理和
    发表于 09-17 11:45

    豆包/DeepSeek/小智AI全接入!这款AI语音开发板,配网即用超省心!

    AiPi-PalChatV2 可接入小智AI 或 火山引擎 AiPi-PalChatV2 是安信可推出的一款高性能语音交互开发板,可接入 小智AI 或 火山引擎 ,专为智能语音场景而设
    的头像 发表于 09-09 17:21 1818次阅读
    豆包/DeepSeek/小智<b class='flag-5'>AI</b>全接入!这款<b class='flag-5'>AI</b><b class='flag-5'>语音</b>开发板,配网即用超省心!

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    想到,除了研究大脑的抽象数学模型外,能否抛弃传统的芯片实现方式,以化学物质和生物组件、材料及相关现象来构建人工神经网络或提取其功能来用于AI处理,甚至直接生物体来实现AI功能,这就是
    发表于 09-06 19:12

    Votee AI借助NVIDIA技术加速方言小语种LLM开发

    Votee AI 利用 NVIDIA 的 GPU 硬件、NeMo Curator 数据处理软件、NeMo Framework 模型训练框架及 Auto Configurator 优化工具,高效
    的头像 发表于 08-20 14:21 1015次阅读

    轻松配置小智AI语音开发板,安信可IOT小程序功能更新

    安信可科技:安信可发布的 AI 语音开发板,可以通过配套的小程序,完成网络配置、音色选择等多项配置,无需复杂代码,轻松实现AI语音体验。 用户:COOL!怎么
    的头像 发表于 08-19 17:46 1541次阅读
    轻松配置小智<b class='flag-5'>AI</b><b class='flag-5'>语音</b>开发板,安信可IOT小程序功能更新

    智芯科AI语音芯片赋能智能开关新体验

    在智能家居不断革新的浪潮中,真正“可落地、可量产”的语音交互方案仍然稀缺。而我们,一颗自主可控的AI语音芯片,让智能开关从此告别网络依赖,做到离线唤醒、毫秒响应、无惧口音。
    的头像 发表于 08-04 16:25 1391次阅读

    最新人工智能硬件培训AI基础入门学习课程参考2025版(离线AI语音视觉识别篇)

    端侧离线 AI 智能硬件作为 AI 技术的重要载体之一,凭借其无需依赖网络即可实现智能功能的特性,在一些网络条件受限或对数据隐私有较高要求的场景中,发挥着不可或缺的作用。本章基于CSK6大模型语音
    发表于 07-04 11:14

    东软:以数据价值化为破局点 AI构建城市新基础设施

    数字经济创新生态的战略布局与实践成果。 数据作为新型生产要素,是数字经济的基础,是民生改善的基石,是产业创新的动力,也是城市发展的关键。东软以数据价值化为破局点,将数字技术创新与产业创新深度融合, 数据和AI构建城市新基础设施
    的头像 发表于 06-18 14:31 747次阅读

    tscircuit - 电路开发的 React 范式​ TypeScript、React和 AI工具构建电子产品

    TypeScript、React 和 AI 工具构建电子产品。
    的头像 发表于 04-30 18:18 1771次阅读
    tscircuit - 电路开发的 React 范式​   <b class='flag-5'>用</b>TypeScript、React和 <b class='flag-5'>AI</b>工具<b class='flag-5'>构建</b>电子产品

    企业使用NVIDIA NeMo微服务构建AI智能体平台

    已发布的 NeMo 微服务可与合作伙伴平台集成,作为创建 AI 智能体的构建模块,使用商业智能与强大的逻辑推理模型 (包括 NVIDIA Llama Nemotron) 处理更多任务。
    的头像 发表于 04-27 15:05 1477次阅读