0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达推出实时对话式AI模型工具

我快闭嘴 来源:智东西 作者:心缘 2021-03-02 10:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

凭借听、读、译三大功能,对话式人工智能AI)正逐渐深入人们的生活,成为解放双手和提高生产力的关键工具。

当你说话时,对话式AI能实时将你说的话记录成文字,甚至可以实时翻译成其他语言。

当你听不懂、记不住医生叮嘱的药物或治疗方案时,接受过海量医学文本训练的对话式AI,能帮你准确地记下全部医嘱。

当你因为开车等原因不方便看手机时,对话式AI能将屏幕上的文字读给你听。

它既能做稳定的速记员,也能胜任专业的翻译官,越来越多企业采用对话式AI来改善工作效率与优化客户支持。

不过,要开发出一款优质的对话式AI,并不是一件容易的事。如果只追求最快的响应速度,难免牺牲语音识别、语言理解、语音生成的质量,而如果过于重视质量,可能会响应的不够及时。

怎样能快速开发出高质量的对话式AI,满足专业的转录和编译需求?知名硅谷芯片巨头NVIDIA刚刚推出了一个相当有用的工具。

一、降低实时对话式AI开发门槛的神器

2020年初突然爆发的新冠肺炎疫情正刺激企业AI的应用,从远程教育、远程办公、客户服务到医疗健康,众多行业加速出现对AI的需求。

知名市场调研机构IDC的数据显示,2019年中国对话式AI的支出约为58亿美元,这一数字有望到2023年攀升至138亿美元。其中,中国对话式AI市场规模有望从2019年的5.761亿美元增至2023年的18.593亿美元,年均复合增长率(CAGR)为34.0%。

什么是对话式AI?简单理解,就是一种能自动理解人类语言的系统,使得人与机器的交流像人与人之间的交流那样轻松、自然而高效。

想想我们的日常沟通过程,我们不会向对方发出固定的指令,而是用自然的语言进行交流。

而要让机器更加自然、拟人化的与人类互动,需要先让机器理解你所说的话,即时了解上下文和语言,判断话的意图和隐藏含义,并以最自然的对话方式做出回应。

在疫情刺激下,英国高性能语音识别服务供应商Intelligent Voice发展势头相当迅猛,几个月内即推出了新产品Myna,能连接到虚拟会议工具,自动记录、将录音转换成文本并发送文本记录。

Myna得以快速实现的秘密武器,即是NVIDIA去年5月首次公布的实时对话式AI模型工具Jarvis。

Jarvis是一个基于NVIDIA GPU提供实时性能的灵活、多模态对话式AI服务应用框架。

“Jarvis采用多模态的方法,将自动语音识别的关键元素与实体和意图匹配相融合,满足需要高吞吐量和低延迟的新用例的需求。Jarvis API不但易于使用,还能整合和自定义客户的工作流程,实现性能优化。”Intelligent Voice首席技术官Nigel Cannings说。

另一家创建阿拉伯语虚拟助手的公司InstaDeep同样是Jarvis的早期采用者。通过Jarvis中的NeMo工具包,这家公司对阿拉伯语语音–文本模型进行微调,将单词错误率降低至7.84%。

通过早期采用者的反馈与优化,Jarvis逐渐实现了更高的吞吐量和更低的延迟。在打磨成熟后,NVIDIA于昨日正式推出GPU加速的Jarvis 1. 0公测版。

二、延时小于300毫秒,开发速度提升高达10倍

Jarvis 1. 0公测版中包含用于构建和部署实时对话式AI应用程序的端到端工作流程,使开发者能轻松实现实时语音识别、转录、翻译、封闭式字幕、虚拟助手和聊天机器人等功能。

它对于改善企业服务非常友好。如果从头开始构建对话式AI服务,必然需要深厚的AI专业知识、海量数据和充足的计算资源,而由NVIDIA GPU加速的Jarvis框架使开发者无需为这些成本而烦忧。

Jarvis的一大能力是定制解决方案。基于NVIDIA Jarvis,企业开发者能很容易地用专有的视频和语音数据,对最新模型进行微调,从而更深入地理解特定上下文,并对推理进行优化,从而构建针对其自身行业、产品和客户特征而量身定制的高质量、端到端实时对话式AI服务。

这些服务运行时间不到300毫秒,在GPU上的吞吐量比CPU高7倍。

首先是自动语音识别(ASR),整个系统需要先输入音频、提取特征,用声学模型尝试找出特定声音生成相应的等效词,从而识别语音音频并生成对应文本;然后借助Jarvis,可以实现机器翻译、搜索、意图识别、语言分析、问答系统等自然语言理解(NLU)服务;最后从这些服务获得文本作为输出,通过语音合成(TTS)技术和语音编码模块生成像人类声音的对应语音。

此次发布的Jarvis提供有多个新型对话式AI预训练模型,包括基于数千小时语音数据训练的ASR、NLU和TTS模型,提供使用一行代码部署服务的端到端工作流程和工具,并支持迁移学习工具包(TLT),方便企业根据自己的具体用例和领域调整应用。

其迁移学习工具包是一个拖放界面,不需要任何先验编码经验,即可采用自定义数据通过零编码的方法,快速重新训练模型。

开发者可以再训练TLT,也可以探索用于构建和训练GPU加速的对话式AI模型的Python工具包NeMo,然后用Jarvis集成使用最先进的AI语言模型进行语音识别、语音合成、语义理解的虚拟助手,未来Jarvis还将支持计算机视觉服务。

通过Jarvis,企业可以获得各种先进的模型、通过TLT迁移学习将开发速度提升高达10倍,以及全面优化的GPU加速流程,从而创建能理解每家公司独特专业术语的实时智能语言型应用。

其全面加速的深度学习流程经过优化,可作为可扩展服务运行。

即日起,NVIDIA Jarvis和TLT可供NVIDIA开发者计划成员免费下载。

三、对话式AI正改变各行业服务体验

NVIDIA Jarvis服务现有的三大功能分别是语音识别、语音合成、自然语言理解。

其语音识别服务有不同的模式选择,可以使用不同采样率,可用于语音识别的英语语音数据已经被训练了7000个小时,并提供有Jasper、Quartznet等不同声学模型,全流程端到端优化。

其语音合成有流模式和批处理模式,支持22kHz采样率,提供acoTron2、Waveglow等模型和完全端到端优化的流程。

如果要识别特定领域的实体,Jarvis的自然语言理解模型即可提供帮助,该服务提供高级NLP API和低级API,能满足命名实体识别、领域分类、分别标签等需要。

例如,在医疗健康领域,眼科医生进行远程诊疗时,自然语言理解服务能识别医学文本的实体,在对话过程中能检测出哪些医疗实体,辅助终端系统为患者进行诊断。

除了医疗健康外,NVIDIA Jarvis也正为政务、金融、消费者服务等更多行业带来新的机遇。

企业和政府机构每天都要记录数以千万计的通话,但通过搜索提取这些通话中的关键信息几乎难以实现。而通过Jarvis把录音转换成文本,就可以利用AI工具快速搜索并分析这些数据。

在金融领域,以用AI颠覆金融分析行业而闻名的英国公司Kensho用NVIDIA对话式AI开发了金融和商业语音识别解决方案Scribe,该方案据称在财报电话和财务音频方面的准确率比同类其他商业解决方案高出约20%。

得益于在推荐引擎Merlin、对话式AI Jarvis等关键框架的押注,NVIDIA正不断强化其数据中心业务的软件优势。

本周NVIDIA刚刚公布的最新财报显示,其数据中心业务在截至2021年1月31日的第四季度创下19亿美元收入新纪录,同比增长97%,全年收入创下67.0亿美元的纪录,同比增长124%。

结语:加速对话式AI落地普及

通过虚拟助手、实时转录、聊天机器人等形态,对话式AI正带给企业客户更多沉浸式的体验。

随着越来越多企业及消费者拥抱数字化,更多中小型机构也开始在其联络中心部署更具个性化的对话式AI功能,而开发部署的成本与复杂性,往往是制约这一趋势的核心难题之一。

而NVIDIA Jarvis 1. 0公测版的推出,降低了实时对话式AI开发的准入门槛,有望推动未来对话式AI在更多行业的普及落地。
责任编辑:tzh

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    463

    文章

    54412

    浏览量

    469194
  • NVIDIA
    +关注

    关注

    14

    文章

    5685

    浏览量

    110111
  • AI
    AI
    +关注

    关注

    91

    文章

    41060

    浏览量

    302571
  • 人工智能
    +关注

    关注

    1820

    文章

    50314

    浏览量

    266885
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    硅光成AI胜负手?英伟20亿美元战略投资Marvell

    纳入英伟 AI 生态体系,并在硅光子技术领域展开深度合作,旨在帮助客户更高效地搭建 AI 算力基础设施。   构建 “异构计算” 新范式 根据双方签署的战略协议,此次合作的核心围绕N
    的头像 发表于 04-06 07:02 1.1w次阅读

    恩智浦与英伟携手推出面向先进物理AI的创新方案

    ● 与英伟合作开发,面向下一代物理AI应用的安全、可靠实时数据处理与传输解决方案 ● 将英伟达人形机器人解决方案整合至恩智浦安全可靠的边缘
    的头像 发表于 03-17 10:12 1848次阅读
    恩智浦与<b class='flag-5'>英伟</b><b class='flag-5'>达</b>携手<b class='flag-5'>推出</b>面向先进物理<b class='flag-5'>AI</b>的创新方案

    企业级AI Agent王炸! 英伟GTC将开源 NemoClaw

    消息人士透露,英伟计划在下周在美国圣荷西举行的年度开发者大会前后正式公布 NemoClaw。据知情人士向 WIRED 透露,该平台允许企业部署 AI 代理为内部团队执行任务,且不限于使用英伟
    的头像 发表于 03-10 11:35 9335次阅读
    企业级<b class='flag-5'>AI</b> Agent王炸! <b class='flag-5'>英伟</b><b class='flag-5'>达</b>GTC将开源 NemoClaw

    英伟电话会看Agentic AI推理与FPGA价值

    2026年2月,英伟发布2026财年Q4财报:营收681亿美元,同比增长73%,数据中心业务增长75%——预期中的超预期。更值得关注的,是电话会中反复出现的几个关键词:Agentic AI、推理
    的头像 发表于 03-04 17:07 1263次阅读
    从<b class='flag-5'>英伟</b><b class='flag-5'>达</b>电话会看Agentic <b class='flag-5'>AI</b>推理与FPGA价值

    迈向吉瓦级AI工厂的能源变革:英伟Rubin平台电源架构解析

    转变。英伟(NVIDIA)推出的Rubin平台,作为Blackwell架构的继任者,不仅是算力密度的又一次飞跃,更是对数据中心能源基础设施的一次极限挑战。
    的头像 发表于 01-15 17:42 959次阅读
    迈向吉瓦级<b class='flag-5'>AI</b>工厂的能源变革:<b class='flag-5'>英伟</b><b class='flag-5'>达</b>Rubin平台电源架构解析

    黄仁勋:未来十年很多汽车是自动驾驶 英伟发布Alpamayo汽车大模型平台

    最看好的AI落地场景就是自动驾驶。在演讲中黄仁勋提到,未来十年,世界上很大一部分汽车将是自动驾驶或高度自动驾驶的。你期待吗? 英伟发布Alpamayo汽车大模型平台
    的头像 发表于 01-06 11:45 1407次阅读

    英伟重磅出手!AI 推理存储全面觉醒

    电子发烧友网报道(文/黄晶晶)近日,有消息称,英伟将以大约200亿美元收购人工智能芯片初创公司Groq,这将是英伟迄今为止规模最大的一笔收购。但
    的头像 发表于 12-26 08:44 1.2w次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>重磅出手!<b class='flag-5'>AI</b> 推理存储全面觉醒

    Microchip推出模型语境协议服务器

    AI工具和大型语言模型,为其提供解答问题所需的上下文信息。通过简单的对话查询,MCP服务器可帮助用户检索经验证的、最新的Microchi
    的头像 发表于 11-24 15:43 759次阅读

    NVIDIA新闻:英伟10亿美元入股诺基亚 英伟推出全新量子设备

    给大家分享一些NVIDIA新闻: 英伟10亿美元入股诺基亚 在当地时间10月28日,英伟正式宣布将以10亿美元入股诺基亚;据悉英伟
    的头像 发表于 10-29 17:12 2394次阅读

    拉夫劳伦携手微软推出对话AI应用购物助手Ask Ralph

    拉夫·劳伦携手微软,推出由Microsoft Azure OpenAl(国际版)驱动的对话AI应用购物助手“Ask Ralph”,旨在重塑数字购物体验。该
    的头像 发表于 10-13 15:45 830次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    当今社会,AI已经发展很迅速了,但是你了解AI的发展历程吗?本章作者将为我们打开AI的发展历程以及需求和挑战的面纱。 从2017年开始生成AI
    发表于 09-12 16:07

    新唐科技推出高效AI MCU部署工具NuML Toolkit

    随着 AI 技术加速导入各类嵌入系统,如何将训练完成的 AI 模型顺利部署至资源有限的微控制器成为工程师面对的重大挑战。为协助开发者快速落地 AI
    的头像 发表于 08-01 17:21 2471次阅读

    英伟AI人才,去了华为

    电子发烧友网综合报道 近日,英伟首席科学家比尔·戴利(Bill Dally)表示,美国对中国实施的人工智能出口管制禁令,让中国获得很大的发展空间,过去替英伟撰写程序的中国人工智能研
    的头像 发表于 06-06 00:05 7540次阅读

    今日看点丨英伟将为中国市场推出AI芯片 售价大幅低于H20;中科曙光与海光信息宣布战略重组

    1. 英伟将为中国市场推出AI 芯片 售价大幅低于H20   近日,外媒报道称,美国芯片巨头英伟
    发表于 05-26 11:06 1698次阅读