0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达推出实时对话式AI模型工具

我快闭嘴 来源:智东西 作者:心缘 2021-03-02 10:06 次阅读

凭借听、读、译三大功能,对话式人工智能AI)正逐渐深入人们的生活,成为解放双手和提高生产力的关键工具。

当你说话时,对话式AI能实时将你说的话记录成文字,甚至可以实时翻译成其他语言。

当你听不懂、记不住医生叮嘱的药物或治疗方案时,接受过海量医学文本训练的对话式AI,能帮你准确地记下全部医嘱。

当你因为开车等原因不方便看手机时,对话式AI能将屏幕上的文字读给你听。

它既能做稳定的速记员,也能胜任专业的翻译官,越来越多企业采用对话式AI来改善工作效率与优化客户支持。

不过,要开发出一款优质的对话式AI,并不是一件容易的事。如果只追求最快的响应速度,难免牺牲语音识别、语言理解、语音生成的质量,而如果过于重视质量,可能会响应的不够及时。

怎样能快速开发出高质量的对话式AI,满足专业的转录和编译需求?知名硅谷芯片巨头NVIDIA刚刚推出了一个相当有用的工具。

一、降低实时对话式AI开发门槛的神器

2020年初突然爆发的新冠肺炎疫情正刺激企业AI的应用,从远程教育、远程办公、客户服务到医疗健康,众多行业加速出现对AI的需求。

知名市场调研机构IDC的数据显示,2019年中国对话式AI的支出约为58亿美元,这一数字有望到2023年攀升至138亿美元。其中,中国对话式AI市场规模有望从2019年的5.761亿美元增至2023年的18.593亿美元,年均复合增长率(CAGR)为34.0%。

什么是对话式AI?简单理解,就是一种能自动理解人类语言的系统,使得人与机器的交流像人与人之间的交流那样轻松、自然而高效。

想想我们的日常沟通过程,我们不会向对方发出固定的指令,而是用自然的语言进行交流。

而要让机器更加自然、拟人化的与人类互动,需要先让机器理解你所说的话,即时了解上下文和语言,判断话的意图和隐藏含义,并以最自然的对话方式做出回应。

在疫情刺激下,英国高性能语音识别服务供应商Intelligent Voice发展势头相当迅猛,几个月内即推出了新产品Myna,能连接到虚拟会议工具,自动记录、将录音转换成文本并发送文本记录。

Myna得以快速实现的秘密武器,即是NVIDIA去年5月首次公布的实时对话式AI模型工具Jarvis。

Jarvis是一个基于NVIDIA GPU提供实时性能的灵活、多模态对话式AI服务应用框架。

“Jarvis采用多模态的方法,将自动语音识别的关键元素与实体和意图匹配相融合,满足需要高吞吐量和低延迟的新用例的需求。Jarvis API不但易于使用,还能整合和自定义客户的工作流程,实现性能优化。”Intelligent Voice首席技术官Nigel Cannings说。

另一家创建阿拉伯语虚拟助手的公司InstaDeep同样是Jarvis的早期采用者。通过Jarvis中的NeMo工具包,这家公司对阿拉伯语语音–文本模型进行微调,将单词错误率降低至7.84%。

通过早期采用者的反馈与优化,Jarvis逐渐实现了更高的吞吐量和更低的延迟。在打磨成熟后,NVIDIA于昨日正式推出GPU加速的Jarvis 1. 0公测版。

二、延时小于300毫秒,开发速度提升高达10倍

Jarvis 1. 0公测版中包含用于构建和部署实时对话式AI应用程序的端到端工作流程,使开发者能轻松实现实时语音识别、转录、翻译、封闭式字幕、虚拟助手和聊天机器人等功能。

它对于改善企业服务非常友好。如果从头开始构建对话式AI服务,必然需要深厚的AI专业知识、海量数据和充足的计算资源,而由NVIDIA GPU加速的Jarvis框架使开发者无需为这些成本而烦忧。

Jarvis的一大能力是定制解决方案。基于NVIDIA Jarvis,企业开发者能很容易地用专有的视频和语音数据,对最新模型进行微调,从而更深入地理解特定上下文,并对推理进行优化,从而构建针对其自身行业、产品和客户特征而量身定制的高质量、端到端实时对话式AI服务。

这些服务运行时间不到300毫秒,在GPU上的吞吐量比CPU高7倍。

首先是自动语音识别(ASR),整个系统需要先输入音频、提取特征,用声学模型尝试找出特定声音生成相应的等效词,从而识别语音音频并生成对应文本;然后借助Jarvis,可以实现机器翻译、搜索、意图识别、语言分析、问答系统等自然语言理解(NLU)服务;最后从这些服务获得文本作为输出,通过语音合成(TTS)技术和语音编码模块生成像人类声音的对应语音。

此次发布的Jarvis提供有多个新型对话式AI预训练模型,包括基于数千小时语音数据训练的ASR、NLU和TTS模型,提供使用一行代码部署服务的端到端工作流程和工具,并支持迁移学习工具包(TLT),方便企业根据自己的具体用例和领域调整应用。

其迁移学习工具包是一个拖放界面,不需要任何先验编码经验,即可采用自定义数据通过零编码的方法,快速重新训练模型。

开发者可以再训练TLT,也可以探索用于构建和训练GPU加速的对话式AI模型的Python工具包NeMo,然后用Jarvis集成使用最先进的AI语言模型进行语音识别、语音合成、语义理解的虚拟助手,未来Jarvis还将支持计算机视觉服务。

通过Jarvis,企业可以获得各种先进的模型、通过TLT迁移学习将开发速度提升高达10倍,以及全面优化的GPU加速流程,从而创建能理解每家公司独特专业术语的实时智能语言型应用。

其全面加速的深度学习流程经过优化,可作为可扩展服务运行。

即日起,NVIDIA Jarvis和TLT可供NVIDIA开发者计划成员免费下载

三、对话式AI正改变各行业服务体验

NVIDIA Jarvis服务现有的三大功能分别是语音识别、语音合成、自然语言理解。

其语音识别服务有不同的模式选择,可以使用不同采样率,可用于语音识别的英语语音数据已经被训练了7000个小时,并提供有Jasper、Quartznet等不同声学模型,全流程端到端优化。

其语音合成有流模式和批处理模式,支持22kHz采样率,提供acoTron2、Waveglow等模型和完全端到端优化的流程。

如果要识别特定领域的实体,Jarvis的自然语言理解模型即可提供帮助,该服务提供高级NLP API和低级API,能满足命名实体识别、领域分类、分别标签等需要。

例如,在医疗健康领域,眼科医生进行远程诊疗时,自然语言理解服务能识别医学文本的实体,在对话过程中能检测出哪些医疗实体,辅助终端系统为患者进行诊断。

除了医疗健康外,NVIDIA Jarvis也正为政务、金融、消费者服务等更多行业带来新的机遇。

企业和政府机构每天都要记录数以千万计的通话,但通过搜索提取这些通话中的关键信息几乎难以实现。而通过Jarvis把录音转换成文本,就可以利用AI工具快速搜索并分析这些数据。

在金融领域,以用AI颠覆金融分析行业而闻名的英国公司Kensho用NVIDIA对话式AI开发了金融和商业语音识别解决方案Scribe,该方案据称在财报电话和财务音频方面的准确率比同类其他商业解决方案高出约20%。

得益于在推荐引擎Merlin、对话式AI Jarvis等关键框架的押注,NVIDIA正不断强化其数据中心业务的软件优势。

本周NVIDIA刚刚公布的最新财报显示,其数据中心业务在截至2021年1月31日的第四季度创下19亿美元收入新纪录,同比增长97%,全年收入创下67.0亿美元的纪录,同比增长124%。

结语:加速对话式AI落地普及

通过虚拟助手、实时转录、聊天机器人等形态,对话式AI正带给企业客户更多沉浸式的体验。

随着越来越多企业及消费者拥抱数字化,更多中小型机构也开始在其联络中心部署更具个性化的对话式AI功能,而开发部署的成本与复杂性,往往是制约这一趋势的核心难题之一。

而NVIDIA Jarvis 1. 0公测版的推出,降低了实时对话式AI开发的准入门槛,有望推动未来对话式AI在更多行业的普及落地。
责任编辑:tzh

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    445

    文章

    47483

    浏览量

    407900
  • NVIDIA
    +关注

    关注

    14

    文章

    4541

    浏览量

    101479
  • AI
    AI
    +关注

    关注

    87

    文章

    26139

    浏览量

    263716
  • 人工智能
    +关注

    关注

    1773

    文章

    43367

    浏览量

    230132
收藏 人收藏

    评论

    相关推荐

    谷歌推出能制作旅行攻略的AI工具

    谷歌近日发布了一项令人瞩目的新功能,它是一款能够借助自然语言对话帮助用户生成旅行行程和出游建议的AI工具。这款工具推出,标志着谷歌在人工智
    的头像 发表于 03-29 11:08 139次阅读

    谷歌模型合成工具怎么用

    谷歌模型合成工具主要是指Dreamfusion,这是Google的大型AI图像模型Imagen与NeRF的3D功能相结合的一种技术。Dreamfusion是Dream Fields的演
    的头像 发表于 02-29 17:33 351次阅读

    英伟将用AI设计AI芯片

    AI芯片行业资讯
    深圳市浮思特科技有限公司
    发布于 :2024年02月19日 17:54:43

    英伟新显卡起售近1.3万元

    英伟行业资讯
    深圳市浮思特科技有限公司
    发布于 :2023年12月29日 16:56:52

    英伟将在越南设法人实体

    英伟行业资讯
    深圳市浮思特科技有限公司
    发布于 :2023年12月12日 10:29:04

    英伟HBM4预计2026年推出

    英伟行业资讯
    深圳市浮思特科技有限公司
    发布于 :2023年11月27日 15:15:17

    英伟为何放不下中国?

    英伟行业资讯
    深圳市浮思特科技有限公司
    发布于 :2023年11月27日 15:11:09

    #英伟 #显卡 英伟全新旗舰显卡RTX 5090性能暴涨70%

    显卡英伟
    深圳市浮思特科技有限公司
    发布于 :2023年11月20日 14:19:25

    #消费级显示被禁止出口 英伟RTX 4090显卡遭遇下架风波

    英伟
    深圳市浮思特科技有限公司
    发布于 :2023年10月19日 15:58:35

    英伟达全球首发超级AI芯片 训练大模型成本更低

    黄仁勋向数千名开发者和图形专业人士发表讲话,宣布更新 GH200 Grace Hopper 超级芯片、英伟AI Workbench,并将把生成式 AI 引入英伟达 Omnivers
    的头像 发表于 08-09 14:42 800次阅读

    全新一代Jetson Orin Nano来袭,40TOPS超强算力,刷新你的想象! #Jetson #英伟

    英伟
    学习电子知识
    发布于 :2023年07月02日 13:27:15

    00032 Jetson TX2 NX开发者套件!TX2的性能,NANO的尺寸! #英伟 #jetson

    英伟
    学习电子知识
    发布于 :2023年07月02日 13:21:19

    英伟达为游戏行业提供定制化AI服务,“游戏+AI”成为主流!

    使用这项代工服务构建和部署定制化的语音、对话和动画AI模型。该引擎将赋予NPC(非玩家角色)对话技能,使他们能够以进化出的逼真个性回答问题。 英伟
    的头像 发表于 06-02 00:07 1349次阅读

    联发科回应结盟英伟合攻 Arm 架构芯片传闻

    联发科计划周一下午举行 2023“旗舰科技 智领未来”记者会,由联发科 CEO 蔡力行与重量级嘉宾一同出席,这位嘉宾应该是近来引起全球关注、并成为 AI 创新推动者的英伟 CEO 黄仁勋。早些时候
    发表于 05-28 08:47

    新思科技发布业界首款全栈AI驱动型EDA解决方案Synopsys.ai

    摘要:Synopsys.ai可为芯片设计提供AI驱动型解决方案,包含数字、模拟、验证、测试和制造模块。AI引擎可显著提高设计效率和芯片质量,同时降低成本。·英伟
    发表于 04-03 16:03