0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA助力阿里巴巴天猫精灵大幅提升服务运行效率

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-07-14 10:05 次阅读

天猫精灵智能引擎团队、智能合成团队与 NVIDIA 团队合作,通过利用 NVIDIA TensorRT 加速流式语音合成(Text-to-Speech,以下简称 TTS)深度学习模型,并借助 NVIDIA Triton 推理服务器在 NVIDIA T4 GPU 上进行高效部署,帮助阿里巴巴天猫精灵流式 TTS 服务将吞吐提升 50%,首包延时降低 35%,大幅提升服务运行效率,提升资源利用率。

天猫精灵(Tmall Genie)是阿里巴巴消费者人工智能一级公司,于 2017 年 9 月发布第一代天猫精灵智能终端 X1。让用户以自然语言对话的交互方式,实现影音娱乐、购物、信息查询、生活服务等功能操作,成为消费者的家庭助手。目前,天猫精灵已经服务超过 3000 万中国家庭,在三方权威统计中不仅智能音箱产品出货量排名中国前列,其产品并已可连接 3 亿以上的家庭 AIoT 生态设备。

除了智能音箱终端产品外,天猫精灵推出 AliGenie 开放平台,旨在构建基于 AI 的多模态交互及服务系统,为多种云应用提供跨系统服务能力,实现端云协同、跨平台多终端快速接入。该开放平台提供高性能且高质量的语音 AI 能力,包括多种不同音色的高度拟人、高度流畅的语音合成算法等。

此外,天猫精灵基于 AliGenie 开放平台,还提供基于芯片/模组的硬件解决方案,以及通用的热门行业解决方案。专注生活多个领域,提供一站式解决方案。

本案例中负责实施的是天猫精灵智能引擎团队以及天猫精灵智能合成团队。天猫精灵智能合成团队负责语音合成等生成式算法的研究及开发;天猫精灵智能引擎团队主要支撑天猫精灵业务线各项业务的工程化落地,如语音识别、语义理解、语音合成、图像处理等 AI 核心场景。

流式 TTS 是天猫精灵工作流中最为重要的 AI 环节之一。在这一场景中,天猫精灵智能引擎团队面临着如下挑战:

首先流式 TTS 对于首包延时有着严格要求,否则用户将会因为较长的反馈迟滞而感到不适,这就要求 TTS 工作管线的每个模块的推理能够高效地执行。

另一方面,团队希望 TTS 服务的吞吐能够达到较高水平,这就需要在服务端对收到的多个流式合成请求进行 Batching 的处理。但流式 TTS 工作管线包含声学模型和声码器等多个模块,在 GPU 上进行 Batching 操作需要正确维护和切换每个合成请求所需的模型状态,因此需要特别设计工作管线和调度逻辑。

最后,如何尽可能提升 GPU 资源利用率是降本增效的关键。最直接的思路便是在一张 GPU 上部署多个模型来提升利用率。因此,如何在同一张 GPU 上对多个模型进行高效的调度和管理也成为了一个挑战。

基于以上挑战,天猫精灵智能引擎团队、智能合成团队与 NVIDIA 解决方案架构团队合作,采用NVIDIA TensorRT对模型进行推理加速,并利用NVIDIA Triton 推理服务器在 T4 GPU 上进行在线部署,形成了一套高效的流式 TTS 推理部署方案。在提升用户体验的同时,大幅降低了服务成本。

首先,该方案使用 TensorRT 对流式 TTS 工作管线中的每一个模型进行优化加速。我们将训练好的声学模型和声码器,导出为 ONNX 模型格式,再使用 TensorRT 将 ONNX 模型转换为最优化的 TensorRT Engine。使用 TensorRT 加速的 TTS 模型,能显著提升推理执行的速度,从而尽可能压缩首包延时。

另一方面,天猫精灵智能引擎团队与 NVIDIA 团队合作设计并实现了一种基于 Triton 的流式 TTS 推理部署管线。在该方案中,我们使用 Triton Custom Backend 实现串联 TTS 各个模型的调度管线。对于管线中的每一步推理处理,会调用部署在 Triton 上的 TTS TensorRT Engine。如此一来,Triton 便可将发送到服务端的 TTS 请求,有条不紊地调度到管线中的每个模块进行推理执行。并且,在该管线中,我们实现了适用于 GPU 平台的流式 TTS 高效调度机制,通过在服务端 Custom Backend 中维护每个合成请求的状态,实时地将模型输入和状态动态聚合为对 GPU 友好的 Batch,交由管线中各个模块的 TensorRT Engine 进行推理,从而大幅提升管线吞吐和 GPU 利用率,同时保证了对每个合成请求的快速响应。此外,流式 TTS 中一句话的合成请求会对应多个回包,每个回包承载一个音频块。针对这种一收多发的推理模式,我们利用 Triton 提供的 Decoupled Responses 机制,保证一个请求的多个回包能够正确高效地发送给对应的客户端,使用户能听到完整且流畅的音频。

最后,为了进一步提升 GPU 资源利用率,该方案利用了 Triton 的 Concurrent Model Execution 特性。该特性将部署在 Triton 上的模型或模块,以模型实例的方式管理:一个模型可以部署多个实例,不同模型的实例也可部署在同一GPU上。因此该方案开启了 Concurrent Model Execution 后,同一个 T4 GPU 上可部署多个 TTS 发音模型,使得多个模型实例的推理在 GPU 算力资源充足时可以达到并行执行。如此一来,GPU 算力资源可以被多个模型的并行执行充分利用起来,达到降本增效的目的。

通过使用基于 NVIDIA TensorRT 和 Triton 推理服务器的流式 TTS 推理部署方案,天猫精灵 TTS 服务的吞吐提升约 50%,首包延时降低约 35% ,帮助天猫精灵节省了业务成本,提升了用户体验。

审核编辑:汤梓红
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4597

    浏览量

    101750
  • 阿里巴巴
    +关注

    关注

    7

    文章

    1571

    浏览量

    46439
  • TTS
    TTS
    +关注

    关注

    0

    文章

    29

    浏览量

    10693
  • 天猫精灵
    +关注

    关注

    4

    文章

    95

    浏览量

    11212

原文标题:NVIDIA TensorRT 和 Triton 助力阿里巴巴天猫精灵显著提升流式语音合成服务运行效率

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    阿里巴巴减持小鹏汽车股份至9.24%

    据美东时间 3 月 20 日披露,小鹏汽车于美国证券交易委员会文件中透露,阿里巴巴旗下淘系平台淘宝中国控股有限公司(Taobao China Holding Limited)正计划出售 3300 万份小鹏汽车 ADS,市值约为 3.14 亿美元(约合人民币 22.61 亿元)。
    的头像 发表于 03-21 10:45 323次阅读

    阿里巴巴重返中国顶级电商轨道

    阿里巴巴集团董事会主席蔡崇信近日宣布,经过一系列架构重组和管理层变动后,阿里巴巴已成功重返中国顶级电商轨道。蔡崇信在讲话中强调,公司正在逐步调整战略,重新定位其在电商领域的领导地位。
    的头像 发表于 02-27 14:29 513次阅读

    阿里巴巴涨超3% 财报或超预期

    阿里巴巴涨超3% 今日港股开盘后阿里巴巴涨超3%,恒生科技表现也很亮眼。快手、比亚迪电子、联想集团等多股上涨。 阿里巴巴将于2月7日发布2024财年第三季度财报,业界分析会超预期。
    的头像 发表于 02-06 16:05 1221次阅读

    阿里巴巴推出自主多模态AI代理MobileAgent

    阿里巴巴最近推出了一款名为MobileAgent的自主多模态AI代理,这款产品模拟人类操作手机,并采用纯视觉解决方案,无需任何系统代码。
    的头像 发表于 02-04 10:34 513次阅读

    软银子公司确认减持阿里 阿里巴巴最大股东易主

    软银子公司确认减持阿里 软银集团旗下全资子公司Skybridge LLC在回应关于买卖阿里巴巴股票时表示,此前已经与金融机构签订了预付远期合约涉及5.21亿股;由于近几年已经分阶段实施并完成实物结算
    的头像 发表于 01-26 20:45 1537次阅读

    软银已完成减持阿里巴巴股份

    近日,软银集团全资子公司Skybridge LLC宣布,已完成对阿里巴巴股份的减持。这一决定是在经过深思熟虑后作出的,旨在优化公司的财务结构和未来的投资策略。
    的头像 发表于 01-26 15:58 455次阅读

    马云大幅增持阿里股票 马云取代软银成为阿里巴巴最大股东

    马云大幅增持阿里股票 马云取代软银成为阿里巴巴最大股东 有媒体报道,阿里巴巴创始人马云、蔡崇信近期大笔增持了阿里的股票,而且已经买成了最大股
    的头像 发表于 01-24 18:55 729次阅读

    镭神智能入选阿里巴巴诸神之战2023年度智能制造赛道之星

    近日,阿里云发布《Create@阿里巴巴诸神之战2023年度新势力榜单》,镭神智能入选Create@阿里巴巴诸神之战2023年度智能制造赛道之星。据悉,2023年,Create@阿里巴巴
    的头像 发表于 01-20 08:23 198次阅读
    镭神智能入选<b class='flag-5'>阿里巴巴</b>诸神之战2023年度智能制造赛道之星

    利用NVIDIA产品技术组合提升用户体验

    体 UTalk-Doc 将用户指令识别服务吞吐量提升了 5 倍,单个请求响应时间缩减了三分之一,大幅提升服务
    的头像 发表于 01-17 09:30 370次阅读

    深夜,阿里巴巴“出售”小鹏?

    对此,阿里巴巴集团相关负责人表示,“我们根据自身的资本管理目标,出售了所持的部分小鹏股份。小鹏是中国电动汽车领域的领军者之一,我们已与其建立了战略合作关系。我们相信小鹏的前景,期待与该公司的持续合作。”
    的头像 发表于 12-18 16:31 324次阅读

    猫精灵诞生记——如何在互联网公司做硬件》宝书读后感

    如下: 三、内容精读 在买第一台猫精灵之前,那时候正在推方糖,好像就几十块吧,我的想法是,猫精灵语音音箱才几十块钱,肯定是粗制滥造,我才不愿意买一个“电子垃圾”回家,结果有一次机
    发表于 11-20 10:59

    2023云栖大会 阿里巴巴要打造AI时代最开放的云

    年的云栖大会为期三天,设有两场主论坛与500多场分论坛,吸引了全球44个国家和地区的8万多名从业者参会。 在开幕式上蔡崇信表示,AI将成为各行各业的新型生产力,并对算力提出更高要求。从底层算力到AI平台再到模型服务阿里巴巴加大研发投入,推动
    的头像 发表于 11-01 17:42 788次阅读

    猫精灵诞生记——如何在互联网公司做硬件》+消费电子开发实践的指导性书籍

    首先,非常感谢发烧友论坛能够提供本次书籍评测的活动,并及其的有幸能够获得这次评测的机会。 做为猫精灵千万用户的其中一员,深切的感受到猫精灵的快速进步。从2017年上市至今已有超过千
    发表于 10-30 22:37

    英特尔携手阿里巴巴制定多重优化方案,助力阿里Noslate吞吐量提升49%至61%

    的需求,阿里巴巴借助长期的技术积累与创新探索,在 Node.js 的基础上打造了 Noslate 这一面向无服务架构和云原生场景的 JavaScript 容器方案。 作为阿里巴巴多年的深度合作伙伴,英特尔提供的先进全栈软硬件产品
    的头像 发表于 10-27 20:00 287次阅读
    英特尔携手<b class='flag-5'>阿里巴巴</b>制定多重优化方案,<b class='flag-5'>助力</b><b class='flag-5'>阿里</b>Noslate吞吐量<b class='flag-5'>提升</b>49%至61%

    【书籍评测活动NO.22】猫精灵诞生记——如何在互联网公司做硬件

    的智能服务,极大地改善人们的生活体验。智能硬件产品也是电子信息产业里重要的增长点,将需要大量的相关专业人才。2017 年 7 月 5 日阿里巴巴推出了第一款人工智能音箱——猫精灵 X
    发表于 08-29 14:34