0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA助力阿里巴巴天猫精灵大幅提升服务运行效率

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-07-14 10:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

天猫精灵智能引擎团队、智能合成团队与 NVIDIA 团队合作,通过利用 NVIDIA TensorRT 加速流式语音合成(Text-to-Speech,以下简称 TTS)深度学习模型,并借助 NVIDIA Triton 推理服务器在 NVIDIA T4 GPU 上进行高效部署,帮助阿里巴巴天猫精灵流式 TTS 服务将吞吐提升 50%,首包延时降低 35%,大幅提升服务运行效率,提升资源利用率。

天猫精灵(Tmall Genie)是阿里巴巴消费者人工智能一级公司,于 2017 年 9 月发布第一代天猫精灵智能终端 X1。让用户以自然语言对话的交互方式,实现影音娱乐、购物、信息查询、生活服务等功能操作,成为消费者的家庭助手。目前,天猫精灵已经服务超过 3000 万中国家庭,在三方权威统计中不仅智能音箱产品出货量排名中国前列,其产品并已可连接 3 亿以上的家庭 AIoT 生态设备。

除了智能音箱终端产品外,天猫精灵推出 AliGenie 开放平台,旨在构建基于 AI 的多模态交互及服务系统,为多种云应用提供跨系统服务能力,实现端云协同、跨平台多终端快速接入。该开放平台提供高性能且高质量的语音 AI 能力,包括多种不同音色的高度拟人、高度流畅的语音合成算法等。

此外,天猫精灵基于 AliGenie 开放平台,还提供基于芯片/模组的硬件解决方案,以及通用的热门行业解决方案。专注生活多个领域,提供一站式解决方案。

本案例中负责实施的是天猫精灵智能引擎团队以及天猫精灵智能合成团队。天猫精灵智能合成团队负责语音合成等生成式算法的研究及开发;天猫精灵智能引擎团队主要支撑天猫精灵业务线各项业务的工程化落地,如语音识别、语义理解、语音合成、图像处理等 AI 核心场景。

流式 TTS 是天猫精灵工作流中最为重要的 AI 环节之一。在这一场景中,天猫精灵智能引擎团队面临着如下挑战:

首先流式 TTS 对于首包延时有着严格要求,否则用户将会因为较长的反馈迟滞而感到不适,这就要求 TTS 工作管线的每个模块的推理能够高效地执行。

另一方面,团队希望 TTS 服务的吞吐能够达到较高水平,这就需要在服务端对收到的多个流式合成请求进行 Batching 的处理。但流式 TTS 工作管线包含声学模型和声码器等多个模块,在 GPU 上进行 Batching 操作需要正确维护和切换每个合成请求所需的模型状态,因此需要特别设计工作管线和调度逻辑。

最后,如何尽可能提升 GPU 资源利用率是降本增效的关键。最直接的思路便是在一张 GPU 上部署多个模型来提升利用率。因此,如何在同一张 GPU 上对多个模型进行高效的调度和管理也成为了一个挑战。

基于以上挑战,天猫精灵智能引擎团队、智能合成团队与 NVIDIA 解决方案架构团队合作,采用NVIDIA TensorRT对模型进行推理加速,并利用NVIDIA Triton 推理服务器在 T4 GPU 上进行在线部署,形成了一套高效的流式 TTS 推理部署方案。在提升用户体验的同时,大幅降低了服务成本。

首先,该方案使用 TensorRT 对流式 TTS 工作管线中的每一个模型进行优化加速。我们将训练好的声学模型和声码器,导出为 ONNX 模型格式,再使用 TensorRT 将 ONNX 模型转换为最优化的 TensorRT Engine。使用 TensorRT 加速的 TTS 模型,能显著提升推理执行的速度,从而尽可能压缩首包延时。

另一方面,天猫精灵智能引擎团队与 NVIDIA 团队合作设计并实现了一种基于 Triton 的流式 TTS 推理部署管线。在该方案中,我们使用 Triton Custom Backend 实现串联 TTS 各个模型的调度管线。对于管线中的每一步推理处理,会调用部署在 Triton 上的 TTS TensorRT Engine。如此一来,Triton 便可将发送到服务端的 TTS 请求,有条不紊地调度到管线中的每个模块进行推理执行。并且,在该管线中,我们实现了适用于 GPU 平台的流式 TTS 高效调度机制,通过在服务端 Custom Backend 中维护每个合成请求的状态,实时地将模型输入和状态动态聚合为对 GPU 友好的 Batch,交由管线中各个模块的 TensorRT Engine 进行推理,从而大幅提升管线吞吐和 GPU 利用率,同时保证了对每个合成请求的快速响应。此外,流式 TTS 中一句话的合成请求会对应多个回包,每个回包承载一个音频块。针对这种一收多发的推理模式,我们利用 Triton 提供的 Decoupled Responses 机制,保证一个请求的多个回包能够正确高效地发送给对应的客户端,使用户能听到完整且流畅的音频。

最后,为了进一步提升 GPU 资源利用率,该方案利用了 Triton 的 Concurrent Model Execution 特性。该特性将部署在 Triton 上的模型或模块,以模型实例的方式管理:一个模型可以部署多个实例,不同模型的实例也可部署在同一GPU上。因此该方案开启了 Concurrent Model Execution 后,同一个 T4 GPU 上可部署多个 TTS 发音模型,使得多个模型实例的推理在 GPU 算力资源充足时可以达到并行执行。如此一来,GPU 算力资源可以被多个模型的并行执行充分利用起来,达到降本增效的目的。

通过使用基于 NVIDIA TensorRT 和 Triton 推理服务器的流式 TTS 推理部署方案,天猫精灵 TTS 服务的吞吐提升约 50%,首包延时降低约 35% ,帮助天猫精灵节省了业务成本,提升了用户体验。

审核编辑:汤梓红
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109097
  • 阿里巴巴
    +关注

    关注

    7

    文章

    1645

    浏览量

    48939
  • TTS
    TTS
    +关注

    关注

    0

    文章

    62

    浏览量

    11454
  • 天猫精灵
    +关注

    关注

    5

    文章

    96

    浏览量

    12058

原文标题:NVIDIA TensorRT 和 Triton 助力阿里巴巴天猫精灵显著提升流式语音合成服务运行效率

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    海外电商平台阿里巴巴国际站获取商品详情的API接口

    ​ 在跨境电商领域,阿里巴巴国际站(Alibaba.com)是一个领先的平台,为企业提供全球贸易服务。其API接口允许开发者通过编程方式获取商品详情,便于构建自动化工具或集成到第三方系统。本文将
    的头像 发表于 11-14 15:36 211次阅读
    海外电商平台<b class='flag-5'>阿里巴巴</b>国际站获取商品详情的API接口

    【 蓝牙模组】安信可模组TG-12F/TG-01M:AT指令入门教程 &amp;接入阿里飞燕/猫精灵平台

    是小写的MAC地址) 3.6数据上报下发 四、接入 猫精灵平台 五、相关资料 01、产品介绍 TG-12F/TG-01M模块采用猫精灵TG7100C芯片,TG7100C 是智能新一
    的头像 发表于 10-23 10:15 207次阅读
    【 蓝牙模组】安信可模组TG-12F/TG-01M:AT指令入门教程 &amp;接入<b class='flag-5'>阿里</b>飞燕/<b class='flag-5'>天</b><b class='flag-5'>猫精灵</b>平台

    博世与阿里巴巴集团深化战略合作

    9月2日,全球领先的汽车技术与服务商博世与阿里巴巴集团宣布深化战略合作伙伴关系,以先进的云计算与人工智能技术加速推动企业数字化转型。双方将重点聚焦云端驱动的企业运营、AI赋能的业务创新,以及电商领域的拓展。
    的头像 发表于 09-02 16:09 504次阅读

    普华基础软件莅临阿里巴巴达摩院调研交流

    近日, 普华基础软件股份有限公司(以下简称普华基础软件)董事、总经理刘宏倩一行前往阿里巴巴达摩院(杭州)科技有限公司(以下简称达摩院)调研交流,阿里巴巴集团高层及达摩院核心团队参与了本次调研交流活动
    的头像 发表于 04-08 10:10 951次阅读

    阿里云是什么?企业不可不知的云端架构服务

    阿里云是什么?中国高速连线阿里云 CDN 服务 阿里云为国内云端市场中市占有率第一的云平台,由阿里巴巴集团自主研发,在国内使用的线路品质稳定
    的头像 发表于 03-16 09:43 1295次阅读

    阿里云爆发式的跨越

    表示,阿里巴巴与苹果的合作,将不仅仅局限于手机服务领域,未来还将涉及更多的业务板块。 当媒体都在惊叹与讨论苹果为什么选择阿里巴巴时,背后真正的主角还需要加上一个 “云” 字。 长期以来,相比淘宝、
    的头像 发表于 03-12 16:54 613次阅读
    <b class='flag-5'>阿里</b>云爆发式的跨越

    Arm与阿里巴巴合作加速端侧多模态AI体验

    Arm 控股有限公司(纳斯达克股票代码:ARM,以下简称“Arm”)近日发布与阿里巴巴集团轻量级深度学习框架 MNN 的又一新合作。
    的头像 发表于 03-10 09:07 1030次阅读

    谷景阿里巴巴国际站正式上线

    在行业发展的关键节点,谷景电子取得了重大突破,谷景阿里巴巴国际站正式上线!此次上线聚焦电感领域,旨在为全球客户提供更较大好的电感产品与服务,也标志着谷景电感业务在国际化道路上迈出了关键一步。
    的头像 发表于 02-26 09:44 773次阅读

    阿里巴巴Qwen大模型助力开发低成本DeepSeek替代方案

    近日,阿里巴巴的开源Qwen2.5模型在AI领域再次展现其强大实力,为斯坦福大学与伯克利大学的研究人员提供了低成本的AI训练解决方案。借助这一技术,两所知名学府的研究团队成功开发出价格低于50美元
    的头像 发表于 02-12 13:42 1259次阅读

    阿里巴巴否认投资DeepSeek传闻

    近日,市场流传出一则消息,称阿里巴巴计划向人工智能企业DeepSeek投资10亿美元,意在获取该公司10%的股份,并考虑将阿里云作为其首要推理算力平台。此消息一出,立即引起了市场的广泛关注和热议
    的头像 发表于 02-10 09:10 865次阅读

    阿里巴巴否认投资DeepSeek

    近日,有传闻称阿里巴巴计划以100亿美元的估值,投资10亿美元认购中国AI初创企业DeepSeek的10%股权。然而,阿里高管颜乔迅速对此进行了否认,他表示:“同为中国杭州企业,我们为DeepSeek的成就鼓掌,但外界流传的阿里
    的头像 发表于 02-08 16:47 945次阅读

    猫精灵与夸克团队携手设计AI眼镜

    近日,阿里巴巴集团内部的智能互联事业群迎来了新的管理变革,由总裁吴嘉正式接管这一关键业务板块。作为阿里巴巴面向广大消费者的重要硬件业务之一,“猫精灵”将继续保持其独立运营的特色与优势
    的头像 发表于 01-20 10:28 2434次阅读

    阿里AI To C业务调整:猫精灵与夸克融合,探索AI眼镜

    近日,阿里集团内部进行了一次业务调整,智能互联事业群正式由智能信息事业群总裁吴嘉接管。智能互联事业群是阿里在2022年成立的一级业务部门,其核心品牌为猫精灵,是
    的头像 发表于 01-17 10:16 1139次阅读

    阿里巴巴出售高鑫零售股权,聚焦核心业务

    近日,阿里巴巴集团正式对外发布公告,宣布其子公司及New Retail与德弘资本达成了一项重要协议。根据该协议,阿里巴巴将出售其所持有的高鑫零售全部股权,这些股权合计占高鑫零售已发行股份总数的约
    的头像 发表于 01-02 10:54 695次阅读

    阿里巴巴74亿出售银泰百货予雅戈尔

    近日,电子商务巨头阿里巴巴集团宣布了一项重大决策,决定将旗下银泰百货的全部股权转让给由雅戈尔集团与银泰管理团队联合组成的财团。这一消息引起了业界的广泛关注。 据悉,此次交易涉及的金额高达74亿元
    的头像 发表于 12-18 10:04 699次阅读