CNCC 论坛 | NVIDIA 携手百度、京东、腾讯、小冰，共同解读超大模型的推理和部署实践-电子发烧友网

NVIDIA 四大主题论坛

全栈式解决方案

为您启动 AI 引擎

12 月 8 日-10 日，CNCC 邀您共赴 “计算之约”。以算力、数据、生态为主题，本届 CNCC 首次全面改为线上举办，但规模可说是史上之 “最” ：邀请嘉宾包括 ACM 图灵奖获得者、田纳西大学教授 Jack Dongarra，以及多位院士及专家，还有七百余位国内外名校学者、名企领军人物、各领域极具影响力的业内专家。

今年，NVIDIA会在CNCC带来涵盖DPU、元宇宙、超大模型的推理和部署实践三大主题的演讲论坛和面向开发者的CUDA Python线上编程培训实验论坛，内容丰富、干货满满、场场精彩！（* NVIDIA 将免费放送四大论坛，线上票价值 1080 元，千万别错过）

NVIDIA 在 CNCC 主题论坛概览

时间	主题
12 月 8 日（星期四）1330	探索 DPU 应用场景加速云原生基础设施创新
12 月 8 日（星期四）1900	如何利用元宇宙相关技术实现虚拟世界和现实世界的连接
12 月 9 日（星期五）1330	超大模型的推理和部署实践
12 月 10 日（星期六）1330	基于 Python 的 CUDA 编程入门培训及线上编程体验

在 8 号的“为数据中心不断“减负” ：探索 DPU 应用场景，加速云原生基础设施创新”、穿梭虚实之间，元宇宙技术是如何做到的？两期主题论坛之后。

这一程，NVIDIA 将携手百度、腾讯、小冰，于 12 月 9 日下午共同解读《超大模型的推理和部署实践》。论坛云集技术大牛，您将了解：

飞桨超大模型的压缩和推理优化；
基于精调、蒸馏和压缩的大模型落地应用；
通往高参数效用比的自然语言处理；
“小冰”如何利用 FasterTransformer 实现大规模语言模型的产品级部署等内容。

对超大模型推理及其具体应用感兴趣的小伙伴们，

下方查看会议详情！

超大模型的推理和部署实践

12 月 9 日，星期五，1330

线上会议室 6

随着 AI 的发展，创新和数据复杂性不断提升，超大规模成为必然趋势。通过本次分论坛，您将了解飞桨超大模型的压缩和推理优化；基于精调、蒸馏和压缩的大模型落地应用；通往高参数效用比的自然语言处理；如何利用 FasterTransformer 实现大规模语言模型的产品级部署，以及 Transformer 模型在 TensorRT 上的推理性能优化等内容。

具体议程

飞桨超大模型的压缩和推理优化

超大模型在各类任务上取得卓越的效果，然而由于超大模型体积大、速度慢，推理部署面临巨大的挑战，大模型的高效推理是实现大模型产业应用落地的关键所在。飞桨推出了针对大模型的压缩、推理、服务化全流程部署方案。该方案通过面向大模型的精度无损模型压缩技术、自适应分布式推理技术，可自动感知硬件特性，完成模型压缩、自动切分和混合并行推理计算，实现领先性能。

党青青 | 百度资深研发工程师

党青青，百度资深研发工程师，目前主要从事深度学习模型推理、压缩、视觉算法的研究。负责飞桨推理性能优化，以及模型压缩工具、视觉套件建设。有丰富的深度学习框架系统研发、高性能优化、算法调优经验。

通往高参数效用比的自然语言处理-预训练、

下游任务、与前沿展望

如今自然语言处理领域正在进行 “训练->推理” 到 “预训练->下游任务微调”的范式转换，其中模型神经元数量和预训练所用数据规模已经远超人类大脑的神经元数量和人类人均阅读总量，同时在 GLUE 等通用大模型评估榜单中获得的收益是非常微弱的。对此，我们开展了一系列高参数效用比的自然语言处理预训练、和下游任务的探索，来帮助大模型更加智能、高效的从海量数据中挖掘知识，并鲁棒、准确的迁移到下游任务中。

丁亮 | 京东探索研究院算法科学家

丁亮，京东探索研究院算法科学家，自然语言处理方向负责人。博士毕业于悉尼大学，师从 IEEE/ACM Fellow 陶大程教授。他致力于基于深度学习的自然语言处理，包括大规模语言模型预训练、语言理解、生成和翻译。他带领团队在 2021 年 12 月在两个 GLUE 基准评测任务上实现首次超越人类的表现，随后在 2022 年 1 月以均分 91.3 获得总榜单第一。

基于精调、蒸馏和压缩的大模型落地应用

大模型历经过去几年探索已经相对成熟。目前如何能够在真实场景快速落地成为急需解决的问题。为解决大模型落地方面的各种问题，我们开发提供精调、蒸馏、压缩、推理、服务化全流程部署方案，助力大模型快速有效落地。

刘凯 | 腾讯软件工程师

从事 NLP 训练推理一体化服务开发。

小冰如何利用 FasterTransformer

实现大规模语言模型的产品级部署

小冰在部署 GPT 1B/6B 模型中遇到的困难；Faster Transformer (FT) 如何解决上述困难；在上述模型配置下，FT+Triton 与 baseline (Huggingface Transformers 和 Deepspeed) 在 a. latency, b. throughput, c. 可部署的最低配置GPU环境上的差异；小冰如何利用 FT 对 soft prompt/prefix 的支持，在只使用同一个 backbone model 的情况下实现对不同用户的高度自定义化。

赵天雨 | 小冰高级研究员

2015 年本科毕业于北京大学计算机系，2020 年博士毕业于京都大学智能信息学系，同年就职于小冰日本团队。研究方向为自然语言处理，主要关注对话系统、大模型的训练与部署。

郑鹏 | NVIDIA GPU 计算专家

毕业于佐治亚理工计算科学与工程专业，2021 年加入 NVIDIA 主要参与 FasterTransformer Multi-GPU Multi-Node 相关的优化工作。

基于 FasterTransformer

和 Triton大模型的预估

自 2020 年 OpenAI 推出 GPT 模型之後，越来越多研究证明超大模型在自然语言处理上的能力与重要性。NVIDIA 在 2021 年时基于 FasterTransformer 开发多机多卡并行推理的功能，提出第一个多机多卡大模型推理的解决方案。FasterTransformer 本身不具有收集、整理请求的能力，这在实际应用上是非常重要的功能。为了填补不足，我们将 FasterTransformer 与推理框架 Triton 进行结合，让 FasterTransformer 能够更好的支持实际的推理场景。在这次的演讲中，我们会详细的讲解我们如何实现以上的功能，让用户能透过 FasterTransformer 将大模型推理实际落地。

薛博阳 | NVIDIA GPU 技术专家

2019 年加入 NVIDIA，目前主要负责 FasterTransformer 的开发与优化。FasterTransformer 提供 Transformer 模型推理上灵活与高效的调用，对比一般的框架能提供数倍到十倍以上的加速效果。除此之外，是第一个支持 GPT-3 的推理库。FasterTransformer 针对 GPT-3 这种超大规模(1750 亿模型参数)的模型提供了模型并行、优化通信开销、显存使用，让使用者能以最少的 GPU、透过多 GPU、多节点在 GPT-3 的服务上得到最好的速度。

Transformer 模型

在 TensorRT 上的推理性能优化

Transformer 在 NLP 和 CV 领域大放异彩，在众多深度学习模型中显现了突出的效果。同时，它相比于卷积网络需要更高的计算量，其推理优化值得关注。TensorRT 是 NVIDIA 专门针对推理场景推出的性能优化工具；NVIDIA DevTech 团队将若干常用的 Transformer 模型移植到 TensorRT，获得了良好的加速效果。