0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CNCC 论坛 | NVIDIA 携手百度、京东、腾讯、小冰,共同解读超大模型的推理和部署实践

NVIDIA英伟达 来源:未知 2022-12-05 21:20 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA 四大主题论坛

全栈式解决方案

为您启动 AI 引擎

12 月 8 日-10 日,CNCC 邀您共赴 “计算之约”。以算力、数据、生态为主题,本届 CNCC 首次全面改为线上举办,但规模可说是史上之 “最” :邀请嘉宾包括 ACM 图灵奖获得者、田纳西大学教授 Jack Dongarra,以及多位院士及专家,还有七百余位国内外名校学者、名企领军人物、各领域极具影响力的业内专家。

今年,NVIDIA会在CNCC带来涵盖DPU、元宇宙、超大模型的推理和部署实践三大主题的演讲论坛和面向开发者的CUDA Python线上编程培训实验论坛,内容丰富、干货满满、场场精彩!(* NVIDIA 将免费放送四大论坛,线上票价值 1080 元,千万别错过)

NVIDIA 在 CNCC 主题论坛概览

时间

主题

12 月 8 日(星期四)1330

探索 DPU 应用场景

加速云原生基础设施创新

12 月 8 日(星期四)1900

如何利用元宇宙相关技术

实现虚拟世界和现实世界的连接

12 月 9 日(星期五)1330

超大模型的推理和部署实践

12 月 10 日(星期六)1330

基于 Python 的 CUDA 编程入门

培训及线上编程体验

在 8 号的“为数据中心不断“减负” :探索 DPU 应用场景加速云原生基础设施创新”、穿梭虚实之间,元宇宙技术是如何做到的两期主题论坛之后。

这一程,NVIDIA 将携手百度、腾讯、小冰,于 12 月 9 日下午共同解读《超大模型的推理和部署实践》。论坛云集技术大牛,您将了解:

  • 飞桨超大模型的压缩和推理优化;

  • 基于精调、蒸馏和压缩的大模型落地应用;

  • 通往高参数效用比的自然语言处理;

  • “小冰”如何利用 FasterTransformer 实现大规模语言模型的产品级部署等内容。

对超大模型推理及其具体应用感兴趣的小伙伴们,

下方查看会议详情!

超大模型的推理和部署实践

12 月 9 日,星期五,1330

线上会议室 6

随着 AI 的发展,创新和数据复杂性不断提升,超大规模成为必然趋势。通过本次分论坛,您将了解飞桨超大模型的压缩和推理优化;基于精调、蒸馏和压缩的大模型落地应用;通往高参数效用比的自然语言处理;如何利用 FasterTransformer 实现大规模语言模型的产品级部署,以及 Transformer 模型在 TensorRT 上的推理性能优化等内容。

具体议程

飞桨超大模型的压缩和推理优化

超大模型在各类任务上取得卓越的效果,然而由于超大模型体积大、速度慢,推理部署面临巨大的挑战,大模型的高效推理是实现大模型产业应用落地的关键所在。飞桨推出了针对大模型的压缩、推理、服务化全流程部署方案。该方案通过面向大模型的精度无损模型压缩技术、自适应分布式推理技术,可自动感知硬件特性,完成模型压缩、自动切分和混合并行推理计算,实现领先性能。

a213299c-749e-11ed-8abf-dac502259ad0.png

党青青 | 百度资深研发工程师

党青青,百度资深研发工程师,目前主要从事深度学习模型推理、压缩、视觉算法的研究。负责飞桨推理性能优化,以及模型压缩工具、视觉套件建设。有丰富的深度学习框架系统研发、高性能优化、算法调优经验。

通往高参数效用比的自然语言处理-预训练、

下游任务、与前沿展望

如今自然语言处理领域正在进行 “训练->推理” 到 “预训练->下游任务微调”的范式转换,其中模型神经元数量和预训练所用数据规模已经远超人类大脑的神经元数量和人类人均阅读总量,同时在 GLUE 等通用大模型评估榜单中获得的收益是非常微弱的。对此,我们开展了一系列高参数效用比的自然语言处理预训练、和下游任务的探索,来帮助大模型更加智能、高效的从海量数据中挖掘知识,并鲁棒、准确的迁移到下游任务中。

a272c78a-749e-11ed-8abf-dac502259ad0.png

丁亮 | 京东探索研究院算法科学家

丁亮,京东探索研究院算法科学家,自然语言处理方向负责人。博士毕业于悉尼大学,师从 IEEE/ACM Fellow 陶大程教授。他致力于基于深度学习的自然语言处理,包括大规模语言模型预训练、语言理解、生成和翻译。他带领团队在 2021 年 12 月在两个 GLUE 基准评测任务上实现首次超越人类的表现,随后在 2022 年 1 月以均分 91.3 获得总榜单第一。

基于精调、蒸馏和压缩的大模型落地应用

大模型历经过去几年探索已经相对成熟。目前如何能够在真实场景快速落地成为急需解决的问题。为解决大模型落地方面的各种问题,我们开发提供精调、蒸馏、压缩、推理、服务化全流程部署方案,助力大模型快速有效落地。

a299f10c-749e-11ed-8abf-dac502259ad0.png

刘凯 | 腾讯软件工程师

从事 NLP 训练推理一体化服务开发。

小冰如何利用 FasterTransformer

实现大规模语言模型的产品级部署

小冰在部署 GPT 1B/6B 模型中遇到的困难;Faster Transformer (FT) 如何解决上述困难;在上述模型配置下,FT+Triton 与 baseline (Huggingface Transformers 和 Deepspeed) 在 a. latency, b. throughput, c. 可部署的最低配置GPU环境 上的差异;小冰如何利用 FT 对 soft prompt/prefix 的支持,在只使用同一个 backbone model 的情况下实现对不同用户的高度自定义化。

a2cea67c-749e-11ed-8abf-dac502259ad0.png

赵天雨 | 小冰高级研究员

2015 年本科毕业于北京大学计算机系,2020 年博士毕业于京都大学智能信息学系,同年就职于小冰日本团队。研究方向为自然语言处理,主要关注对话系统、大模型的训练与部署。

a2e7bce8-749e-11ed-8abf-dac502259ad0.png

郑鹏 | NVIDIA GPU 计算专家

毕业于佐治亚理工计算科学与工程专业,2021 年加入 NVIDIA 主要参与 FasterTransformer Multi-GPU Multi-Node 相关的优化工作。

基于 FasterTransformer

和 Triton大模型的预估

自 2020 年 OpenAI 推出 GPT 模型之後,越来越多研究证明超大模型在自然语言处理上的能力与重要性。NVIDIA 在 2021 年时基于 FasterTransformer 开发多机多卡并行推理的功能,提出第一个多机多卡大模型推理的解决方案。FasterTransformer 本身不具有收集、整理请求的能力,这在实际应用上是非常重要的功能。为了填补不足,我们将 FasterTransformer 与推理框架 Triton 进行结合,让 FasterTransformer 能够更好的支持实际的推理场景。在这次的演讲中,我们会详细的讲解我们如何实现以上的功能,让用户能透过 FasterTransformer 将大模型推理实际落地。

a3360d8a-749e-11ed-8abf-dac502259ad0.png

薛博阳 | NVIDIA GPU 技术专家

2019 年加入 NVIDIA,目前主要负责 FasterTransformer 的开发与优化。FasterTransformer 提供 Transformer 模型推理上灵活与高效的调用,对比一般的框架能提供数倍到十倍以上的加速效果。除此之外,是第一个支持 GPT-3 的推理库。FasterTransformer 针对 GPT-3 这种超大规模(1750 亿模型参数)的模型提供了模型并行、优化通信开销、显存使用,让使用者能以最少的 GPU、透过多 GPU、多节点在 GPT-3 的服务上得到最好的速度。

Transformer 模型

在 TensorRT 上的推理性能优化

Transformer 在 NLP 和 CV 领域大放异彩,在众多深度学习模型中显现了突出的效果。同时,它相比于卷积网络需要更高的计算量,其推理优化值得关注。TensorRT 是 NVIDIA 专门针对推理场景推出的性能优化工具;NVIDIA DevTech 团队将若干常用的 Transformer 模型移植到 TensorRT,获得了良好的加速效果。

a3746224-749e-11ed-8abf-dac502259ad0.png

王猛 | NVIDIA GPU 技术专家

2019 年加入 NVIDIA,目前主要从事 GPU 上模型部署与优化,在 TensorRT,ONNX 和 CUDA 并行计算等领域有较多的研究和应用经验,目前主要负责 TensorRT workflow。

小组座谈

参与嘉宾:

王猛 | NVIDIA GPU 技术专家

刘凯 | 腾讯软件工程师

怎样报名参会

扫描下方二维码或点击阅读原文添加微信小助手

并备注“CNCC”加入本次活动微信交流群

分论坛观看入口将在直播开始前在微信群内发布

与行业先锋一同,探寻超大模型的推理和部署实践

a3b83260-749e-11ed-8abf-dac502259ad0.png

原文标题:CNCC 论坛 | NVIDIA 携手百度、京东、腾讯、小冰,共同解读超大模型的推理和部署实践

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    23

    文章

    4112

    浏览量

    99595
  • 大模型
    +关注

    关注

    2

    文章

    3747

    浏览量

    5268

原文标题:CNCC 论坛 | NVIDIA 携手百度、京东、腾讯、小冰,共同解读超大模型的推理和部署实践

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    瀚博半导体宣布深度参与百度飞桨黑客松生态活动

    近日,瀚博半导体正式宣布深度参与百度飞桨主办的黑客松生态活动。面向全球开发者开放旗下载天系列加速卡开发环境,支持部署百度文心ERNIE-4.5 系列开源模型与PP-OCRv4 文档理解
    的头像 发表于 04-11 09:41 576次阅读

    百度地图LD解决方案助力无人配送行业规模化落地

    在今日举办的智能网联汽车发展论坛无人配送生态大会主论坛上,百度地图无人车解决方案产品负责人发表了题为《百度LD无人配送规模化落地元年》的主题演讲——
    的头像 发表于 03-31 13:54 408次阅读

    百度文心大模型5.0正式版上线

    今天,在百度文心Moment大会现场,文心大模型5.0正式版上线。
    的头像 发表于 01-23 16:48 1451次阅读

    有方科技携手百度智能云重塑AI赋能新生态

    12月30日,由百度智能云主办的“云智思享会:大模型重塑消费电子新体验”行业研讨会在深圳举办。本次大会汇聚了芯片、模组、方案商、大模型、品牌商、市场及渠道等全产业链的众多企业代表与专家,共同
    的头像 发表于 01-08 11:00 479次阅读

    百度世界2025进行中 百度昆仑芯超节点亮相 性能巨幅提升

    思维、洞察未来趋势的重要平台。 今日(11月13日)Baidu World 2025在北京举办。在这里,可以体验AI应用的价值涌现,见证AI能力的创新爆发。 今年的百度世界2025以“效果涌现|AI in Action”为主题,设置有1+ 6场顶尖论坛
    的头像 发表于 11-13 11:51 1444次阅读

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实
    的头像 发表于 10-21 11:04 1385次阅读

    光庭信息成为百度智能云大模型行业合伙人

    论坛上,光庭信息作为受邀企业出席,正式成为百度智能云“大模型行业合伙人”,并荣获“行业卓越贡献伙伴奖”。这标志着双方合作进入了一个全新的阶段,将为AI+汽车产业智能化升级创造更大价值。 日前,国务院关于深入实施“人工智能
    的头像 发表于 09-02 16:17 963次阅读

    珠海泰芯半导体携手百度共筑智能硬件产业新生态

    2025年8月29日,北京国际会议中心二期迎来科技行业年度盛会。由百度智能云与极客公园联合主办的百度云智大会AI+智能硬件专场论坛圆满举行,珠海泰芯半导体有限公司总经理唐振中作为特邀嘉宾出席,
    的头像 发表于 09-01 17:46 1209次阅读

    NVIDIA Nemotron Nano 2推理模型发布

    NVIDIA 正式推出准确、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的头像 发表于 08-27 12:45 1991次阅读
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理模型</b>发布

    NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

      自 2016 年推出 NVIDIA DGX 以来,NVIDIA 与 OpenAI 便开始共同推动 AI 技术的边界。此次 OpenAI gpt-oss-20b 和 gpt-oss-120b
    的头像 发表于 08-15 20:34 2474次阅读
    <b class='flag-5'>NVIDIA</b>从云到边缘加速OpenAI gpt-oss<b class='flag-5'>模型</b><b class='flag-5'>部署</b>,实现150万TPS<b class='flag-5'>推理</b>

    如何本地部署NVIDIA Cosmos Reason-1-7B模型

    近日,NVIDIA 开源其物理 AI 平台 NVIDIA Cosmos 中的关键模型——NVIDIA Cosmos Reason-1-7B。这款先进的多模态大
    的头像 发表于 07-09 10:17 995次阅读

    宁畅与与百度文心大模型展开深度技术合作

    近日,百度正式开源文心大模型4.5系列模型。作为文心开源合作伙伴,宁畅在模型开源首日即实现即刻部署,做到“开源即接入、发布即可用”。据悉,文
    的头像 发表于 07-07 16:26 992次阅读

    65%央企大模型落地首选百度智能云

    今天,很荣幸地分享一个好消息,百度智能云已牵手65%的央企,共同推进大模型产业落地。得益于全栈的AI能力,百度联合众多央国企伙伴,针对各类不同业务场景,打造了一大批可推广、可复制的标杆
    的头像 发表于 06-11 15:44 1010次阅读

    百度文心大模型X1 Turbo获得信通院当前大模型最高评级证书

    百度在520居然还领了个证?是它, 信通院当前大模型最高评级证书 ! 在5月20日的百度AI Day 上,中国信通院公布了大模型推理能力评估
    的头像 发表于 05-21 18:19 1384次阅读
    <b class='flag-5'>百度</b>文心大<b class='flag-5'>模型</b>X1 Turbo获得信通院当前大<b class='flag-5'>模型</b>最高评级证书

    百度发布文心4.5 Turbo、X1 Turbo和多款AI应用

    近日,Create2025百度AI开发者大会在武汉举办。百度创始人李彦宏发布了文心大模型4.5 Turbo及深度思考模型X1 Turbo两大模型
    的头像 发表于 04-30 10:16 1297次阅读