0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA TensorRT 8 BERT在1.2毫秒内进行推断

星星科技指导员 来源:NVIDIA 作者:About Jay Rodge 2022-03-31 17:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA 发布的TensorRT 8.0 ,通过新的优化将 BERT 的大推理延迟降低到 1.2 毫秒。该版本还提供了 2 倍的精度为 INT8 精度与量化意识的训练,并通过支持稀疏性,这是引进安培 GPU 的显着更高的性能。

TensorRT 是一个用于高性能深度学习推理的 SDK ,包括推理优化器和运行时,提供低延迟和高吞吐量。 TensorRT 用于医疗、汽车、制造、互联网/电信服务、金融服务、能源等行业,下载量近 250 万次。

有几种新的基于 transformer 模型被用于会话人工智能。 TensorRT 中的新的广义优化可以加速所有这些模型,将推理时间减少到 TensorRT 7 的一半。

此版本的亮点包括:

BERT 在 1.2 毫秒内进行推断,并进行了新的 transformer 优化

使用量化感知训练,以 INT8 精度实现与 FP32 相当的准确性

引入稀疏性支持对安培 GPU 的快速推理

关于作者

About Jay Rodge

Jay Rodge 是 NVIDIA 的产品营销经理,负责深入学习和推理产品,推动产品发布和产品营销计划。杰伊在芝加哥伊利诺伊理工学院获得计算机科学硕士学位,主攻计算机视觉和自然语言处理。在 NVIDIA 之前,杰伊是宝马集团的人工智能研究实习生,为宝马最大的制造厂使用计算机视觉解决问题。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5511

    浏览量

    109159
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5111

    浏览量

    134515
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    UPS电源工作原理揭秘:从电力中断到持续守护的技术密码

    ​电流中断的刹那,隐藏在机柜中的精密系统正在完成一场毫秒级的接力。2022年,某沿海数据中心遭遇雷击导致电网闪断,整个园区的服务器却安然无恙——监控画面显示,电压骤降的4毫秒内,一套UPS系统完成
    的头像 发表于 12-12 10:09 97次阅读
    UPS电源工作原理揭秘:从电力中断到持续守护的技术密码

    数据中心应急供电:超级电容无缝切换,守护数据不丢失

    毫秒级切换,杜绝供电中断 数据中心对供电连续性要求极高,微秒级断电即可导致数据丢失或硬件损伤。超级电容凭借物理储能机制(双电层结构),可在 5毫秒内 完成充电和放电,实现主电源与备用电源的无缝切换。例如: 英伟达
    的头像 发表于 12-02 14:40 258次阅读

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标,其构建了多维度的核心实现路径:一方面,针对需
    的头像 发表于 10-21 11:04 809次阅读

    DeepSeek R1 MTPTensorRT-LLM中的实现与优化

    TensorRT-LLM NVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速
    的头像 发表于 08-30 15:47 4030次阅读
    DeepSeek R1 MTP<b class='flag-5'>在</b><b class='flag-5'>TensorRT</b>-LLM中的实现与优化

    毫秒不差的背后:北斗时间服务器如何重塑现代网络同步?

    金融交易、电力调度、5G通信等领域,1毫秒的时间误差可能导致连锁反应。而北斗时间服务器的出现,正悄然改变着全球时间同步的格局。
    的头像 发表于 08-13 15:40 403次阅读
    <b class='flag-5'>毫秒</b>不差的背后:北斗时间服务器如何重塑现代网络同步?

    Alif Semiconductor发布支持生成式AI的MCU基准测试结果,巩固其边缘AI领域的领先地位

    检测,8毫秒内完成图像分类。   中国,北京2025年8月13日 ——Alif Semiconductor®是全球领先的安全、互联、高能效人工智
    的头像 发表于 08-13 15:39 2.2w次阅读
    Alif Semiconductor发布支持生成式AI的MCU基准测试结果,巩固其<b class='flag-5'>在</b>边缘AI领域的领先地位

    NVIDIA RTX AI加速FLUX.1 Kontext现已开放下载

    NVIDIA RTX 与 NVIDIA TensorRT 现已加速 Black Forest Labs 的最新图像生成和编辑模型;此外,Gemma 3n 现可借助 RTX 和 NVIDIA
    的头像 发表于 07-16 09:16 1893次阅读

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。
    的头像 发表于 07-04 14:38 1781次阅读

    NVIDIA Blackwell GPU优化DeepSeek-R1性能 打破DeepSeek-R1最小延迟场景中的性能纪录

    本文将探讨 NVIDIA TensorRT-LLM 如何基于 8NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1
    的头像 发表于 07-02 19:31 2981次阅读
    <b class='flag-5'>NVIDIA</b> Blackwell GPU优化DeepSeek-R1性能 打破DeepSeek-R1<b class='flag-5'>在</b>最小延迟场景中的性能纪录

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。单张 NVIDIA Ada Love
    的头像 发表于 06-12 15:37 1346次阅读
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS应用的最佳实践

    Redis 8 向量搜索实测:轻松扩展至 10 亿向量

    艾体宝Redis 8 向量搜索实测轻松支持 10 亿向量,仍保持低延迟与高吞吐。中位延迟仅200毫秒,90%精确度;处理50并发搜索请求中位延迟仅1.3,95%精确度。
    的头像 发表于 05-13 14:00 580次阅读
    Redis <b class='flag-5'>8</b> 向量搜索实测:轻松扩展至 10 亿向量

    时间的国土防线:北斗时间同步系统构筑数字基石

    ‌‌海拔4500米的高原变电站,继电保护装置依照统一时序执行毫秒级跳闸指令;横跨六个时区的跨国企业内网中,上海与慕尼黑服务器的时间戳偏差稳定在0.5毫秒内——这些时空精密协同的背后,北斗时间同步服务器正悄然重构着数字世界的运行
    的头像 发表于 03-16 17:24 525次阅读
    时间的国土防线:北斗时间同步系统构筑数字基石

    SDK如何控制DLP4500秒内投影60张图片?

    如何利用SDK进行二次开发,实现的功能为,控制DLP4500秒内投影60张图片,相机(灰点)同步拍摄。请问可以提供一下参考程序代码吗?
    发表于 02-25 07:58

    NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

    Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,该技术现在可与 NVIDIA TensorRT-LLM 一起使用。
    的头像 发表于 12-25 17:31 1260次阅读
    <b class='flag-5'>在</b><b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中启用ReDrafter的一些变化

    解锁NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术,包括自定义 Attention Kernel、Inflight
    的头像 发表于 12-17 17:47 1627次阅读