0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA TensorRT 8 BERT在1.2毫秒内进行推断

星星科技指导员 来源:NVIDIA 作者:About Jay Rodge 2022-03-31 17:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA 发布的TensorRT 8.0 ,通过新的优化将 BERT 的大推理延迟降低到 1.2 毫秒。该版本还提供了 2 倍的精度为 INT8 精度与量化意识的训练,并通过支持稀疏性,这是引进安培 GPU 的显着更高的性能。

TensorRT 是一个用于高性能深度学习推理的 SDK ,包括推理优化器和运行时,提供低延迟和高吞吐量。 TensorRT 用于医疗、汽车、制造、互联网/电信服务、金融服务、能源等行业,下载量近 250 万次。

有几种新的基于 transformer 模型被用于会话人工智能。 TensorRT 中的新的广义优化可以加速所有这些模型,将推理时间减少到 TensorRT 7 的一半。

此版本的亮点包括:

BERT 在 1.2 毫秒内进行推断,并进行了新的 transformer 优化

使用量化感知训练,以 INT8 精度实现与 FP32 相当的准确性

引入稀疏性支持对安培 GPU 的快速推理

关于作者

About Jay Rodge

Jay Rodge 是 NVIDIA 的产品营销经理,负责深入学习和推理产品,推动产品发布和产品营销计划。杰伊在芝加哥伊利诺伊理工学院获得计算机科学硕士学位,主攻计算机视觉和自然语言处理。在 NVIDIA 之前,杰伊是宝马集团的人工智能研究实习生,为宝马最大的制造厂使用计算机视觉解决问题。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5694

    浏览量

    110119
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5272

    浏览量

    136072
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    极速翻译官:打通ETHERCAT与Modbus RTU的“最后1毫秒

    极速翻译官:打通ETHERCAT与Modbus RTU的“最后1毫秒现代工业自动化系统中,不同设备往往采用不同的通信协议,这就像说着不同语言的人需要翻译一样。协议转换网关正是承担这个“翻译
    的头像 发表于 04-21 15:28 96次阅读
    极速翻译官:打通ETHERCAT与Modbus RTU的“最后1<b class='flag-5'>毫秒</b>”

    UPS电源工作原理揭秘:从电力中断到持续守护的技术密码

    ​电流中断的刹那,隐藏在机柜中的精密系统正在完成一场毫秒级的接力。2022年,某沿海数据中心遭遇雷击导致电网闪断,整个园区的服务器却安然无恙——监控画面显示,电压骤降的4毫秒内,一套UPS系统完成
    的头像 发表于 12-12 10:09 773次阅读
    UPS电源工作原理揭秘:从电力中断到持续守护的技术密码

    数据中心应急供电:超级电容无缝切换,守护数据不丢失

    毫秒级切换,杜绝供电中断 数据中心对供电连续性要求极高,微秒级断电即可导致数据丢失或硬件损伤。超级电容凭借物理储能机制(双电层结构),可在 5毫秒内 完成充电和放电,实现主电源与备用电源的无缝切换。例如: 英伟达
    的头像 发表于 12-02 14:40 1337次阅读

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标,其构建了多维度的核心实现路径:一方面,针对需
    的头像 发表于 10-21 11:04 1426次阅读

    让还在为智能穿戴设备发愁?这颗2米芯片你变硬件大神

    STK8321 ——这串字母数字组合可能看起来平平无奇,但它正在悄悄颠覆智能硬件行业的游戏规则。想象一下:当你设计的运动手环能在0.1秒内感知用户抬腕动作,当你的TWS耳机盒跌落时自动记录冲击数据
    的头像 发表于 10-20 09:35 672次阅读

    DeepSeek R1 MTPTensorRT-LLM中的实现与优化

    TensorRT-LLM NVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速
    的头像 发表于 08-30 15:47 4684次阅读
    DeepSeek R1 MTP<b class='flag-5'>在</b><b class='flag-5'>TensorRT</b>-LLM中的实现与优化

    毫秒不差的背后:北斗时间服务器如何重塑现代网络同步?

    金融交易、电力调度、5G通信等领域,1毫秒的时间误差可能导致连锁反应。而北斗时间服务器的出现,正悄然改变着全球时间同步的格局。
    的头像 发表于 08-13 15:40 627次阅读
    <b class='flag-5'>毫秒</b>不差的背后:北斗时间服务器如何重塑现代网络同步?

    Alif Semiconductor发布支持生成式AI的MCU基准测试结果,巩固其边缘AI领域的领先地位

    检测,8毫秒内完成图像分类。   中国,北京2025年8月13日 ——Alif Semiconductor®是全球领先的安全、互联、高能效人工智
    的头像 发表于 08-13 15:39 2.2w次阅读
    Alif Semiconductor发布支持生成式AI的MCU基准测试结果,巩固其<b class='flag-5'>在</b>边缘AI领域的领先地位

    NVIDIA RTX AI加速FLUX.1 Kontext现已开放下载

    NVIDIA RTX 与 NVIDIA TensorRT 现已加速 Black Forest Labs 的最新图像生成和编辑模型;此外,Gemma 3n 现可借助 RTX 和 NVIDIA
    的头像 发表于 07-16 09:16 2186次阅读

    水表界的“翻译官”:让CCLinkIE和Modbus TCP“无障碍聊天”!

    撞车”; 双网关冗余:关键通道增设备用网关,防止单点故障。 最终,丢包率降至0.5%以下,延迟稳定在50毫秒内,数据通信瞬间“丝滑”! 技术要点:用对工具,事半功倍 网关虽妙,但需注意: 延迟预警:协议
    发表于 07-10 15:43

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。
    的头像 发表于 07-04 14:38 2432次阅读

    NVIDIA Blackwell GPU优化DeepSeek-R1性能 打破DeepSeek-R1最小延迟场景中的性能纪录

    本文将探讨 NVIDIA TensorRT-LLM 如何基于 8NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1
    的头像 发表于 07-02 19:31 3563次阅读
    <b class='flag-5'>NVIDIA</b> Blackwell GPU优化DeepSeek-R1性能 打破DeepSeek-R1<b class='flag-5'>在</b>最小延迟场景中的性能纪录

    &quot;毫秒之间,万物同步:NTP时间服务器如何塑造现代数字世界&quot;

    金融交易、电力调度、5G通信甚至科学研究中,时间误差超过1毫秒就可能引发数据混乱。而隐藏在这些场景背后的关键角色,正是NTP(网络时间协议)时间服务器。它像一台无形的精密钟摆,维系着全球数字系统的秩序。
    的头像 发表于 06-30 14:16 730次阅读
    &quot;<b class='flag-5'>毫秒</b>之间,万物同步:NTP时间服务器如何塑造现代数字世界&quot;

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。单张 NVIDIA Ada Love
    的头像 发表于 06-12 15:37 2079次阅读
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS应用的最佳实践

    Redis 8 向量搜索实测:轻松扩展至 10 亿向量

    艾体宝Redis 8 向量搜索实测轻松支持 10 亿向量,仍保持低延迟与高吞吐。中位延迟仅200毫秒,90%精确度;处理50并发搜索请求中位延迟仅1.3,95%精确度。
    的头像 发表于 05-13 14:00 907次阅读
    Redis <b class='flag-5'>8</b> 向量搜索实测:轻松扩展至 10 亿向量