0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通过稀疏支持和Transformer优化增强AI推理以最小化延迟

星星科技指导员 来源:嵌入式计算设计 作者:Saumitra Jagdale 2022-07-04 09:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

由于各行业对实时人工智能应用的需求不断增加,人工智能模型近来变得更加复杂。这需要以最佳方式部署高性能、尖端的推理系统。TensorRT 的最新版本通过引入额外的功能来解决这些问题,从而为其客户提供更增强和响应更灵敏的对话式 AI 应用程序。

NVIDIA TensorRT 8 概述

NVIDIA TensorRT 是一个高性能推理平台,对于利用 NVIDIA Tensor Core GPU 的强大功能至关重要。TensorRT 8 是一个软件开发套件,其增强功能旨在提高性能和准确性,以应对在边缘和嵌入式设备中发生的越来越多的 AI 推理。它允许对 TensorFlow 和 PyTorch 神经网络进行广泛的计算推理。

与纯 CPU 平台相比,TensorRT 可提供高达 40 倍的吞吐量,同时最大限度地减少延迟。它允许您从任何框架开始,并在生产中快速优化、验证和部署经过训练的神经网络。

新版本在 NVIDIA Ampere GPU 上加入了稀疏性,可以修剪对网络整体计算没有贡献的弱连接。此外,TensorRT 8 支持变压器优化和 BERT-Large。Transformer 优化提高了性能,而量化感知训练提高了准确性。

NVIDIA 的 TensorRT 8 有哪些新功能?

推理的目的是从训练阶段尽可能多地保留准确性。训练后的模型可以在硬件设备上运行,以获得客户最低的响应时间和最大的吞吐量。但是,尽可能精确的必要性有时可能会与边缘可用的内存量和吞吐量发生冲突。训练有素、高度准确的模型可能运行速度太慢。

因此,TensorRT 版本 8 结合了深度学习推理应用或经过训练的神经网络模型的最新进展,以了解数据如何影响响​​应。它使用两个主要功能将语言查询推理时间减少一半:

NVIDIA 安培架构的稀疏性

深度神经网络擅长各种任务,例如计算机视觉语音识别和自然语言处理。随着处理这些神经网络所需的计算能力增加,有效的建模和计算变得越来越重要。

Sparse 是一种适用于具有 NVIDIA Ampere 架构的 GPU 的新性能方法,可通过减少计算过程来提高开发人员的效率。深度学习模型的其他方面不如其他方面重要,有些甚至可以为零。因此,神经网络不需要对特定的权重或参数进行计算。因此,NVIDIA 可以通过使用稀疏性将模型的权重减少近一半来提高性能、吞吐量和延迟。

通过变压器优化减少推理计算

在 TensorRT 8 中,性能增强是通过变压器优化实现的。量化开发人员可以利用经过训练的模型通过 8 位计算 (INT8) 执行推理。这大大减少了 Tensor 核心中的推理计算和存储。INT8 越来越多地用于优化机器学习框架,例如 TensorFlow 和 NVIDIA 的 TensorRT,以减少内存和计算需求。因此,NVIDIA 可以在保持准确性的同时在 Tensor RT 8 上提供非常高的性能。

例如,量化感知训练 (QAT) 有可能使准确率翻倍。因此,与旧版本 TensorRT 7 相比,TensorRT 8 可以将许多模型的性能提高一倍。

ensorRT 部署在众多行业中

TensorRT 更好的性能和准确性使其成为医疗保健、汽车、互联网/电信服务、金融服务和零售等行业的热门选择。例如,Tensor RT 用于为 GE Healthcare 的心血管超声系统供电。这家数字诊断解决方案提供商使用该技术在其 Vivid E95 扫描仪上加速自动心脏视图检测。通过使用改进的视图检测算法,心脏病专家可以在早期阶段做出更准确的诊断和检测疾病。此外,TensorRT 还被 Verizon、福特、美国邮政服务、美国运通等知名公司使用。

随着 Tensor RT 8 的发布,NVIDIA 还公布了谷歌使用 Tensor RT 在 BERT-large 推理方面的突破。Transformers 的双向编码器表示 (BERT) 是一种基于 Transformer 的机器学习技术,用于预训练自然语言处理。BERT-Large 模型的分析时间仅为 1.2 毫秒,可以实时响应自然语言查询。这意味着公司可以将其模型的大小增加一倍或三倍,以获得更高的准确性。

许多推理服务在幕后使用诸如 BERT-Large 之类的语言模型。另一方面,基于语言的应用程序通常无法识别细微差别或情感,从而导致整体体验不佳。现在,公司可以使用 TensorRT 8 在几毫秒内部署整个工作流程。这些突破可以为新一代对话式 AI 应用程序铺平道路,为用户提供更智能和低延迟的体验。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    4011

    浏览量

    143351
  • 人工智能
    +关注

    关注

    1820

    文章

    50324

    浏览量

    266938
  • 机器学习
    +关注

    关注

    67

    文章

    8564

    浏览量

    137222
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    微电网经济调度理论:成本最小化与效益最大化的优化模型

    构建微电网经济调度优化模型,需先明确模型的核心构成要素,包括目标函数、约束条件与优化变量,三者相互关联、相互制约,共同决定了优化模型的科学性与实用性。其中,目标函数是模型的核心导向,明确成本
    的头像 发表于 03-12 11:05 225次阅读
    微电网经济调度理论:成本<b class='flag-5'>最小化</b>与效益最大化的<b class='flag-5'>优化</b>模型

    边缘AI算力临界点:深度解析176TOPS香橙派AI Station的产业价值

    Station的出现,标志着边缘AI算力不再仅仅是“云端的缩水版”,而是具备独立生命周期的“边缘原生”节点 。它不仅能在本地完成推理,还能通过丰富的接口控制物理世界,通过大内存加载复
    发表于 03-10 14:19

    从英伟达电话会看Agentic AI推理与FPGA价值

    需求、低延迟。英伟达明确判断:Agentic AI 已达到实用拐点,算力已经具备盈利性,推理延迟成为 AI 基础设施的竞争焦点。
    的头像 发表于 03-04 17:07 1269次阅读
    从英伟达电话会看Agentic <b class='flag-5'>AI</b><b class='flag-5'>推理</b>与FPGA价值

    如何在边缘AI应用场景中实现高性能、低功耗推理(上)

    。这种方法需要巨大的带宽才能将海量数据传输到云端。 边缘设备越来越多地使用AI推理技术,实现快速实时响应并提高数据隐私和安全性,同时避免与云连接产生的延迟和成本。这也降低了功耗,使其
    的头像 发表于 02-27 07:48 1w次阅读
    如何在边缘<b class='flag-5'>AI</b>应用场景中实现高性能、低功耗<b class='flag-5'>推理</b>(上)

    Transformer 入门:从零理解 AI 大模型的核心原理

    Normalization) Transformer 使用的是层归一,它在每一层对数据进行标准: 计算步骤 ini 体验AI代码助手 代码解读 复制代码 输入向量:x = [
    发表于 02-10 16:33

    请问有没有最小化系统程序,编程时可以快速设置?

    请问有没有最小化系统程序,编程时可以快速设置
    发表于 12-23 08:16

    AI狂飙背后的隐形冠军:解码AI服务器与MLCC的共生革命

    政策支持与市场需求驱动下,推出深度求索(Deepseek)为代表的推理AI模型,推动技术从“生成”向“决策”跃迁,并在部分领域形成国际领先优势。 DeepSeek在大语言模型
    的头像 发表于 11-13 11:54 900次阅读
    <b class='flag-5'>AI</b>狂飙背后的隐形冠军:解码<b class='flag-5'>AI</b>服务器与MLCC的共生革命

    工业视觉网关:RK3576赋能多路检测与边缘AI

    AI推理6TOPS NPU 支持缺陷检测(焊点/丝印/划伤)、尺寸测量、异常动作识别等模型,先筛后存,减少云侧负载。MES/追溯集成通过工单/条码绑定检测结果与图片片段,输出 检测记录
    发表于 10-16 17:56

    使用OpenVINO将PP-OCRv5模型部署在Intel显卡上

    是一个用于优化和部署人工智能(AI)模型,提升AI推理性能的开源工具集合,不仅支持卷积神经网络
    的头像 发表于 09-20 11:17 1414次阅读
    使用OpenVINO将PP-OCRv5模型部署在Intel显卡上

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    复制人类智能的AI---AGI。 走向AGI的五个层次发现阶段: ①L1,聊天机器人:具备基础的对话能力,能够理解和回应简单的文本输入 ②L2,推理者:具备基本的逻辑推理能力,能够分析复杂信息并进行推断
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    主要步骤: ①溯因②假说③实验 1、科学推理的类型 ①演绎②归纳 2、自动科学发现框架 AI-笛卡儿-----自动科学发现框架,利用数据和知识来生成和评估候选的科学假说。 4项规
    发表于 09-17 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    Transformer 模型的后继者 二、用创新方法实现深度学习AI芯片 1、基于开源RISC-V的AI加速器 RISC-V是一种开源、模块的指令集架构(ISA)。优势如下: ①模
    发表于 09-12 17:30

    RK3576助力智慧安防:8路高清采集与AI识别

    在智慧城市和数字园区的建设过程中,安防监控系统正从“被动记录”走向“主动识别与分析”。随着AI算法的成熟和高清视频处理能力的提升,市场对多路视频采集、实时拼接、智能识别的需求日益增强。 米尔电子
    发表于 08-22 17:41

    睿海光电高效交付与广泛兼容助力AI数据中心800G光模块升级

    推理任务响应延迟降低30%,多租户带宽隔离效率提升25%。 亚洲头部智算中心:采用睿海定制液冷光模块,GPU集群训练效率提升18%,PUE值优化至1.1以下。 欧洲车企
    发表于 08-13 19:01

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    网络智能诊断平台。通过对私有网络数据的定向训练,信而泰打造了高性能、高可靠性的网络诊断模型,显著提升了AI辅助诊断的精准度与实用性。该方案实现了网络全流量深度解析能力与AI智能
    发表于 07-16 15:29