0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通过稀疏支持和Transformer优化增强AI推理以最小化延迟

星星科技指导员 来源:嵌入式计算设计 作者:Saumitra Jagdale 2022-07-04 09:52 次阅读

由于各行业对实时人工智能应用的需求不断增加,人工智能模型近来变得更加复杂。这需要以最佳方式部署高性能、尖端的推理系统。TensorRT 的最新版本通过引入额外的功能来解决这些问题,从而为其客户提供更增强和响应更灵敏的对话式 AI 应用程序。

NVIDIA TensorRT 8 概述

NVIDIA TensorRT 是一个高性能推理平台,对于利用 NVIDIA Tensor Core GPU 的强大功能至关重要。TensorRT 8 是一个软件开发套件,其增强功能旨在提高性能和准确性,以应对在边缘和嵌入式设备中发生的越来越多的 AI 推理。它允许对 TensorFlow 和 PyTorch 神经网络进行广泛的计算推理。

与纯 CPU 平台相比,TensorRT 可提供高达 40 倍的吞吐量,同时最大限度地减少延迟。它允许您从任何框架开始,并在生产中快速优化、验证和部署经过训练的神经网络。

新版本在 NVIDIA Ampere GPU 上加入了稀疏性,可以修剪对网络整体计算没有贡献的弱连接。此外,TensorRT 8 支持变压器优化和 BERT-Large。Transformer 优化提高了性能,而量化感知训练提高了准确性。

NVIDIA 的 TensorRT 8 有哪些新功能?

推理的目的是从训练阶段尽可能多地保留准确性。训练后的模型可以在硬件设备上运行,以获得客户最低的响应时间和最大的吞吐量。但是,尽可能精确的必要性有时可能会与边缘可用的内存量和吞吐量发生冲突。训练有素、高度准确的模型可能运行速度太慢。

因此,TensorRT 版本 8 结合了深度学习推理应用或经过训练的神经网络模型的最新进展,以了解数据如何影响响​​应。它使用两个主要功能将语言查询推理时间减少一半:

NVIDIA 安培架构的稀疏性

深度神经网络擅长各种任务,例如计算机视觉语音识别和自然语言处理。随着处理这些神经网络所需的计算能力增加,有效的建模和计算变得越来越重要。

Sparse 是一种适用于具有 NVIDIA Ampere 架构的 GPU 的新性能方法,可通过减少计算过程来提高开发人员的效率。深度学习模型的其他方面不如其他方面重要,有些甚至可以为零。因此,神经网络不需要对特定的权重或参数进行计算。因此,NVIDIA 可以通过使用稀疏性将模型的权重减少近一半来提高性能、吞吐量和延迟。

通过变压器优化减少推理计算

在 TensorRT 8 中,性能增强是通过变压器优化实现的。量化开发人员可以利用经过训练的模型通过 8 位计算 (INT8) 执行推理。这大大减少了 Tensor 核心中的推理计算和存储。INT8 越来越多地用于优化机器学习框架,例如 TensorFlow 和 NVIDIA 的 TensorRT,以减少内存和计算需求。因此,NVIDIA 可以在保持准确性的同时在 Tensor RT 8 上提供非常高的性能。

例如,量化感知训练 (QAT) 有可能使准确率翻倍。因此,与旧版本 TensorRT 7 相比,TensorRT 8 可以将许多模型的性能提高一倍。

ensorRT 部署在众多行业中

TensorRT 更好的性能和准确性使其成为医疗保健、汽车、互联网/电信服务、金融服务和零售等行业的热门选择。例如,Tensor RT 用于为 GE Healthcare 的心血管超声系统供电。这家数字诊断解决方案提供商使用该技术在其 Vivid E95 扫描仪上加速自动心脏视图检测。通过使用改进的视图检测算法,心脏病专家可以在早期阶段做出更准确的诊断和检测疾病。此外,TensorRT 还被 Verizon、福特、美国邮政服务、美国运通等知名公司使用。

随着 Tensor RT 8 的发布,NVIDIA 还公布了谷歌使用 Tensor RT 在 BERT-large 推理方面的突破。Transformers 的双向编码器表示 (BERT) 是一种基于 Transformer 的机器学习技术,用于预训练自然语言处理。BERT-Large 模型的分析时间仅为 1.2 毫秒,可以实时响应自然语言查询。这意味着公司可以将其模型的大小增加一倍或三倍,以获得更高的准确性。

许多推理服务在幕后使用诸如 BERT-Large 之类的语言模型。另一方面,基于语言的应用程序通常无法识别细微差别或情感,从而导致整体体验不佳。现在,公司可以使用 TensorRT 8 在几毫秒内部署整个工作流程。这些突破可以为新一代对话式 AI 应用程序铺平道路,为用户提供更智能和低延迟的体验。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    41

    文章

    3338

    浏览量

    131253
  • 人工智能
    +关注

    关注

    1773

    文章

    43367

    浏览量

    230132
  • 机器学习
    +关注

    关注

    66

    文章

    8062

    浏览量

    130442
收藏 人收藏

    评论

    相关推荐

    ONNX Runtime支持龙架构,AI推理生态再添新翼

    近日,备受瞩目的AI推理框架开源社区ONNX Runtime宣布推出支持龙架构的新版本1.17.0,这一里程碑式的更新意味着龙芯平台上的AI推理
    的头像 发表于 03-27 10:58 188次阅读

    AI推理框架软件ONNX Runtime正式支持龙架构

    近日,知名AI推理框架开源社区ONNX Runtime正式发布支持龙架构的版本1.17.0。
    的头像 发表于 03-12 12:23 233次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>框架软件ONNX Runtime正式<b class='flag-5'>支持</b>龙架构

    NanoEdge AI的技术原理、应用场景及优势

    是指将数据处理任务从云端迁移到离数据源更近的设备上,实现更快的响应时间和更低的延迟。神经网络压缩技术则通过减少模型参数和计算量来降低设备的计算需求,使其能够在有限的资源下运行复杂的人工智能算法。低功耗
    发表于 03-12 08:09

    HarmonyOS:使用MindSpore Lite引擎进行模型推理

    场景介绍 MindSpore Lite 是一款 AI 引擎,它提供了面向不同硬件设备 AI 模型推理的功能,目前已经在图像分类、目标识别、人脸识别、文字识别等应用中广泛使用。 本文介绍
    发表于 12-14 11:41

    如何最小化毛刺尺寸?如何控制毛刺方向?

    如何最小化毛刺尺寸?如何控制毛刺方向? 为了得到高质量的产品或工艺品,我们通常需要把毛刺的尺寸最小化,并控制其方向。毛刺会影响制品的外观质量、功能性能以及使用寿命。本文将介绍毛刺的形成原因、影响因素
    的头像 发表于 12-07 14:24 223次阅读

    AI Transformer模型支持机器视觉对象检测方案

    使用机器视觉进行对象检测需要 AI 模型/算法在 AI 芯片、FPGA 或模块上运行。它们通常被称为“人工智能引擎”。在首次训练后,可以部署 AI 模型以在适当的硬件上运行,以做出预测和/或决策,通常称为“
    发表于 11-23 10:31 160次阅读
    <b class='flag-5'>AI</b> <b class='flag-5'>Transformer</b>模型<b class='flag-5'>支持</b>机器视觉对象检测方案

    什么是频谱泄漏?为什么会出现频谱泄漏?如何最小化频谱泄漏?

    的误差,我们必须最小化频谱泄漏。接下来,本文就来简单介绍一下什么是频谱泄漏、为什么会出现频谱泄漏、如何最小化频谱泄漏以及窗函数对目标信号的负面影响。
    的头像 发表于 11-03 18:08 3781次阅读
    什么是频谱泄漏?为什么会出现频谱泄漏?如何<b class='flag-5'>最小化</b>频谱泄漏?

    AI智能呼叫中心

    、数据驱动决策以及人力成本节约,旨在深入剖析其核心优势和对企业的重要意义。一、自动化处理AI智能呼叫中心通过引入自然语言处理(NLP)、机器学习和自动技术,使得呼叫中心的处理过程更加高效和准确,
    发表于 09-20 17:53

    墨芯支持Byte MLPerf助力AI应用

    在大模型趋势下,墨芯通过领先的稀疏计算优势,助力企业加速AI应用,商业化进程接连取得重要突破。
    的头像 发表于 09-07 11:37 623次阅读
    墨芯<b class='flag-5'>支持</b>Byte MLPerf助力<b class='flag-5'>AI</b>应用

    Transformer流行的背后

    Quadric是一家机器学习推理IP公司,Untether AI则将其硬件宣传为是“通用推理加速器”,这两家公司都在兜售可处理transformer的技术。Quadric说日本的Den
    的头像 发表于 08-30 16:57 603次阅读
    <b class='flag-5'>Transformer</b>流行的背后

    阿里平头哥发布首个 RISC-V AI 软硬全栈平台

    平台通过软硬件深度协同,较经典方案提升超 8 成性能,支持运行 170 余个主流 AI 模型,推动 RISC-V 进入高性能 AI 应用时代。 平头哥表示,他们
    发表于 08-26 14:14

    LabVIEW窗口最小化至托盘菜单教程

    LabVIEW窗口最小化至托盘菜单 可以双击弹出窗口 也可以通过右击调用其功能事件
    发表于 08-10 17:11 60次下载

    Tripwire在有人经过时自动最小化选项卡

    电子发烧友网站提供《Tripwire在有人经过时自动最小化选项卡.zip》资料免费下载
    发表于 07-06 15:11 0次下载
    Tripwire在有人经过时自动<b class='flag-5'>最小化</b>选项卡

    最小化Z180板开源分享

    电子发烧友网站提供《最小化Z180板开源分享.zip》资料免费下载
    发表于 06-12 10:56 0次下载
    <b class='flag-5'>最小化</b>Z180板开源分享

    最小化热插拔控制器中的短路电流脉冲

    由于内部断路器延迟和有限的MOS栅极下拉电流,许多热插拔控制器在短路输出后的前10μs至50μs内不限制电流。结果可能是几百安培的短暂流量。一个简单的外部电路通过最小化初始电流尖峰并在200ns至500ns内终止短路来解决这个问
    的头像 发表于 03-31 11:15 576次阅读
    <b class='flag-5'>最小化</b>热插拔控制器中的短路电流脉冲