如何使用NVIDIA TAO快速准确地训练AI模型-电子发烧友网

越来越多的要求制造商在其生产过程中达到高质量控制标准。传统上，制造商依靠人工检查来保证产品质量。然而，手动检查成本高昂，通常只覆盖一小部分生产样本，最终导致生产瓶颈、生产率降低和效率降低。

通过人工智能和计算机视觉实现缺陷检测自动化，制造商可以彻底改变其质量控制流程。然而，制造商和全自动化之间存在一个主要障碍。构建一个 AI 系统和生产就绪的应用程序是困难的，通常需要一个熟练的 AI 团队来训练和微调模型。一般制造商不采用这种专业技术，而是采用手动检查。

本项目的目标是展示如何使用NVIDIA转移学习工具包（ TLT ）和预训练模型快速建立制造过程中更精确的质量控制。这个项目是在没有人工智能专家或数据科学家的情况下完成的。为了了解 NVIDIA TLT 在为商业质量控制目的培训人工智能系统方面的有效性，使用公开的 dataset 钢焊接工艺，从 NGC 目录（一个 GPU 优化的人工智能和 HPC 软件中心）重新培训预培训的 ResNet-18 模型，使用 TLT 。我们比较了人工智能研究团队先前发表的一项工作中，在数据集上从头开始构建的模型和由此产生的模型的准确性。

NVIDIA TLT 操作简便、速度快，不具备人工智能专业知识的工程师可以轻松使用。我们观察到 NVIDIA TLT 的设置速度更快，结果更准确，宏观平均 F1 成绩为 97% ，而之前发布的数据集“从头开始构建”的结果为 78% 。

这篇文章探讨了 NVIDIA TLT 如何快速准确地训练 AI 模型，展示了 AI 和转移学习如何改变图像和视频分析以及工业流程的部署方式。

具有 NVIDIA TLT 的工作流

NVIDIA TLT 是 NVIDIA 训练、调整和优化（ TAO ）平台的核心组件，遵循零编码范式快速跟踪 AI 开发。 TLT 附带了一套随时可用的 Jupyter 笔记本、 Python 脚本和配置规范以及默认参数值，使您能够快速轻松地开始培训和微调数据集。

为了开始使用 NVIDIA TLT ，我们遵循了以下快速入门指南说明。

我们下载了 Docker 容器和 TLT Jupyter 笔记本。

我们将数据集映射到 Docker 容器上。

我们开始了第一次培训，调整了默认的培训参数，如网络结构、网络大小、优化器等，直到我们对结果感到满意。

数据集

这个项目中使用的数据集是由伯明翰大学的研究人员为他们的论文基于可见 spectrum 摄像机和机器学习的 SS304 TIG 焊接过程缺陷自动分类创建的。

该数据集由超过 45K 的灰度焊接图像组成，可通过 Kaggle 获得。数据集描述了一类正确执行： good_weld 。钨极惰性气体（ TIG ）焊接过程中可能出现五类缺陷：烧穿、污染、未熔合、未保护气体、，和 high_travel_speed 。

图 1 来自培训数据集的焊接图像示例

表 1 列车、验证和测试数据集的图像分布

与许多工业数据集一样，该数据集是相当不平衡的，因为很难收集低可能性出现的缺陷的数据。表 1 显示了列车、验证和测试数据集的类别分布。

图 2 显示了测试数据集中的不平衡。测试数据集包含的 good_weld 图像比 lack_of_shielding 多 75 倍。

图 2 TIG 钢焊接试验数据集的类别分布。

使用 NVIDIA TLT

所采用的方法侧重于最小化开发时间和调优时间，同时确保精度适用于生产环境。 TLT 与示例笔记本附带的标准配置文件结合使用。设置、培训和调整在 8 小时内完成。

我们进行了有关网络深度和训练次数的参数扫描。我们观察到，改变默认的学习率并不能改善结果，因此我们没有进一步研究这一点，而是将其保留在默认值。经过 30 个阶段的训练，学习率为 0 。 006 ，从 NGC 目录中获得的预训练 ResNet-18 模型获得了最佳结果。

查看 krygol/304SteelWeldingClassification GitHub repo 中的逐步方法。

表 2 经过 30 个时期的训练，学习率为 0 。 006 ，预训练的 ResNet-18 获得的结果

获得的结果在所有班级中都相当好。一些 lack_of_fusion 气体图像被错误分类为 burn_through 和污染图像。在训练更深层次的 ResNet50 时也观察到了这种效果，这更容易将 lack_of_fusion 误分类为另一个缺陷类。

与原始方法的比较

伯明翰大学的研究人员选择了不同的人工智能工作流。他们手动准备数据集，通过欠采样来减少不平衡。他们还将图像重新缩放到不同的大小，并选择自定义网络结构。

他们使用了一个完全连接的神经网络（ Full-con6 ），即具有两个隐藏层的神经网络。他们还实现了一个卷积神经网络（ Conv6 ），其中有三个卷积层，每个卷积层后跟一个最大池层和一个完全连接层作为最终隐藏层。他们没有像 ResNet 那样使用跳过连接。

TLT 获得的结果与伯明翰大学研究人员定制实施的结果相比更令人印象深刻。

表 3 定制网络与 TLT ResNet-18 的比较

Conv6 的平均表现较好，宏观平均 F1 为 0 。 78 ，但在识别 lack_of_shielding 气体缺陷方面完全失败。 con6 的平均表现较差，宏观平均 F1 为 0 。 56 。 FULL-con6 可以对一些 lack_of_shielding 气体图像进行分类，但是 burn_through 和高速行驶图像存在问题。 FULL-con6 和 Conv6 都有明显的弱点，这将使它们无法获得生产准备就绪的资格。

每个班级的最佳 F1 成绩在表中以绿色标出。如您所见， TLT 训练的 ResNet-18 模型提供了更好的结果，宏观平均值为 0 。 97 。

结论

我们在 TLT 方面有着丰富的经验，总体而言， TLT 是用户友好且有效的。它设置速度快，易于使用，并且在较短的计算时间内产生可接受的结果。根据我们的经验，我们相信 TLT 为不是 AI 专家但希望在生产环境中使用 AI 的工程师提供了巨大的优势。在制造环境中使用 TLT 自动化质量控制不会带来性能成本，应用程序通常可以与默认设置一起使用，并进行一些小的调整，以超越自定义体系结构。

利用 NVIDIA TLT 快速准确地训练人工智能模型的探索表明，人工智能在工业过程中具有巨大的潜力。

关于作者

Konstantin Rygol 是 AI 和 HPC 在波士顿存储和服务器解决方案有限公司的首席工程师。他拥有挪威卑尔根大学的物理硕士学位。在研究原子物理学期间，他对 HPC 和 AI 产生了浓厚的热情。他现在是 NVIDIA 深度学习培训中心的讲师，致力于将人工智能引入德国市场。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
4592

浏览量
101703
服务器

服务器

+关注

关注
12

文章
8113

浏览量
82499
AI

AI

+关注

关注
87

文章
26430

浏览量
264036

Edge Impulse发布新工具，助 NVIDIA 模型大规模部署

借助 Edge Impulse 和 NVIDIA TAO 工具包的协同效应，工程师得以快速构建并部署至边缘优化硬件（如上述型号）的计算机视觉模型。该平台还支持用户运用经由 GPU 优化

发表于 03-25 16:00 •300次阅读

NVIDIA TAO 5.2版本发布

NVIDIA TAO 提供了一个低代码开源 AI 框架，无论你是初学者还是专业的数据科学家，都可以使用该框架加速视觉 AI 模型开发。开发者

发表于 01-03 10:11 •248次阅读

在线研讨会 | 大模型时代语音 AI 模型的训练、优化与应用

通过业界领先的技术，帮助企业能够快速部署定制化 AI 智能语音端到端流程。 2023 年 12 月 19 日和 21 日晚间，来自 NVIDIA 和 Kaldi 项目的技术专家将做客 Datafun 社区直播间，为您介绍如

发表于 12-15 15:50 •253次阅读

在线研讨会 | 大<b class='flag-5'>模型</b>时代语音 <b class='flag-5'>AI</b> <b class='flag-5'>模型</b>的<b class='flag-5'>训练</b>、优化与应用

怎样使用NVIDIA TAO为数万亿台设备开发和优化视觉AI模型呢？

全球开发者正在使用 NVIDIA TAO 工具套件构建 AI 视觉感知和计算机视觉应用。如今，得益于显著的平台增强和生态对其的大力采用，这一过程比以往任何时候都更快、更容易。

发表于 12-14 15:55 •277次阅读

NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持

本文将介绍亚马逊如何使用 NVIDIA NeMo 框架、GPU 以及亚马逊云科技的 EFA 来训练其最大的新一代大语言模型（LLM）。大语言模型的一切都很庞大——巨型

发表于 11-29 21:15 •318次阅读

<b class='flag-5'>NVIDIA</b> 为部分大型亚马逊 Titan 基础<b class='flag-5'>模型</b>提供<b class='flag-5'>训练</b>支持

在线研讨会 | 就在明天！NVIDIA TAO Toolkit 5.0 助力 OCR 视觉 AI 模型快速训练与优化

技术的应用广泛，但构建和优化 OCR 的 AI 模型并非易事。它需要深厚的计算机科学知识，精细的编程技巧，以及对 AI 模型优化的深入理解。 NV

发表于 08-21 21:05 •297次阅读

SIGGRAPH 2023 | NVIDIA AI Workbench 助力全球企业加速采用自定义生成式 AI

2023 年 8 月 8 日 — NVIDIA 发布 NVIDIA AI Workbench 。这个统一、易于使用的工具套件使开发者能够在 PC 或工作站上快速创建、测试和自定义预

发表于 08-09 19:10 •282次阅读

使用 Vision Transformer 和 NVIDIA TAO，提高视觉 AI 应用的准确性和鲁棒性

了关键作用，而 NVIDIA 则通过 NVIDIA TAO Toolkit 和 NVIDIA L4 GPU ，使应用集成 ViT 变得轻而易举。 ViT 的不同之处 ViT 是一种

发表于 08-04 17:40 •362次阅读

训练好的ai模型导入cubemx不成功怎么解决？

训练好的ai模型导入cubemx不成功咋办，试了好几个模型压缩了也不行，ram占用过大，有无解决方案？

发表于 08-04 09:16

使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程

NVIDIA TAO 工具套件提供了一个低代码 AI 框架，无论是新手还是数据科学专家都可以使用这个平台加速视觉 AI 模型开发。有了

发表于 07-31 20:45 •411次阅读

NVIDIA Omniverse让AI训练变得更加简单易用

Rendered.ai 将 NVIDIA Omniverse Replicator 集成到其合成数据生成平台，使 AI 训练变得更加简单易用。

发表于 07-24 09:14 •829次阅读

从 0 到 1 搭建机器人 | 使用 NVIDIA Isaac Sim Replicator 和 TAO 套件进行数据合成和训练

文章将从第一步开始，拆解并串联起关于机器人创建的必要知识和所涉工具，希望能以 NVIDIA 提供的前沿解决方案为您铺平开发实践的道路。今天我们将先从数据标记、模型训练开始，出场的是 Isaac Sim Replicator

发表于 07-17 19:45 •397次阅读

在线研讨会 | 释放 Vision Transformers、NVIDIA TAO 和最新一代 NVIDIA GPU 的潜力

）相比，它不仅提供了超高的准确性，还使图像理解和分析提升到了前所未有的水平。 NVIDIA 让您可以利用 ViTs 的强大功能为 AI 应用提供助力。参与本次研讨会，一起来了解如何将 ViTs

发表于 06-16 11:45 •344次阅读

NVIDIA AI 技术助力 vivo 文本预训练大模型性能提升

vivo AI 团队与 NVIDIA 团队合作，通过算子优化，提升 vivo 文本预训练大模型的训练速度。在实际应用中，

发表于 05-26 07:15 •444次阅读

什么是预训练AI模型？

预训练 AI 模型是为了完成特定任务而在大型数据集上训练的深度学习模型。这些模型既可以直接使用，

发表于 05-25 17:10 •633次阅读