0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在NGC上玩转飞桨自然语言处理模型库PaddleNLP!信息抽取、文本分类、文档智能、语义检索、智能问答等产业方

NVIDIA英伟达企业解决方案 来源:未知 2022-11-30 21:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

飞桨自然语言处理模型库 PaddleNLP,聚合众多百度自然语言处理领域自研 SOTA 算法以及社区开源模型,并凭借飞桨核心框架底层能力,不断开源适合产业界应用的模型、场景、预测加速与部署能力,得到学术界与产业界的广泛关注。今年,PaddleNLP 带来重大升级,覆盖信息抽取、文本分类、情感分析、语义检索、智能问答等自然语言处理领域核心任务。欢迎广大开发者使用 NVIDIA 与飞桨联合深度适配的 NGC 飞桨容器,在 NVIDIA GPU 上进行体验!

PaddleNLP 开源首个面向通用信息抽取的产业级技术方案 UIE,零样本、小样本效果领先

通用信息抽取技术 UIE(Universal Information Extraction)大一统诸多任务,在实体、关系、事件和情感等 4 个信息抽取任务、13 个数据集的全监督、低资源和少样本设置下,取得了 SOTA 性能,这项成果发表在 ACL 2022。PaddleNLP 结合文心大模型中的知识增强 NLP 大模型 ERNIE 3.0,发挥了 UIE 在中文任务上的强大潜力,开源了首个面向通用信息抽取的产业级技术方案 UIE,其多任务统一建模特性大幅降低了模型开发成本和部署的机器成本,基于 Prompt 的零样本抽取和少样本迁移能力更是惊艳!

通过调用paddlenlp.TaskflowAPI即可实现零样本(zero-shot)抽取多种类型的信息,以实体抽取为例:

from pprint import pprint
from paddlenlp import Taskflow
schema = ['时间', '选手', '赛事名称'] # Define the schema for entity extraction
ie = Taskflow('information_extraction', schema=schema)
pprint(ie("2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!")) # Better print results using pprint
>>> 
[{'时间': [{'end': 6, 'probability': 0.9857378532924486, 'start': 0, 'text': '2月8日上午'}],
  '赛事名称': [{'end': 23,'probability': 0.8503089953268272,'start': 6,'text': '北京冬奥会自由式滑雪女子大跳台决赛'}],
'选手':[{'end':31,'probability':0.8981548639781138,'start':28,'text':'谷爱凌'}]}]

对于复杂目标,可以标注少量数据(Few-shot)进行模型训练,以进一步提升效果。PaddleNLP 打通了从数据标注-训练-部署全流程,方便大家进行定制化训练。以金融领域事件抽取任务为例,仅仅标注 5 条样本,F1 值就提升了 25 个点!

990ef73e-70b3-11ed-8abf-dac502259ad0.png

表 1:UIE 在信息抽取数据集上零样本和小样本效果(F1-score)

GitHub 地址:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie

开源文心 ERNIE-Layout,文档智能不再难

(1)文心 ERNIE-Layout 多语言版跨模态布局增强文档预训练大模型

文心 ERNIE-Layout 依托文心 ERNIE,基于布局知识增强技术,融合文本、图像、布局等信息进行联合建模,能够对多模态文档(如文档图片、PDF 文件、扫描件等)进行深度理解与分析,刷新了五类 11 项文档智能任务效果,为各类上层应用提供 SOTA 模型底座。

992460e2-70b3-11ed-8abf-dac502259ad0.png

图 1:百度文档智能技术指标

(2)DocPrompt 开放文档抽取问答模型(基于 ERNIE-Layout)

DocPrompt 以 ERNIE-Layout 为底座,可精准理解图文信息,推理学习附加知识,准确捕捉图片、PDF 等多模态文档中的每个细节。通过PaddleNLP Taskflow,仅用三行Python代码即可快速体验DocPrompt功能。

995850f0-70b3-11ed-8abf-dac502259ad0.png

DocPrompt 零样本效果非常强悍!能够推理学习空间位置语义,准确捕捉跨模态文档信息,轻松应对各类复杂文档:

99788cd0-70b3-11ed-8abf-dac502259ad0.png

图 2:DocPrompt 可支持空间位置语义理解

99e701d8-70b3-11ed-8abf-dac502259ad0.png

图 3:DocPrompt 支持多维度无框线表格问答

9a17106c-70b3-11ed-8abf-dac502259ad0.png

图 4:支持 10+ 语种的多语言提问

GitHub 地址:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout

PaddleNLP 发布 NLP 流水线系统Pipelines,

10 分钟搭建检索、问答等复杂系统

Pipelines 将各个 NLP 复杂系统的通用模块抽象封装为标准组件,支持开发者通过配置文件对标准组件进行组合,仅需几分钟即可定制化构建智能系统,让解决 NLP 任务像搭积木一样便捷、灵活、高效。同时,Pipelines 中预置了前沿的预训练模型和算法,在研发效率、模型效果和性能方面提供多重保障。

Pipelines 中集成 PaddleNLP 中丰富的预训练模型和领先技术。例如针对检索、问答等任务,Pipelines 预置了领先的召回模型和排序模型,其依托国际领先的端到端问答技术 RocketQA 和首个人工标注的百万级问答数据集 DuReader。

9aae1458-70b3-11ed-8abf-dac502259ad0.png

图 5:RocketQA 问答技术领先

为了进一步降低开发门槛,提供最优效果,PaddleNLP Pipelines 针对高频场景内置了产业级端到端系统。目前已开源语义检索、MRC(阅读理解)问答、FAQ 问答、跨模态文档问答等多个应用。以检索系统为例,Pipelines 内置的语义检索系统包括文档解析(支持 PDF、WORD、图片等解析)、海量文档建库、模型组网训练、服务化部署、前端 Demo 界面(便于效果分析)等全流程功能。

9ac5b158-70b3-11ed-8abf-dac502259ad0.png

图 6:检索系统流水线示意图

9ae0b8cc-70b3-11ed-8abf-dac502259ad0.gif

图 7:检索系统前端 Demo

GitHub 地址:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/pipelines

发布多场景文本分类方案,新增数据增强策略,可信增强技术

文本分类任务是 NLP 领域最常见、最基础的任务之一,顾名思义,就是对给定的一个句子或一段文本进行分类。PaddleNLP 基于多分类、多标签、层次分类等高频分类场景,提供了预训练模型微调、提示学习、语义索引三种端到端全流程分类方案。

a0e76acc-70b3-11ed-8abf-dac502259ad0.png

图 8:模型精度-时延图

以上方案均离不开预训练模型,在预训练模型选择上,ERNIE 系列模型在精度和性能上的综合表现已全面领先于 UER/RoBERTa、Huawei/TinyBERT、HFL/RBT、RoBERTa-wwm-ext-large 等中文模型。PaddleNLP 开源了如下多种尺寸的 ERNIE 系列预训练模型,满足多样化的精度、性能需求:

  • ERNIE 1.0-Large-zh-CW(24L1024H)

  • ERNIE 3.0-Xbase-zh(20L1024H)

  • ERNIE 2.0-Base-zh (12L768H)

  • ERNIE 3.0-Base(12L768H)

  • ERNIE 3.0-Medium(6L768H)

  • ERNIE 3.0-Mini(6L384H)

  • ERNIE 3.0-Micro(4L384H)

  • ERNIE 3.0-Nano(4L312H)

… …

除中文模型外,PaddleNLP 也提供 ERNIE 2.0 英文版、以及基于 96 种语言(涵盖法语、日语、韩语、德语、西班牙语等几乎所有常见语言)预训练的多语言模型 ERNIE-M,满足不同语言的文本分类任务需求。

此外,PaddleNLP 文本分类方案依托TrustAI 可信增强能力数据增强 API开源了模型分析模块,针对标注数据质量不高、训练数据覆盖不足、样本数量少等文本分类常见数据痛点,提供稀疏数据筛选、脏数据清洗、数据增强三种数据优化策略,解决训练数据缺陷问题,用低成本方式获得大幅度的效果提升。例如,使用 TrustAI 进行脏数据清洗后,文本分类精度有明显提升。

a10e3daa-70b3-11ed-8abf-dac502259ad0.jpg

图 9:TrustAI 脏数据清洗策略效果展示

新增 AutoPrompt 自动化提示功能,轻松上手 Prompt Learning,解决小样本难题

通过配置自动化运行的提示学习框架 AutoPrompt,开发者可以以最低学习成本上手提示学习。AutoPrompt 借鉴了 OpenPrompt 对 Template、Verbalizer 等概念的抽象和设计,并在此基础上扩展了更多特性,包括更灵活的提示设计,更便捷的算法切换,通过配置即可运行选择最优模型。

a12ae4f0-70b3-11ed-8abf-dac502259ad0.png

图 10:AutoPrompt 整体流程方案

AutoPrompt 使用文档:

https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/advanced_guide/prompt.md

以上是 PaddleNLP 近期新发功能介绍,欢迎前往官方地址了解更多详情。喜欢的小伙伴欢迎star支持哦~您的支持是我们不断进取的最大动力!也欢迎加入 PaddleNLP 官方交流群,探讨前沿技术与产业实践经验。

PaddleNLP 地址:

https://github.com/PaddlePaddle/PaddleNLPa17bda0e-70b3-11ed-8abf-dac502259ad0.png

NGC 飞桨容器介绍

如果您希望体验 PaddleNLP 的新特性,欢迎使用 NGC 飞桨容器。NVIDIA 与百度飞桨联合开发了 NGC 飞桨容器,将最新版本的飞桨与最新的 NVIDIA 的软件栈(如 CUDA)进行了无缝的集成与性能优化,最大程度的释放飞桨框架在 NVIDIA 最新硬件上的计算能力。这样,用户不仅可以快速开启 AI 应用,专注于创新和应用本身,还能够在 AI 训练和推理任务上获得飞桨+NVIDIA 带来的飞速体验。

最佳的开发环境搭建工具 - 容器技术。

  1. 容器其实是一个开箱即用的服务器。极大降低了深度学习开发环境的搭建难度。例如你的开发环境中包含其他依赖进程(redis,MySQL,Ngnix,selenium-hub等等),或者你需要进行跨操作系统级别的迁移。

  2. 容器镜像方便了开发者的版本化管理

  3. 容器镜像是一种易于复现的开发环境载体

  4. 容器技术支持多容器同时运行

a19073e2-70b3-11ed-8abf-dac502259ad0.png

最好的 PaddlePaddle 容器

NGC 飞桨容器针对 NVIDIA GPU 加速进行了优化,并包含一组经过验证的库,可启用和优化 NVIDIA GPU 性能。此容器还可能包含对 PaddlePaddle 源代码的修改,以最大限度地提高性能和兼容性。此容器还包含用于加速 ETL(DALI, RAPIDS)、训练(cuDNN, NCCL)和推理(TensorRT)工作负载的软件。

PaddlePaddle 容器具有以下优点:

  1. 适配最新版本的 NVIDIA 软件栈(例如最新版本 CUDA),更多功能,更高性能。

  2. 更新的 Ubuntu 操作系统,更好的软件兼容性

  3. 按月更新

  4. 满足 NVIDIA NGC 开发及验证规范,质量管理

通过飞桨官网快速获取

a1a6d790-70b3-11ed-8abf-dac502259ad0.png

环境准备

使用 NGC 飞桨容器需要主机系统(Linux)安装以下内容:

  • Docker 引擎

  • NVIDIA GPU 驱动程序

  • NVIDIA 容器工具包

有关支持的版本,请参阅NVIDIA 框架容器支持矩阵NVIDIA 容器工具包文档

不需要其他安装、编译或依赖管理。无需安装 NVIDIA CUDA Toolkit。

NGC 飞桨容器正式安装:

要运行容器,请按照 NVIDIA Containers For Deep Learning Frameworks User’s Guide 中Running A Container一章中的说明发出适当的命令,并指定注册表、存储库和标签。有关使用 NGC 的更多信息,请参阅 NGC 容器用户指南。如果您有 Docker 19.03 或更高版本,启动容器的典型命令是:

a1dedb22-70b3-11ed-8abf-dac502259ad0.png

*详细安装介绍 《NGC 飞桨容器安装指南》

https://www.paddlepaddle.org.cn/documentation/docs/zh/install/install_NGC_PaddlePaddle_ch.html

*详细产品介绍视频

【飞桨开发者说|NGC 飞桨容器全新上线 NVIDIA 产品专家全面解读】

https://www.bilibili.com/video/BV16B4y1V7ue?share_source=copy_web&vd_source=266ac44430b3656de0c2f4e58b4daf82

飞桨与 NVIDIA NGC 合作介绍

NVIDIA 非常重视中国市场,特别关注中国的生态伙伴,而当前飞桨拥有超过 470 万的开发者。在过去五年里我们紧密合作,深度融合,做了大量适配工作,如下图所示。

a1f0bc34-70b3-11ed-8abf-dac502259ad0.png

今年,我们将飞桨列为 NVIDIA 全球前三的深度学习框架合作伙伴。我们在中国已经设立了专门的工程团队支持,赋能飞桨生态。

为了让更多的开发者能用上基于 NVIDIA 最新的高性能硬件和软件栈。当前,我们正在进行全新一代 NVIDIA GPU H100 的适配工作,以及提高飞桨对 CUDA Operation API 的使用率,让飞桨的开发者拥有优秀的用户体验及极致性能。

以上的各种适配,仅仅是让飞桨的开发者拥有高性能的推理训练成为可能。但是,这些离行业开发者还很远,门槛还很高,难度还很大。

为此,我们将刚刚这些集成和优化工作,整合到三大产品线中。其中 NGC 飞桨容器最为闪亮。

NVIDIA NGC Container – 最佳的飞桨开发环境,集成最新的 NVIDIA 工具包(例如 CUDA)

a2227c38-70b3-11ed-8abf-dac502259ad0.png

点击查看往期精彩内容

六:在 NGC 上玩转图像分割!NeurIPS 顶会模型、智能标注 10 倍速神器、人像分割 SOTA 方案、3D 医疗影像分割利器应有尽有!

五:在 NVIDIA NGC 上搞定模型自动压缩,YOLOv7 部署加速比 5.90,BERT 部署加速比 6.22

四:在 NVIDIA NGC 上体验轻量级图像识别系统

三:在 NVIDIA NGC 上体验一键 PDF 转 Word

二:PaddleDetection 发新,欢迎在 NVIDIA NGC 飞桨容器中体验最新特性!

一:NVIDIA Deep Learning Examples飞桨ResNet50模型上线训练速度超PyTorch ResNet50

原文标题:在NGC上玩转飞桨自然语言处理模型库PaddleNLP!信息抽取、文本分类、文档智能、语义检索、智能问答等产业方案应有尽有!

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    23

    文章

    4039

    浏览量

    97646

原文标题:在NGC上玩转飞桨自然语言处理模型库PaddleNLP!信息抽取、文本分类、文档智能、语义检索、智能问答等产业方案应有尽有!

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    意法半导体STM32 MCU AI模型库再扩容

    近日,意法半导体(ST)发布了新的人工智能模型,并增强了开发项目对STM32 AI模型库的支持,以加快嵌入式人工智能应用的原型开发和产品开发。这标志着STM32 AI
    的头像 发表于 11-24 10:00 1001次阅读

    openDACS 2025 开源EDA与芯片赛项 赛题七:基于大模型的生成式原理图设计

    智能生成。 4. 赛题内容 4.1赛题描述 本赛题要求参赛队伍构建合理规模的知识,运用提示词工程,构建一个完整的生成式原理图设计系统。 参赛系统需充分发挥大模型
    发表于 11-13 11:49

    聆思大模型智能FAE,看得懂技术,答得准问题

    聆思大模型智能FAE,看得懂技术,答得准问题 智能硬件开发的嵌入式技术支持中,响应迟缓、人员培训成本高企、服务时间覆盖不足痛点,常常制约
    发表于 09-30 11:29

    【HZ-T536开发板免费体验】5- 无需死记 Linux 命令!用 CangjieMagic HZ-T536 开发板搭建 MCP 服务器,自然语言轻松控板

    GPIO ),并返回结果。 Cangjie Magic 角色 :构建MCP服务器,同时提供自然语言理解能力,将用户输入的文本(如 “查看开发板 IP 地址”“点亮 LED1”)转换为机器可识别的指令(如
    发表于 08-23 13:10

    小白学大模型:从零实现 LLM语言模型

    在当今人工智能领域,大型语言模型(LLM)的开发已经成为一个热门话题。这些模型通过学习大量的文本数据,能够生成
    的头像 发表于 04-30 18:34 1060次阅读
    小白学大<b class='flag-5'>模型</b>:从零实现 LLM<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    DevEco Studio AI辅助开发工具两大升级功能 鸿蒙应用开发效率再提升

    对DeepSeek模型增强融合了RAG能力,从生成机制协同降低模型幻象,并同时提升生成模型的准确性和相关性。 RAG检索增强的核心机制是通
    发表于 04-18 14:43

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言文本处理能力的多模态人工
    的头像 发表于 03-17 15:32 7548次阅读
    ​VLM(视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>)​详细解析

    《AI Agent 应用与项目实战》阅读心得3——RAG架构与部署本地知识

    ,提供更稳定的服务质量,但需要考虑API调用成本和网络延迟因素。代码实现方面,作者提供了相对详细的示例,包括文本分块的具体参数设置、向量化过程中的模型选择、
    发表于 03-07 19:49

    AI开源模型库有什么用

    AI开源模型库作为推动AI技术发展的重要力量,正深刻改变着我们的生产生活方式。接下来,AI部落小编带您了解AI开源模型库有什么用。
    的头像 发表于 02-24 11:50 878次阅读

    【「基于大模型的RAG应用开发与优化」阅读体验】RAG基本概念

    多路召回策略从海量数据中初步筛选相关信息,利用语义相似度计算深入评估信息与需求的匹配程度,再通过上下文相关性过滤确保信息的精准度。大模型集成
    发表于 02-08 00:22

    【「基于大模型的RAG应用开发与优化」阅读体验】+Embedding技术解读

    和理解这些数据。自然语言处理中,Embedding常用于将文本数据中的单词、句子或文档映射为固定长度的实数向量,这些向量包含了丰富的
    发表于 01-17 19:53

    望获实时Linux系统与大语言模型深度融合,开创实时智能无限可能!

    语言模型的崛起为智能化应用开辟了新的可能性。借助深度学习技术,这些模型能够理解和生成自然语言处理
    的头像 发表于 01-08 13:44 1022次阅读

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    的设计不仅提高了机器人对环境的理解能力,还使其能够更精准地执行复杂任务。 扩散模型的新思路 除了大模型,扩散模型的引入为机器人控制开辟了新的研究方向。以UniPi为代表的创新工作中,
    发表于 12-29 23:04

    【「大模型启示录」阅读体验】+开启智能时代的新钥匙

    阅读之旅。翻开这本书之前,我对大模型的认知仅仅停留在它是一种强大的人工智能技术,可以进行自然语言处理、图像识别
    发表于 12-24 13:10

    开源AI模型库是干嘛的

    开源AI模型库是指那些公开源代码、允许自由访问和使用的AI模型集合。这些模型通常经过训练,能够执行特定的任务。以下,是对开源AI模型库的详细介绍,由AI部落小编整理。
    的头像 发表于 12-14 10:33 1287次阅读