0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软亚研提出VL-BERT,现取得了当前单模型的最好效果

JqWP_youuav 来源:陈年丽 2019-09-03 15:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

机器之心发布

来自中科大、微软亚研院的研究者们提出了一种新型的通用视觉-语言预训练模型(Visual-Linguistic BERT,简称 VL-BERT),该模型采用简单而强大的 Transformer 模型作为主干网络,并将其输入扩展为同时包含视觉与语言输入的多模态形式,适用于绝大多数视觉-语言下游任务。

为了让 VL-BERT 模型利用更为通用的特征表示,作者在大规模图片描述生成数据集 ConceptualCaptions 中进行 VL-BERT 的预训练,实验证明此预训练过程可以显著提高下游的视觉-语言任务的效果,包含视觉常识推理、视觉问答与引用表达式理解等。值得一提的是,在视觉常识推理排行榜中,VL-BERT 取得了当前单模型的最好效果。

适用于下游任务的通用特征表示预训练是深度网络成功的标志之一。在计算机视觉领域,深度网络在 ImageNet 数据集进行图像分类的预训练过程,被发现可广泛提高多种图像识别任务的效果。在自然语言处理领域中,Transformer 模型在大规模语料库中使用语言模型进行预训练的过程,也被证明可广泛提高多种自然语言处理任务的效果。

但对于计算机视觉和自然语言处理领域交叉的任务,例如图像标题生成、视觉问答、视觉常识推理等,缺少这种预训练的通用多模态特征表示。

一般来说,之前的视觉-语言模型分别使用计算机视觉或自然语言处理领域中的预训练模型进行初始化,但如果目标任务数据量不足,模型容易过拟合从而损失性能。并且对于不同的视觉-语言任务,其网络架构一般是经过特殊设计的,由此很难通过视觉-语言联合预训练的过程帮助下游任务。

由此,在本文中,提出了一种可广泛应用于视觉-语言任务的预训练通用特征表示,称为 Visual-LinguisitcBERT,简称 VL-BERT,其架构如下图所示:

VL-BERT 的主干网络使用 TransformerAttention 模块,并将视觉与语言嵌入特征作为输入,其中输入的每个元素是来自句子中的单词、或图像中的感兴趣区域(Region of Interests,简称 RoIs)。在模型训练的过程中,每个元素均可以根据其内容、位置、类别等信息自适应地聚合来自所有其他元素的信息。在堆叠多层 TransformerAttention 模块后,其特征表示即具有更为丰富的聚合与对齐视觉和语言线索的能力。

为了更好地建模通用的视觉-语言表示,在大规模视觉-语言语料库中对 VL-BERT 进行了预训练。采用的预训练数据集为图像标题生成数据集,Conceptual Captions,其中包含了大约 330 万个图像标题对。

VL-BERT 的预训练主要采用三个任务:a) 屏蔽语言模型(Masked Language Modeling),即随机屏蔽掉语句中的一些词,并预测当前位置的词是什么;b) 屏蔽 RoI 分类(MaskedRoIClassification),即随机屏蔽掉视觉输入中的一些 RoIs,并预测此空间位置对应 RoI 的所属类别;c) 图像标题关联预测(Sentence-Image Relationship Prediction),即预测图像与标题是否属于同一对。

在预训练结束后,使用微调来进行下游任务的训练。本文中主要在三个视觉-语言下游任务中进行微调,即视觉常识推理(VisualCommonsenseReasoning)、视觉问答(VisualQuestionAnswering)与引用表达式理解(ReferringExpressionComprehension),下面将分别介绍。

视觉常识推理任务即给定图片与相关问题,机器不仅需要回答问题,还需要提供理由来证明答案的正确性。此任务(Q-》AR)被分解为两个子任务,即视觉问答(Q-》A,给定图片与问题,输出正确答案),以及视觉推理(QA-》R,给定图片、问题与答案,输出正确的理由)。

下面以视觉问答子任务为例,此任务的输入为问题、答案与图像的 RoIs,并预测此答案是否为正确答案。除此之外,作者发现微调时增加与预训练类似的 RoI 分类损失也会进一步提升性能,如下:

视觉问答任务即给定图片,回答与图片输入相关的问题。由此模型的输入即为问题与图像,基本元素为单词或 RoI,最终对答案进行预测,如下:

引用表达式理解任务是使用给定的引用表达式来定位图像中的相关对象,由此输入为查询(引用表达式)与图片中的 RoIs,并预测哪个 RoI 为查询输入的引用,如下:

下面将介绍论文中的一些主要实验结果:

a)在视觉常识推理(Visual Commonsense Reasoning)任务中,与当前最好方法的结果比较如下:

b)在视觉问答(Visual Question Answering)任务中,与当前最好方法的结果比较如下:

c)在引用表达式理解(Referring Expression Comprehension)任务中,与当前最好方法的结果比较如下:

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6752

    浏览量

    108085
  • 机器
    +关注

    关注

    0

    文章

    800

    浏览量

    41938

原文标题:牛人发明无人机自动建房,空中喷“水泥”,网友:建筑工人要失业

文章出处:【微信号:youuav,微信公众号:无人机网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    登临科技KS系列GPU产品Day 0适配Kimi-K2.6模型

    2026年4月,随着Kimi-K2.6这一开源原生多模态智能体模型的正式发布,AI领域迎来了又一次重要的技术演进。该模型在长周期编程、编程驱动设计、智能体集群任务编排及主动自主执行等核心能力上取得了显著进展,为开发者和企业带来了
    的头像 发表于 04-23 16:59 1370次阅读
    登临科技KS系列GPU产品Day 0适配Kimi-K2.6<b class='flag-5'>模型</b>

    eiQ Toolkit TFLite 转换器失败问题可能出在什么地方

    the model in h5, not in keras v3 or as a saved_model. 我最近看到过其他帖子,人们在使用该工具时取得了成功,所以我不知道问题可能出在什么地方,该模型是ultralytics 的yolov8,如果这有的话。 任何见
    发表于 04-15 08:21

    【正点原子STM32N647开发板试用】--人体检测模型体验

    STM32N647芯片具有npu的,有0.6tops的算例,可以部署简单模型, 本次实验我们体验的是人体识别模型,该模型来源于:STM32 Model Zoo 工程文件分三部分,我们在线debug其中的FSBL部分才行, 提
    发表于 02-21 19:44

    沐曦曦云C500/C550 GPU产品适配PaddleOCR-VL-1.5模型

    PaddleOCR-VL 系列的全新迭代版本PaddleOCR-VL-1.5今天正式上线,沐曦曦云C500/C550 Day 0 适配PaddleOCR-VL-1.5模型,助力Padd
    的头像 发表于 01-30 10:19 1320次阅读
    沐曦曦云C500/C550 GPU产品适配PaddleOCR-<b class='flag-5'>VL</b>-1.5<b class='flag-5'>模型</b>

    百度正式发布并开源新一代文档解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式发布并开源新一代文档解析模型 PaddleOCR-VL-1.5。该模型以仅 0.9B 参数的轻量架构,在全球权威文档解析评测榜单 OmniDocBench V1.5 中
    的头像 发表于 01-30 10:03 815次阅读
    百度正式发布并开源新一代文档解析<b class='flag-5'>模型</b>PaddleOCR-<b class='flag-5'>VL</b>-1.5

    微软发布AI芯片Maia 200,性能超越谷歌TPU和亚马逊Trainium

    电子发烧友网综合报道 美东时间1月26日,微软重磅发布第二代自人工智能芯片Maia 200,这一举措成为微软减少对英伟达芯片依赖、高效驱动自身服务的关键一步,也标志着其在自芯片领域
    的头像 发表于 01-27 16:46 7508次阅读
    <b class='flag-5'>微软</b>发布AI芯片Maia 200,性能超越谷歌TPU和亚马逊Trainium

    模型到产品:Qwen2.5-VL在BM1684X边缘计算部署全攻略

    前言:部署意义与应用场景1.1Qwen-2-5-VL与BM1684X的组合行业意义:•边缘AI革命:大模型从云端下沉到边缘设备是当前AI发展的关键趋势。根据ABIResearch数据,到2026年
    的头像 发表于 01-13 14:17 5029次阅读
    从<b class='flag-5'>模型</b>到产品:Qwen2.5-<b class='flag-5'>VL</b>在BM1684X边缘计算部署全攻略

    使用 Docker 一键部署 PaddleOCR-VL: 新手保姆级教程

    ? PaddleOCR-VL 是基于轻量级视觉语言模型(VLM)的文档解析解决方案,核心模型为 PaddleOCR-VL-0.9B,支持多语言文本、表格、公式、图表等元素级识别,并能以
    的头像 发表于 12-18 18:26 6801次阅读
    使用 Docker 一键部署 PaddleOCR-<b class='flag-5'>VL</b>: 新手保姆级教程

    基于大模型卫星载荷智能运维保障分系统:功能特点与平台架构解析

    与可靠性。    应用案例    目前,已有多个大模型卫星载荷智能运维保障分系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润大模型卫星载荷智能运维保障分系统。这些成功案例为大
    的头像 发表于 12-18 16:17 406次阅读

    谷歌正式推出最新Gemini 3 AI模型

    今天我们正式推出 Gemini 3,这是我们迄今为止最智能的模型,能够帮助用户实现任何创意。Gemini 3 Pro 基于最先进的推理技术,与之前的版本相比,它在所有主要的 AI 基准测试中都取得了无与伦比的结果,尤其是在编程方面也超越了 2.5 Pro,能够熟练地处理智
    的头像 发表于 11-24 11:10 1428次阅读
    谷歌正式推出最新Gemini 3 AI<b class='flag-5'>模型</b>

    基于米尔瑞芯微RK3576开发板的Qwen2-VL-3B模型NPU多模态部署评测

    案例:支持图像和文本交互 步骤 1:环境准备 步骤 2:模型的获取、验证与格式转换 步骤 3:修改代码并交叉编译可执行文件并上传到板子上 步骤 4:上传文件到开发板 性能测试 Tips 多模态效果
    发表于 08-29 18:08

    中软国际在能源化工行业大模型项目取得重大突破

    近日,中软国际签约某大型石油企业大模型开发项目。作为中国能源化工行业首个备案的大模型,此次签约标志着中软国际在能源化工行业人工智能领域取得了重大突破。根据项目规划,中软国际将针对输送管质量检测、常减压工艺运行优化、设备预测性维护
    的头像 发表于 07-05 17:03 1564次阅读

    利用NVIDIA 3D引导生成式AI Blueprint控制图像生成

    AI 赋能的图像生成技术突飞猛进,从早期模型会生成手指过多的人类图像,到现在能创造出令人惊叹的逼真视觉效果。即使取得了如此飞跃,仍然存在一个挑战:实现创意掌控。
    的头像 发表于 06-05 09:24 1014次阅读

    CADENAS 在 2025 年金字塔公司联系博览会上取得圆满成功

    表现出了极大的积极性和好奇心。这种直接的交流和相互了解让我们觉得这次招聘会非常特别! 感谢奥格斯堡大学的活动团队 展会出色的组织工作、友好的氛围以及美味的食物再次给我们留下了深刻印象。每年的金字塔公司招聘会都为我们提供了一个接触年轻人才的绝佳平台,2025 年的招聘会对我们来说又一次取得了圆满成功。
    发表于 06-04 14:32

    百度文心大模型X1 Turbo获得信通院当前模型最高评级证书

    ,16项达5分,综合评级获当前最高级“4+级”, 成为国内首款通过该测评的大模型 。文心X1 Turbo逻辑推理、代码推理、推理效果优化等技术能力及工具支持度、安全可靠度等应用能力均获得满分。 AI Day现场,百度吴甜系统性讲
    的头像 发表于 05-21 18:19 1404次阅读
    百度文心大<b class='flag-5'>模型</b>X1 Turbo获得信通院<b class='flag-5'>当前</b>大<b class='flag-5'>模型</b>最高评级证书