0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何使用多模态信息做prompt

深度学习自然语言处理 来源:夕小瑶的卖萌屋 作者:子龙 2021-11-03 09:39 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

自多模态大火以来,井喷式地出现了许多工作,通过改造预训练语言模型,用图像信息来增强语义信息,但主要集中在几个 NLU 任务上,在 NLG 上的研究比较少。

今天要介绍的这篇 paper Multimodal Conditionality for Natural Language Generation 研究的任务场景则是以多模态信息作为条件做 conditional 的 NLG任务。这种任务设置有许多实际的应用场景。比如,生成商品介绍文案时,仅仅基于该商品的文字标题是不够的。如果能结合商品的图片,必然能够得到更贴切的文案。

这篇工作的模型基于 GPT2,而多模态信息则是以一种类似 prompt 的方式来使用。虽然方法比较简单直观,但具备一定通用性,未来或许有进一步挖掘的可能。

论文题目:

Multimodal Conditionality for Natural Language Generation

论文链接:

https://arxiv.org/pdf/2109.01229.pdf

原理作者的想法其实十分简单,一切语言模型都是为了衡量一段文字序列的概率,即:

而如果引入了多模态的输入,就相当于在生成时多了一个条件,即条件概率为:

其中为多模态输入序列。

以文中生成商品文案的运用场景为例。

这里的Product Title和Product Images就是作为生成Product Description时的“条件”。

那么如何将多模态序列引入到自然语言生成模型呢?

本文使用了一个十分直观的方法,称作MANTIS,将作为条件的多模态序列作为前缀放置到decoder输入序列的前面,进而中解码过程中分享多模态信息。其中图片输入借助ResNet-152,将最后一层输出用线性层映射到语言模型同一个空间中。而作为条件的文本输入,即这里的product title,和生成序列一同进行编码。

效果数据集采用FACAD,提供了商品的标题和图片,目标是生成产品描述,效果如下:

dd0036ac-3837-11ec-82a8-dac502259ad0.png

dd22ef4e-3837-11ec-82a8-dac502259ad0.png

文中提出的模型在所有指标中都取得了最优结果,相比于baseline,将BLEU4提升了0.8,CIDEr提升了7.2,METEOR提升了0.8,ROUGE-L提升了1.0。同时,由于衡量生成文本质量具有主观性,作者也进行了人工评分,结果表明MANTIS依然取得了最优结果。

从生成效果来看,生成的描述成功地结合了图片信息,使得描述更加准确,而非笼统的介绍。

总结这篇文章方法十分直观,但是结合最近火热的 Prompt,似乎又有了更多的启发。同样是生成,同样是加前缀,似乎给定条件的生成就是加上编码好的前缀?那么多模态未来能不能成为一种新的prompt呢?作者认为他们的模型可以借助各种不同的多模态条件生成,然而不得不说本文的方法对模态融合的部分做的马虎了些。本文只是单纯借助解码器进行融合,并没有在编码阶段就分享跨模态的信息。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 信息
    +关注

    关注

    0

    文章

    409

    浏览量

    36454
  • 模型
    +关注

    关注

    1

    文章

    3873

    浏览量

    52341

原文标题:用多模态信息做 prompt,解锁 GPT 新玩法

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    模态大模型 前沿算法与实战应用 第一季》精品课程简介

    全栈掌握模态:从算法原理到项目落地的技术实践 在人工智能从单模态模态跨越的进程中,全栈开发者需要同时理解视觉、语言、音频等不同
    发表于 05-01 17:46

    ADPD4000/ADPD4001:模态传感器前端的卓越之选

    ADPD4000/ADPD4001:模态传感器前端的卓越之选 在当今电子设备日益智能化、多功能化的时代,模态传感器前端的需求愈发迫切。ADPD4000/ADPD4001作为一款性能
    的头像 发表于 03-27 14:45 244次阅读

    海光DCU完成Qwen3.5模态MoE模型全量适配

    近日,海光DCU完成Qwen3.5-397B MoE旗舰模态模型、Qwen3.5-35B-A3B MoE模态模型全量适配、精度对齐与推理部署验证。本次适配依托FlagOS专属vLL
    的头像 发表于 03-26 09:35 877次阅读

    商汤科技正式开源模态自主推理模型SenseNova-MARS

    今日,商汤正式开源模态自主推理模型 SenseNova-MARS(8B/32B 双版本),其在模态搜索与推理的核心基准测试中以 69.74 分超越Gemini-3-Pro(69.0
    的头像 发表于 01-30 10:13 881次阅读
    商汤科技正式开源<b class='flag-5'>多</b><b class='flag-5'>模态</b>自主推理模型SenseNova-MARS

    模态感知大模型驱动的密闭空间自主勘探系统的应用与未来发展

        模态感知大模型驱动的密闭空间自主勘探系统    北京华盛恒辉模态感知大模型驱动的密闭空间自主勘探系统,是融合
    的头像 发表于 12-29 11:27 547次阅读

    模态大模型驱动的复杂环境精准导航避障系统平台的应用

    模态大模型驱动的复杂环境精准导航避障系统平台的应用
    的头像 发表于 12-22 13:15 471次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型驱动的复杂环境精准导航避障系统平台的应用

    商汤科技正式发布并开源全新模态模型架构NEO

    商汤科技正式发布并开源了与南洋理工大学S-Lab合作研发的全新模态模型架构 —— NEO,为日日新SenseNova 模态模型奠定了新一代架构的基石。
    的头像 发表于 12-08 11:19 1241次阅读
    商汤科技正式发布并开源全新<b class='flag-5'>多</b><b class='flag-5'>模态</b>模型架构NEO

    格灵深瞳模态大模型Glint-ME让图文互搜更精准

    在电商、安防等场景下,图文互搜应用广泛。随着以CLIP为代表的模态表征方法相继提出,过去单一模态搜索(文搜文、图搜图)被突破,模型可以同时理解文本、图像、音频乃至视频,实现跨模态检索
    的头像 发表于 11-02 15:56 1937次阅读
    格灵深瞳<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型Glint-ME让图文互搜更精准

    亚马逊云科技上线Amazon Nova模态嵌入模型

    Embeddings模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖模态嵌入模型。该模型是首个通过单一模型支持文本、
    的头像 发表于 10-29 17:15 440次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入模型

    商汤日日新V6.5模态大模型登顶全球权威榜单

    根据权威评测平台OpenCompass模态大模型学术榜单(Multi-modal Academic Leaderboard)最新数据显示,商汤「日日新 V6.5」(SenseNova-V6.5
    的头像 发表于 09-10 09:55 1041次阅读

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    话的 KV-Cache 维护与手动清除; Prompt 模板的动态渲染; 用户输入的解析处理与推理结果的回显展示。 1.3 核心逻辑:轮对话的处理流程该方案的模态
    发表于 09-05 17:25

    浅析模态标注对大模型应用落地的重要性与标注实例

    ​在人工智能迈向AGI通用智能的关键道路上,大模型正从单一的文本理解者,演进为能同时看、听、读、想的“多面手”。驱动这一进化的核心燃料,正是高质量的模态数据,而将原始数据转化为“机器可读教材
    的头像 发表于 09-05 13:49 2991次阅读

    商汤科技模态通用智能战略思考

    时间是最好的试金石,AI领域尤其如此。当行业热议大模型走向时,商汤早已锚定“模态通用智能”——这是我们以深厚研究积累和实践反复验证的可行路径。
    的头像 发表于 08-14 09:33 1371次阅读

    模态+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式

    模态+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式
    的头像 发表于 06-12 10:17 871次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式

    商汤日日新SenseNova融合模态大模型 国内首家获得最高评级的大模型

    近日,中国信息通信研究院(以下简称“中国信通院”)完成可信AI模态大模型首轮评估。 商汤日日新SenseNova融合模态大模型在所有模型中,获得当前最高评级——4+级,并成为国内首家
    的头像 发表于 06-11 11:57 1633次阅读