0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于多模态机器学习综述论文

mK5P_AItists 来源:lq 2019-01-21 13:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

摘要:”当研究问题或数据集包括多个这样的模态时,其特征在于多模态。

【导读】人工智能领域最顶级国际期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEETPAMI,影响因子为 9.455),2019年1月最新一期发表了关于多模态机器学习综述论文。我们周围的世界涉及多种形式 - 我们看到物体,听到声音,感觉质地,闻到异味等等。 一般而言,模态指的是事物发生或经历的方式。 大多数人将形态与感觉方式联系起来,这些感觉方式代表了我们主要的交流和感觉渠道,例如视觉或触觉。



因此,当研究问题或数据集包括多个这样的模态时,其特征在于多模态。 本文主要关注但不仅仅关注三种形式:自然语言既可以是书面的,也可以是口头的; 视觉信号,通常用图像或视频表示; 和声音信号,编码声音和口头信息,如韵律和声音表达。

我们对世界的体验是多模式的 - 我们看到物体,听到声音,感觉质地,闻到异味和味道。情态是指某种事物发生或经历的方式,并且当研究问题包括多种这样的形式时,研究问题被描述为多模式。为了使人工智能在理解我们周围的世界方面取得进展,它需要能够将这种多模态信号一起解释。多模式机器学习旨在构建可以处理和关联来自多种模态的信息的模型。这是一个充满活力的多学科领域,具有越来越重要的意义和非凡的潜力。本文不是关注特定的多模态应用,而是研究多模态机器学习本身的最新进展。我们超越了典型的早期和晚期融合分类,并确定了多模式机器学习所面临的更广泛的挑战,即:表示,翻译,对齐,融合和共同学习。这种新的分类法将使研究人员能够更好地了解该领域的状况,并确定未来研究的方向。

论文地址:

http://www.zhuanzhi.ai/paper/2236c08ef0cd1bc87cae0f14cfbb9915

https://ieeexplore.ieee.org/document/8269806

模态特征表示

多模态的表示方法有两类:

联合表示将不同模态的特征映射到同一个空间,代表方法有神经网络的方法、图模型方法与序列模型方法。

协调方法特征仍在原空间,但是通过相似度或者结构特征协调。

多模态特征翻译

多模态特征翻译分为基于样本的和生成式的:

基于样本的方法从特征字典中找出最佳翻译。基于样本的方法分为基于检索式的和合并的方法。

生成式的方法则是通过样本,训练一个翻译模型,并使用翻译模型完成对特征的转换。生成式的方法有基于语法的、encoder-decoder模型和连续模型。

多模态特征对齐

多模态特征对齐是找到同一个实例的不同之间模态特征之间的关系。

显式对齐方法包括监督模型和无监督模型。无监督模型如CCA和DTW(Dynamic time warping)等。

隐式对齐的方法包括图模型和神经网络

多模态特征融合

多模态特征融合是指将从不同模态的特征集成在一起,共同完成一个任务,如分类。

无模型融合的方法被分为早期模型(基于特征)、晚期模型(基于决策)和混合模型

有模型融合的方法有核方法、图模型方法、神经网络模型方法等。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1820

    文章

    50324

    浏览量

    266937
  • 机器学习
    +关注

    关注

    67

    文章

    8564

    浏览量

    137222
  • 自然语言
    +关注

    关注

    1

    文章

    292

    浏览量

    14026

原文标题:人工智能顶刊TPAMI2019最新《多模态机器学习综述》

文章出处:【微信号:AItists,微信公众号:人工智能学家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ADPD4000/ADPD4001:模态传感器前端的卓越之选

    ADPD4000/ADPD4001:模态传感器前端的卓越之选 在当今电子设备日益智能化、多功能化的时代,模态传感器前端的需求愈发迫切。ADPD4000/ADPD4001作为一款性能
    的头像 发表于 03-27 14:45 180次阅读

    海光DCU完成Qwen3.5模态MoE模型全量适配

    近日,海光DCU完成Qwen3.5-397B MoE旗舰模态模型、Qwen3.5-35B-A3B MoE模态模型全量适配、精度对齐与推理部署验证。本次适配依托FlagOS专属vLL
    的头像 发表于 03-26 09:35 703次阅读

    商汤科技正式开源模态自主推理模型SenseNova-MARS

    今日,商汤正式开源模态自主推理模型 SenseNova-MARS(8B/32B 双版本),其在模态搜索与推理的核心基准测试中以 69.74 分超越Gemini-3-Pro(69.0
    的头像 发表于 01-30 10:13 785次阅读
    商汤科技正式开源<b class='flag-5'>多</b><b class='flag-5'>模态</b>自主推理模型SenseNova-MARS

    模态感知大模型驱动的密闭空间自主勘探系统的应用与未来发展

        模态感知大模型驱动的密闭空间自主勘探系统    北京华盛恒辉模态感知大模型驱动的密闭空间自主勘探系统,是融合
    的头像 发表于 12-29 11:27 457次阅读

    模态大模型驱动的复杂环境精准导航避障系统平台的应用

    模态大模型驱动的复杂环境精准导航避障系统平台的应用
    的头像 发表于 12-22 13:15 400次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型驱动的复杂环境精准导航避障系统平台的应用

    商汤科技正式发布并开源全新模态模型架构NEO

    商汤科技正式发布并开源了与南洋理工大学S-Lab合作研发的全新模态模型架构 —— NEO,为日日新SenseNova 模态模型奠定了新一代架构的基石。
    的头像 发表于 12-08 11:19 1157次阅读
    商汤科技正式发布并开源全新<b class='flag-5'>多</b><b class='flag-5'>模态</b>模型架构NEO

    格灵深瞳模态大模型Glint-ME让图文互搜更精准

    在电商、安防等场景下,图文互搜应用广泛。随着以CLIP为代表的模态表征方法相继提出,过去单一模态搜索(文搜文、图搜图)被突破,模型可以同时理解文本、图像、音频乃至视频,实现跨模态检索
    的头像 发表于 11-02 15:56 1854次阅读
    格灵深瞳<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型Glint-ME让图文互搜更精准

    亚马逊云科技上线Amazon Nova模态嵌入模型

    Embeddings模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖模态嵌入模型。该模型是首个通过单一模型支持文本、
    的头像 发表于 10-29 17:15 370次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入模型

    商汤日日新V6.5模态大模型登顶全球权威榜单

    根据权威评测平台OpenCompass模态大模型学术榜单(Multi-modal Academic Leaderboard)最新数据显示,商汤「日日新 V6.5」(SenseNova-V6.5
    的头像 发表于 09-10 09:55 948次阅读

    浅析模态标注对大模型应用落地的重要性与标注实例

    ​在人工智能迈向AGI通用智能的关键道路上,大模型正从单一的文本理解者,演进为能同时看、听、读、想的“多面手”。驱动这一进化的核心燃料,正是高质量的模态数据,而将原始数据转化为“机器可读教材
    的头像 发表于 09-05 13:49 2755次阅读

    商汤科技模态通用智能战略思考

    时间是最好的试金石,AI领域尤其如此。当行业热议大模型走向时,商汤早已锚定“模态通用智能”——这是我们以深厚研究积累和实践反复验证的可行路径。
    的头像 发表于 08-14 09:33 1308次阅读

    模态+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式

    模态+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式
    的头像 发表于 06-12 10:17 784次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式

    NVIDIA在模态生成式AI领域的突破性进展

    在今年的国际学习表征大会(ICLR)上,NVIDIA 发表了 70 余篇论文,其内容涵盖医疗、机器人、自动驾驶汽车以及大语言模型等领域。
    的头像 发表于 05-15 10:49 1172次阅读

    XMOS为普及AI应用推出基于软件定义SoC的模态AI传感器融合接口

    模态传感信号AI处理为智算中心和边缘智能开启感知智能的新篇章
    的头像 发表于 05-12 17:51 632次阅读
    XMOS为普及AI应用推出基于软件定义SoC的<b class='flag-5'>多</b><b class='flag-5'>模态</b>AI传感器融合接口

    江智机器人公司《模态下人机协同交互系统与方法》发明专利已具有高价值发明专利属性

    已基本回笼。同时重点从人工智能机器人的应用层面做了比较完善的专利布局知识产权保护等。对于人工智能机器人产业领域来说,模态下人机协同交互技术无论是那个
    的头像 发表于 05-02 19:11 1252次阅读
    江智<b class='flag-5'>机器</b>人公司《<b class='flag-5'>多</b><b class='flag-5'>模态</b>下人机协同交互系统与方法》发明专利已具有高价值发明专利属性