0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于多模态机器学习综述论文

mK5P_AItists 来源:lq 2019-01-21 13:38 次阅读

摘要:”当研究问题或数据集包括多个这样的模态时,其特征在于多模态。

【导读】人工智能领域最顶级国际期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEETPAMI,影响因子为 9.455),2019年1月最新一期发表了关于多模态机器学习综述论文。我们周围的世界涉及多种形式 - 我们看到物体,听到声音,感觉质地,闻到异味等等。 一般而言,模态指的是事物发生或经历的方式。 大多数人将形态与感觉方式联系起来,这些感觉方式代表了我们主要的交流和感觉渠道,例如视觉或触觉。



因此,当研究问题或数据集包括多个这样的模态时,其特征在于多模态。 本文主要关注但不仅仅关注三种形式:自然语言既可以是书面的,也可以是口头的; 视觉信号,通常用图像或视频表示; 和声音信号,编码声音和口头信息,如韵律和声音表达。

我们对世界的体验是多模式的 - 我们看到物体,听到声音,感觉质地,闻到异味和味道。情态是指某种事物发生或经历的方式,并且当研究问题包括多种这样的形式时,研究问题被描述为多模式。为了使人工智能在理解我们周围的世界方面取得进展,它需要能够将这种多模态信号一起解释。多模式机器学习旨在构建可以处理和关联来自多种模态的信息的模型。这是一个充满活力的多学科领域,具有越来越重要的意义和非凡的潜力。本文不是关注特定的多模态应用,而是研究多模态机器学习本身的最新进展。我们超越了典型的早期和晚期融合分类,并确定了多模式机器学习所面临的更广泛的挑战,即:表示,翻译,对齐,融合和共同学习。这种新的分类法将使研究人员能够更好地了解该领域的状况,并确定未来研究的方向。

论文地址:

http://www.zhuanzhi.ai/paper/2236c08ef0cd1bc87cae0f14cfbb9915

https://ieeexplore.ieee.org/document/8269806

模态特征表示

多模态的表示方法有两类:

联合表示将不同模态的特征映射到同一个空间,代表方法有神经网络的方法、图模型方法与序列模型方法。

协调方法特征仍在原空间,但是通过相似度或者结构特征协调。

多模态特征翻译

多模态特征翻译分为基于样本的和生成式的:

基于样本的方法从特征字典中找出最佳翻译。基于样本的方法分为基于检索式的和合并的方法。

生成式的方法则是通过样本,训练一个翻译模型,并使用翻译模型完成对特征的转换。生成式的方法有基于语法的、encoder-decoder模型和连续模型。

多模态特征对齐

多模态特征对齐是找到同一个实例的不同之间模态特征之间的关系。

显式对齐方法包括监督模型和无监督模型。无监督模型如CCA和DTW(Dynamic time warping)等。

隐式对齐的方法包括图模型和神经网络

多模态特征融合

多模态特征融合是指将从不同模态的特征集成在一起,共同完成一个任务,如分类。

无模型融合的方法被分为早期模型(基于特征)、晚期模型(基于决策)和混合模型

有模型融合的方法有核方法、图模型方法、神经网络模型方法等。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1776

    文章

    43824

    浏览量

    230582
  • 机器学习
    +关注

    关注

    66

    文章

    8116

    浏览量

    130550
  • 自然语言
    +关注

    关注

    1

    文章

    269

    浏览量

    13203

原文标题:人工智能顶刊TPAMI2019最新《多模态机器学习综述》

文章出处:【微信号:AItists,微信公众号:人工智能学家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    深度学习与度量学习融合的综述

    如今,机器学习的应用广泛,包括人脸识别、医疗诊断等,为复杂问题和大量数据提供解决方案。机器学习算法能基于数据产生成功的分类模型,但每个数据都有其问题,需定义区别特征进行正确分类。
    发表于 04-24 09:49 105次阅读
    深度<b class='flag-5'>学习</b>与度量<b class='flag-5'>学习</b>融合的<b class='flag-5'>综述</b>

    AI机器人迎来多模态模型

    配备 GR00T 模型的机器人由于需要“吸收消化”外界的多模态信息,还要快速完成理解、决策、行动等一系列动作,因此对于算力的需求是巨量的。
    发表于 04-12 10:39 80次阅读

    机器人基于开源的多模态语言视觉大模型

    ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以训练。
    发表于 01-19 11:43 122次阅读
    <b class='flag-5'>机器</b>人基于开源的多<b class='flag-5'>模态</b>语言视觉大模型

    模态大模型最全综述来了!

    其中最后一个表示监督信号是从图像本身中挖掘出来的,流行的方法包括对比学习、非对比学习和masked image建模。在这些方法之外,文章也进一步讨论了多模态融合、区域级和像素级图像理解等类别的预训练方法。
    的头像 发表于 09-26 16:42 1425次阅读
    多<b class='flag-5'>模态</b>大模型最全<b class='flag-5'>综述</b>来了!

    适用于任意数据模态的自监督学习数据增强技术

    本文提出了一种适用于任意数据模态的自监督学习数据增强技术。   自监督学习算法在自然语言处理、计算机视觉等领域取得了重大进展。这些自监督学习算法尽管在概念上是通用的,但是在具体操作上是
    的头像 发表于 09-04 10:07 784次阅读
    适用于任意数据<b class='flag-5'>模态</b>的自监督<b class='flag-5'>学习</b>数据增强技术

    机器学习有哪些算法?机器学习分类算法有哪些?机器学习预判有哪些算法?

    机器学习有哪些算法?机器学习分类算法有哪些?机器学习预判有哪些算法?
    的头像 发表于 08-17 16:30 1392次阅读

    机器学习和深度学习的区别

    机器学习和深度学习的区别 随着人工智能技术的不断发展,机器学习和深度学习已经成为大家熟知的两个术
    的头像 发表于 08-17 16:11 3377次阅读

    薄膜PMUT研究进展综述

    & Nanoengineering期刊上发表了题为“Thin-film PMUTs: a review of over 40 years of research”的综述论文,该论文的通讯作者为新加坡国立大学的Chengkuo Lee副教授。
    的头像 发表于 08-03 09:38 896次阅读
    薄膜PMUT研究进展<b class='flag-5'>综述</b>

    更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」

    热度。Flamingo 具备强大的多模态上下文少样本学习能力。 Flamingo 走的技术路线是将大语言模型与一个预训练视觉编码器结合,并插入可学习的层来捕捉跨模态依赖,其采用图文对、
    的头像 发表于 07-16 20:45 402次阅读
    更强更通用:智源「悟道3.0」Emu多<b class='flag-5'>模态</b>大模型开源,在多<b class='flag-5'>模态</b>序列中「补全一切」

    小样本学习领域的未来发展方向

    什么是小样本学习?它与弱监督学习等问题有何差异?其核心问题是什么?来自港科大和第四范式的这篇综述论文提供了解答。 数据是机器学习领域的重要资
    的头像 发表于 06-14 09:59 607次阅读
    小样本<b class='flag-5'>学习</b>领域的未来发展方向

    湖南大学等发表柔性SAW传感综述论文,被期刊选为亮点论文

    本文在作者团队多年从事SAW器件的基础上,综述了柔性和可穿戴声波(特别是SAW)器件的基本原理、设计、制造和应用方面的进展。该论文重点讨论了高性能柔性和可穿戴SAW器件在材料选择(包括柔性衬底和压电薄膜)和结构设计方面的挑战
    的头像 发表于 06-01 17:40 859次阅读
    湖南大学等发表柔性SAW传感<b class='flag-5'>综述论文</b>,被期刊选为亮点<b class='flag-5'>论文</b>

    机器学习的经典算法与应用

      一、机器学习基础概念   关于数据   机器学习就是喂入算法和数据,让算法从数据中寻找一种相应的关系。   Iris 鸢尾花数据集是一个
    的头像 发表于 05-28 11:29 737次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>的经典算法与应用

    深度学习边缘计算综述论文阅读笔记

    这是一篇关于深度学习和边缘计算基础知识的综述,包含了深度学习DL的几种网络模型的介绍,边缘计算的基础知识的介绍,以及二者的结合,如何利用DL来发展边缘计算,如何用边缘计 算发展DL,
    发表于 05-18 14:36 0次下载
    深度<b class='flag-5'>学习</b>边缘计算<b class='flag-5'>综述论文</b>阅读笔记

    技术速递 | 论文分享《Holistic Evaluation of Language Models》

    【摘要】 大模型(LLM)已经成为了大多数语言相关的技术的基石,然而大模型的能力、限制、风险还没有被大家完整地认识。该文为大模型评估方向的综述论文,由Percy Liang团队打造,将2022
    的头像 发表于 05-11 20:16 247次阅读
    技术速递 | <b class='flag-5'>论文</b>分享《Holistic Evaluation of Language Models》

    ImageBind:跨模态之王,将6种模态全部绑定!

    最近,很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的模态对。因此,视频 - 音频嵌入无法直接用于图像 - 文本任务,反之亦
    的头像 发表于 05-11 09:30 673次阅读
    ImageBind:跨<b class='flag-5'>模态</b>之王,将6种<b class='flag-5'>模态</b>全部绑定!