0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于多模态机器学习综述论文

mK5P_AItists 来源:lq 2019-01-21 13:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

摘要:”当研究问题或数据集包括多个这样的模态时,其特征在于多模态。

【导读】人工智能领域最顶级国际期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEETPAMI,影响因子为 9.455),2019年1月最新一期发表了关于多模态机器学习综述论文。我们周围的世界涉及多种形式 - 我们看到物体,听到声音,感觉质地,闻到异味等等。 一般而言,模态指的是事物发生或经历的方式。 大多数人将形态与感觉方式联系起来,这些感觉方式代表了我们主要的交流和感觉渠道,例如视觉或触觉。



因此,当研究问题或数据集包括多个这样的模态时,其特征在于多模态。 本文主要关注但不仅仅关注三种形式:自然语言既可以是书面的,也可以是口头的; 视觉信号,通常用图像或视频表示; 和声音信号,编码声音和口头信息,如韵律和声音表达。

我们对世界的体验是多模式的 - 我们看到物体,听到声音,感觉质地,闻到异味和味道。情态是指某种事物发生或经历的方式,并且当研究问题包括多种这样的形式时,研究问题被描述为多模式。为了使人工智能在理解我们周围的世界方面取得进展,它需要能够将这种多模态信号一起解释。多模式机器学习旨在构建可以处理和关联来自多种模态的信息的模型。这是一个充满活力的多学科领域,具有越来越重要的意义和非凡的潜力。本文不是关注特定的多模态应用,而是研究多模态机器学习本身的最新进展。我们超越了典型的早期和晚期融合分类,并确定了多模式机器学习所面临的更广泛的挑战,即:表示,翻译,对齐,融合和共同学习。这种新的分类法将使研究人员能够更好地了解该领域的状况,并确定未来研究的方向。

论文地址:

http://www.zhuanzhi.ai/paper/2236c08ef0cd1bc87cae0f14cfbb9915

https://ieeexplore.ieee.org/document/8269806

模态特征表示

多模态的表示方法有两类:

联合表示将不同模态的特征映射到同一个空间,代表方法有神经网络的方法、图模型方法与序列模型方法。

协调方法特征仍在原空间,但是通过相似度或者结构特征协调。

多模态特征翻译

多模态特征翻译分为基于样本的和生成式的:

基于样本的方法从特征字典中找出最佳翻译。基于样本的方法分为基于检索式的和合并的方法。

生成式的方法则是通过样本,训练一个翻译模型,并使用翻译模型完成对特征的转换。生成式的方法有基于语法的、encoder-decoder模型和连续模型。

多模态特征对齐

多模态特征对齐是找到同一个实例的不同之间模态特征之间的关系。

显式对齐方法包括监督模型和无监督模型。无监督模型如CCA和DTW(Dynamic time warping)等。

隐式对齐的方法包括图模型和神经网络

多模态特征融合

多模态特征融合是指将从不同模态的特征集成在一起,共同完成一个任务,如分类。

无模型融合的方法被分为早期模型(基于特征)、晚期模型(基于决策)和混合模型

有模型融合的方法有核方法、图模型方法、神经网络模型方法等。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261398
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136216
  • 自然语言
    +关注

    关注

    1

    文章

    292

    浏览量

    13915

原文标题:人工智能顶刊TPAMI2019最新《多模态机器学习综述》

文章出处:【微信号:AItists,微信公众号:人工智能学家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    格灵深瞳模态大模型Glint-ME让图文互搜更精准

    在电商、安防等场景下,图文互搜应用广泛。随着以CLIP为代表的模态表征方法相继提出,过去单一模态搜索(文搜文、图搜图)被突破,模型可以同时理解文本、图像、音频乃至视频,实现跨模态检索
    的头像 发表于 11-02 15:56 1226次阅读
    格灵深瞳<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型Glint-ME让图文互搜更精准

    亚马逊云科技上线Amazon Nova模态嵌入模型

    Embeddings模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖模态嵌入模型。该模型是首个通过单一模型支持文本、
    的头像 发表于 10-29 17:15 107次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入模型

    浅析模态标注对大模型应用落地的重要性与标注实例

    ​在人工智能迈向AGI通用智能的关键道路上,大模型正从单一的文本理解者,演进为能同时看、听、读、想的“多面手”。驱动这一进化的核心燃料,正是高质量的模态数据,而将原始数据转化为“机器可读教材
    的头像 发表于 09-05 13:49 734次阅读

    商汤科技模态通用智能战略思考

    时间是最好的试金石,AI领域尤其如此。当行业热议大模型走向时,商汤早已锚定“模态通用智能”——这是我们以深厚研究积累和实践反复验证的可行路径。
    的头像 发表于 08-14 09:33 1004次阅读

    模态+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式

    模态+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式
    的头像 发表于 06-12 10:17 402次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式

    NVIDIA在模态生成式AI领域的突破性进展

    在今年的国际学习表征大会(ICLR)上,NVIDIA 发表了 70 余篇论文,其内容涵盖医疗、机器人、自动驾驶汽车以及大语言模型等领域。
    的头像 发表于 05-15 10:49 785次阅读

    爱芯通元NPU适配Qwen2.5-VL-3B视觉模态大模型

    熟悉爱芯通元NPU的网友很清楚,从去年开始我们在端侧模态大模型适配上一直处于主动紧跟的节奏。先后适配了国内最早开源的模态大模MiniCPM V 2.0,上海人工智能实验室的书生
    的头像 发表于 04-21 10:56 2586次阅读
    爱芯通元NPU适配Qwen2.5-VL-3B视觉<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型

    海康威视发布模态大模型AI融合巡检超脑

    基于海康观澜大模型技术体系,海康威视推出新一代模态大模型AI融合巡检超脑,全面升级人、车、行为、事件等算法,为行业带来全新的模态大模型巡检体验,以更准确、更高效的智慧巡检,为各行各
    的头像 发表于 04-17 17:12 1321次阅读

    模态交互技术解析

    模态交互 模态交互( Multimodal Interaction )是指通过多种感官通道(如视觉、听觉、触觉等)或多种交互方式(如语音、手势、触控、眼动等)与计算机系统进行自然、
    的头像 发表于 03-17 15:12 3483次阅读

    AgiBot World Colosseo:构建通用机器人智能的规模化数据平台

    人数据的匮乏,制约了通用操纵能力的突破。上海人工智能实验室与AgiBot公司联合研发的AgiBot World Colosseo平台,通过构建大规模、模态的真实世界数据集与通用政策模型,为机器人学习
    的头像 发表于 03-12 11:42 1685次阅读
    AgiBot World Colosseo:构建通用<b class='flag-5'>机器</b>人智能的规模化数据平台

    海康威视发布模态大模型文搜存储系列产品

    模态大模型为安防行业带来重大技术革新,基于观澜大模型技术体系,海康威视将大参数量、大样本量的图文模态大模型与嵌入式智能硬件深度融合,发布
    的头像 发表于 02-18 10:33 1015次阅读

    2025年Next Token Prediction范式会统一模态

    训练方法与推理策略 性能评测体系 现存挑战与未来方向 综述的完整目录如下: 模态的 Tokenization 我们认为模态的 Token
    的头像 发表于 01-21 10:11 924次阅读
    2025年Next Token Prediction范式会统一<b class='flag-5'>多</b><b class='flag-5'>模态</b>吗

    体验MiniCPM-V 2.6 模态能力

    模态组网
    jf_23871869
    发布于 :2025年01月20日 13:40:48

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    模态融合的创新与突破 机器人控制技术的另一个重要突破在于模态大模型的应用。相比于仅通过文字进行人机交互的传统方法,现代
    发表于 12-29 23:04

    商汤日日新模态大模型权威评测第一

    刚刚,商汤科技日日新SenseNova模态大模型,在权威综合评测权威平台OpenCompass的模态评测中取得榜单第一。
    的头像 发表于 12-20 10:39 1494次阅读