关于多模态机器学习综述论文-电子发烧友网

摘要：”当研究问题或数据集包括多个这样的模态时，其特征在于多模态。

【导读】人工智能领域最顶级国际期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEETPAMI,影响因子为 9.455)，2019年1月最新一期发表了关于多模态机器学习综述论文。我们周围的世界涉及多种形式 - 我们看到物体，听到声音，感觉质地，闻到异味等等。一般而言，模态指的是事物发生或经历的方式。大多数人将形态与感觉方式联系起来，这些感觉方式代表了我们主要的交流和感觉渠道，例如视觉或触觉。

因此，当研究问题或数据集包括多个这样的模态时，其特征在于多模态。本文主要关注但不仅仅关注三种形式：自然语言既可以是书面的，也可以是口头的; 视觉信号，通常用图像或视频表示; 和声音信号，编码声音和口头信息，如韵律和声音表达。

我们对世界的体验是多模式的 - 我们看到物体，听到声音，感觉质地，闻到异味和味道。情态是指某种事物发生或经历的方式，并且当研究问题包括多种这样的形式时，研究问题被描述为多模式。为了使人工智能在理解我们周围的世界方面取得进展，它需要能够将这种多模态信号一起解释。多模式机器学习旨在构建可以处理和关联来自多种模态的信息的模型。这是一个充满活力的多学科领域，具有越来越重要的意义和非凡的潜力。本文不是关注特定的多模态应用，而是研究多模态机器学习本身的最新进展。我们超越了典型的早期和晚期融合分类，并确定了多模式机器学习所面临的更广泛的挑战，即：表示，翻译，对齐，融合和共同学习。这种新的分类法将使研究人员能够更好地了解该领域的状况，并确定未来研究的方向。

论文地址：

http://www.zhuanzhi.ai/paper/2236c08ef0cd1bc87cae0f14cfbb9915

https://ieeexplore.ieee.org/document/8269806