0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于深度学习用于多模态语义学习的简述

独爱72H 来源:网络整理 作者:佚名 2020-04-15 17:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

(文章来源:网络整理)

互联网用户所创造的“内容”正在迅猛增长,从不同渠道涌现的文本、图像和视频等不同类型的媒体数据以及用户信息更加紧密混合。它们正在以一种新的形式,更为形象综合地表达语义、主题和事件。针对当前媒体数据呈现出的特点进行深入研究已成为学术热点,多种类型媒体数据依赖共存,各种平台和应用的数据来源广泛,个体和群体参与数据产生的用户交互史无前例。

谷歌的前任研究主管皮特·诺文(Perter Norvig)博士曾在2010年《自然》杂志上发表文章《2020愿景》,指出今后10年,文本、图像、视频等数据以及用户交互信息和各种传感器信息将混合在一起,从搜索角度看,搜索引擎对检索结果进行的是内容综合而非数据罗列,这也将是谷歌今后面临的巨大挑战。我国也同样重视“跨媒体”研究,国家科技部于2011年11月启动了973计划项目“面向公共安全的跨媒体计算理论与方法”,对“跨媒体”的表达建模、语义学习、挖掘推理和搜索排序等核心问题开展了理论研究。目前,媒体计算需要重点解决的两个难点是消除“异构鸿沟”和“语义鸿沟。

传统的媒体计算研究方法主要从手工构建的底层特征出发,利用机器学习方法填补异构鸿沟和语义鸿沟。与传统方法不同深度学习是通过将无监督逐层预训练与有监督微调(fine-tuning)有机结合,实现端到端方式的特征学习。其基本动机是构建多层网络来学习隐含在数据内部的关系,从而使学习得到的特征具有更强的表达力和泛化能力。

在大规模数据上进行的实验表明:通过深度学习得到的特征表示在自然语言处理(词向量学习)、知识图谱构建、图像分类和语音识别等领域表现出良好的性能。例如谷歌研究组在2014年大规模视觉识别挑战赛中采用改进的卷积神经网络GoogLeNet,将图像识别准确率提升到93.3%。

通常,在媒体语义理解过程中可获取不同类型的媒体数据,如:新闻报道包含了文字和文字对应的图像,视频包含了视觉和听觉信息。不同类型的媒体数据从不同侧面反映了高层语义,因此多模态语义学习需要对不同模态的信息进行整合。1976年,麦格克(McGurk)等人验证了人类对外界信息的认知是基于不同感官信息而形成的整体性理解,任何感官信息的缺乏或不准确,都将导致大脑对外界信息的理解产生偏差,这个现象被称为“McGurk现象”。McGurk现象揭示了大脑在进行感知时,不同感官会被无意识地自动结合在一起对信息进行处理。

由于深度学习具有通过逐层抽象来形成良好特征的能力,因此可利用该方法来形成不同类型数据的联合特征表示。具体方法有深度典范相关分析(Deep Caconical Correlation Analysis,Deep CCA)、多模态深度学习以及多模态玻尔兹曼机等。这些方法的基本思路是通过不同的深层模型对不同类型数据进行逐层学习,将学习得到的结果进行合并,以得到多模态联合特征表示,最后要求多模态联合特征能有效重建原始不同类型数据或表达相关语义概念。为了得到更好的深层模型,一般在深层模型的最顶端设计反映不同类型数据相互耦合的损失函数来对模型进行优化反馈。

将深度学习应用于语义概念识别和理解时,有两种方法:(1)将深度学习得到的特征表示直接输入给判别分类模型(如支持向量机等);(2)通过softmax函数或回归函数对输人数据、隐含层和输出层(语义标签)之间的概率分布进行建模,然后基于互信息熵最小或间隔距离最大等准则对模型进行优化。

有人的理论研究结果表明:在机器学习中,如果对模型本身的假设产生偏差,则会影响学习结果。因此,如何合理引入数据本身所具有的先验知识和结构线索,来构造和微调深层模型使之更好地处理多模态数据,是一个亟待解决的问题。因此,一些研究开始在生成式深层模型或区别式深层模型中引入数据本身所具有的先验结构,以提升特征学习的泛化能力和区别能力。有人在卷积神经网络输出端引入层次化概念树来促进关联语义所具有的共享特征的学习,有人通过非参贝叶斯假设来提高判别性语义特征学习的灵活度。
(责任编辑:fqj)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 互联网
    +关注

    关注

    55

    文章

    11357

    浏览量

    110710
  • 深度学习
    +关注

    关注

    73

    文章

    5614

    浏览量

    124748
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    深度学习为什么还是无法处理边缘场景?

    [首发于智驾最前沿微信公众号]虽然自动驾驶车辆已经完成了数百万公里的行驶测试,深度学习也已被普遍应用,但依然会在一些看似简单的场景中犯下低级错误。比如在遇到一些从未见到过的边缘场景时,系统可能会
    的头像 发表于 05-04 10:16 2265次阅读
    <b class='flag-5'>深度</b><b class='flag-5'>学习</b>为什么还是无法处理边缘场景?

    模态大模型 前沿算法与实战应用 第一季》精品课程简介

    标注的图文对(如网页中的图片和alt文本)进行自监督训练。 实例学习 :将同一场景的模态数据视为一个\"包\",只需标注包的类别,无需标注每个
    发表于 05-01 17:46

    人工智能-Python深度学习进阶与应用技术:工程师高培解读

    深度学习的工程化落地,早已不是纸上谈兵的事。从卷积神经网络到Transformer,从目标检测到大模型私有化部署,技术栈不断延伸,工程师面临的知识体系也越来越庞杂。现根据中际赛威工程师培训老师的一份
    的头像 发表于 04-21 11:01 467次阅读
    人工智能-Python<b class='flag-5'>深度</b><b class='flag-5'>学习</b>进阶与应用技术:工程师高培解读

    2026视觉检测产业深度调研及未来趋势分析

    视觉检测技术融合深度学习模态传感,实现从辅助工具向决策中枢的转变,推动智能制造与工业4.0发展。
    的头像 发表于 04-01 09:26 356次阅读
    2026视觉检测产业<b class='flag-5'>深度</b>调研及未来趋势分析

    机器学习深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据、模型架构
    的头像 发表于 01-07 15:37 410次阅读
    机器<b class='flag-5'>学习</b>和<b class='flag-5'>深度</b><b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    穿孔机顶头检测仪 机器视觉深度学习

    LX01Z-DG626穿孔机顶头检测仪采用深度学习技术,能够实现顶头状态的在线实时检测,顶头丢失报警,顶头异常状态报警等功能,响应迅速,异常状态视频回溯,检测顶头温度,配备吹扫清洁系统,维护周期长
    发表于 12-22 14:33

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    强化 无监督学习应用:无需NG样本的缺陷检测方案,解决工业数据标注难题 模态融合技术:PaddleOCR+YOLOv8联动方案,实现\"文字识别+缺陷定位\"一体化 团购课程大纲
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课程(11大系列课程,共5000+分钟)

    强化 无监督学习应用:无需NG样本的缺陷检测方案,解决工业数据标注难题 模态融合技术:PaddleOCR+YOLOv8联动方案,实现\"文字识别+缺陷定位\"一体化 团购课程大纲
    发表于 12-03 13:50

    如何深度学习机器视觉的应用场景

    深度学习视觉应用场景大全 工业制造领域 复杂缺陷检测:处理传统算法难以描述的非标准化缺陷模式 非标产品分类:对形状、颜色、纹理多变的产品进行智能分类 外观质量评估:基于学习的外观质量标准判定 精密
    的头像 发表于 11-27 10:19 400次阅读

    亚马逊云科技上线Amazon Nova模态嵌入模型

    Embeddings模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖模态
    的头像 发表于 10-29 17:15 440次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入模型

    如何在机器视觉中部署深度学习神经网络

    图 1:基于深度学习的目标检测可定位已训练的目标类别,并通过矩形框(边界框)对其进行标识。 在讨论人工智能(AI)或深度学习时,经常会出现“神经网络”、“黑箱”、“标注”等术语。这些概
    的头像 发表于 09-10 17:38 1129次阅读
    如何在机器视觉中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    浅析模态标注对大模型应用落地的重要性与标注实例

    ”的关键工序——模态标注重要性日益凸显。 一、什么是模态标注? 模态标注是指对文本、图像、
    的头像 发表于 09-05 13:49 2990次阅读

    深度学习对工业物联网有哪些帮助

    深度学习作为人工智能的核心分支,通过模拟人脑神经网络的层级结构,能够自动从海量工业数据中提取复杂特征,为工业物联网(IIoT)提供了从数据感知到智能决策的全链路升级能力。以下从技术赋能、场景突破
    的头像 发表于 08-20 14:56 1316次阅读

    自动驾驶中Transformer大模型会取代深度学习吗?

    持续讨论。特别是在自动驾驶领域,部分厂商开始尝试将模态大模型(MLLM)引入到感知、规划与决策系统,引发了“传统深度学习是否已过时”的激烈争论。然而,从技术原理、算力成本、安全需求与
    的头像 发表于 08-13 09:15 4455次阅读
    自动驾驶中Transformer大模型会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?

    研华科技携手创新奇智推出模态大模型AI一体机

    这是一款基于研华高性能边缘计算平台MIC-733,深度集成创新奇智视觉小模型与模态大模型的边缘智能终端,通过创新的“视觉识别 + 深度语义
    的头像 发表于 07-17 17:14 1154次阅读
    研华科技携手创新奇智推出<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型AI一体机