0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通用人工智能的多模态通用技术

姚小熊27 来源:人工智能实验室 作者:人工智能实验室 2021-02-04 10:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

现有的大多数人工智能模型和方法仍属于窄人工智能,也被称为弱人工智能(weak artificial intelligence)。相对而言,强人工智能(strong artificial intelligence)期望机器能像人一样思考、推理,能处理各种任务,比肩人类的智能水平(human-like or human-level intelligence)。与强人工智能相比,现有通用人工智能更加强调机器的“泛 化”能力,包括场景泛化(即模型从单一场景泛化 至多个场景)、模态泛化(即一个模型适用于多种 模态的任务)、任务泛化(即一个模型可以处理多种类型的任务)等。

通用人工智能目前仍然处于发展初期,是对现有窄/弱人工智能的反思、补充和改进,也是通往强人工智能道路上的重要路线。通用人工智能所研究的是一个智能系统应该具备哪些能力,并且运用这些能力解决各式各样的复杂问题。

通用人工智能的多模态通用技术

现实生活中,人类接收的信息模态多种多样,如视觉、声音、文字、嗅觉、触觉等。人类可以综合运用多种模态的信息对事物进行理解和推理。多模态学习是通用智能需要解决的关键问题之一,其任务可以归结为两个基本类:多模态表征学习和模态转换。需要指出的是,这两个问题并非不相关,比如表征可以用来做模态转换。下面介绍几种典型的多模态学习任务。

多模态表征学习和融合

多模态表征学习指的是学习包含多个模态的样本表征,比如视频里可能包含的视觉信息、声音信息等,使得表征能够反映所包含的多个模态信息,以帮助理解识别等任务。最直接的方法是分别处理各个模态,得到每个模态的表征,再将其直接拼接起来作为最后的表征;也可以最终只产生一个表征,把不同模态的表征融合成一个表征;也可以继续把融合的表征做进一步处理,以生成更强的表征;还可以在产生表征的过程中,不停地进行模态之间的信息交互或者融合,以增强每个模态的表征。

多模态协同学习

多模态协同学习指的是利用模态之间的关联,借助其他一个或者多个模态,来帮助某一模态或者多个模态建模和学习。模态之间的关联信息非常常见,比如人在说话的时候,既有声音模态,也有视觉(唇语)模态,如人脸表情或者行为动作;比如互联网上的图片,通常有文件名等;比如在视频中,视频帧可能有相应的声音(语音或者音乐),也可能有文字脚本。人类对单一模态的理解,也是通过联合其他模态信息进行分析的。多模态协同学习的要领在于把关联转换成合适的约束,以及从各个模态获取合适的信息形成约束。例如图像和文本(比如图像及其文件名)有一一对应关系。

借助于物体的属性描述来帮助图像识别建模,在某种意义上也是多模态协同学习。例如,对狗的识别,我们都清楚地了解狗是由哪些部分组成的,具有怎样的属性特征,比如它有4条腿、尾巴、毛发等。但是在目前主流的物体识别中,这种信息没有被加进去,“狗”只是作为一个标签。而人类从图像里识别狗的时候,头脑中有很多狗的图像认知信息,同时也从别的渠道获得狗的其他知识,如组成方式等。所以,建模时需要把关于狗的额外知识信息加进去,来提升建模识别性能,也会提升模型的鲁棒性。

多模态统一表征学习

多模态统一表征学习指的是把不同模态映射到 同一个特征空间,使得不同模态在这个特征空间里可以直接比较(比如欧氏距离),比较的时候不用 区分特征来自什么模态。多模态任务可以是把一幅图片转变成一段文字或者一首诗,或者将文字转化成一幅图像;以及在文字、图片或者视频搜索中,如果图像和文本的特征都转换到同一个空间中,那我们就可以进行统一的搜索,而不再区分不同的模态。

人类具有在不同模态之间快速映射的能力,比如看到一个场景,我们的头脑会快速“搜索”到应景的一首歌、一段文字或者一首诗。多模态统一表示是模拟人类这个能力的一种实现方法。多模态统一表征问题的主要研究点在于如何定义关系保持和寻找合适的映射,以及对大规模数据和实际问题的探索。目前已经有了实际系统的探索,如“小冰写诗”。


责任编辑:YYX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261507
  • 通用技术
    +关注

    关注

    0

    文章

    7

    浏览量

    7311
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    云知声荣获2025人工智能治理示范案例

    10月30日,2025国际前瞻人工智能安全与治理大会(FAISG 2025)在北京成功召开。作为落实《北京市通用人工智能产业创新伙伴计划2.0》的重要举措,由北京人工智能产业联盟与北京软件和信息
    的头像 发表于 11-10 17:28 810次阅读

    四维图新亮相2025国际前瞻人工智能安全与治理大会

    日前,2025国际前瞻人工智能安全与治理大会在北京举行。作为数据治理领域的典型代表,四维图新打造的“‘车云’数据协同治理,赋能车企高质量发展”案例(以下简称案例),入选《人工智能治理案例集》,并纳入《北京市通用人工智能产业创新伙
    的头像 发表于 11-08 17:20 1232次阅读

    航天宏图人工智能技术深度赋能社会治理现代化

    航天宏图多年来持续重点投入技术研发,尤其专注人工智能深度探索。航天宏图多以自主研发“天权大模型” 是一款基于模态大模型技术的遥感解译专用A
    的头像 发表于 09-06 10:35 857次阅读
    航天宏图<b class='flag-5'>人工智能技术</b>深度赋能社会治理现代化

    浅析模态标注对大模型应用落地的重要性与标注实例

    ​在人工智能迈向AGI通用智能的关键道路上,大模型正从单一的文本理解者,演进为能同时看、听、读、想的“多面手”。驱动这一进化的核心燃料,正是高质量的
    的头像 发表于 09-05 13:49 760次阅读

    云天励飞亮相2025深圳通用人工智能大会

    近日,以“模驱具身・智启未来”为主题的2025 AGIC深圳(国际)通用人工智能大会暨深圳(国际)通用人工智能产业博览会(以下简称大会)在深圳国际会展中心(宝安)开幕。
    的头像 发表于 09-01 14:09 695次阅读

    勇艺达亮相2025深圳通用人工智能大会

    2025 年 8 月 27 日,以 “模驱具身・智启未来” 为主题的深圳(国际)通用人工智能大会(AGIC)在深圳国际会展中心盛大开幕。国内领先的机器人企业勇艺达精彩亮相,现场展示了其明星产品小勇 T1 型服务机器人及全场景机器人落地方案,引发行业广泛关注。
    的头像 发表于 08-28 17:24 854次阅读

    商汤科技模态通用智能战略思考

    时间是最好的试金石,AI领域尤其如此。当行业热议大模型走向时,商汤早已锚定“模态通用智能”——这是我们以深厚研究积累和实践反复验证的可行路径。
    的头像 发表于 08-14 09:33 1011次阅读

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。 三、模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感器等多种类AI模块,涵盖人工智能
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。 三、模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感器等多种类AI模块,涵盖人工智能
    发表于 08-07 14:23

    聚焦前沿,赋能AI教学!华清远见第32届全国高校人工智能师资班(模态大模型与具身智能)圆满落幕!

    云端,共同探索AI教育前沿,充分展现了高校教育对人工智能方向的持续火热与迫切需求。本次暑期师资班聚焦“模态大模型+具身智能”这一AI前沿技术
    的头像 发表于 07-30 15:06 1028次阅读
    聚焦前沿,赋能AI教学!华清远见第32届全国高校<b class='flag-5'>人工智能</b>师资班(<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型与具身<b class='flag-5'>智能</b>)圆满落幕!

    中汽中心出席车用人工智能标准化促进中心成立会议

    近日,我国汽车领域首个以车用人工智能标准化为研究目标的技术组织——车用人工智能标准化促进中心成立会议在天津召开,中汽中心副总经理龚进峰出席会议并致辞。来自整车企业、零部件企业、高校、科研机构等70多家单位的180余位代表参会。
    的头像 发表于 07-21 16:48 719次阅读

    世界模型:模态融合+因果推理,解锁AI认知边界

    ,自然地学习世界运作方式的知识。深度学习之父 Yann LeCun 认为,世界模型是通往通用人工智能(AGI)的重要路径之一。   世界模型 的 关键技术 和应用场景   世界模型是智能体对环境的内部表征,其核心在于通过多
    的头像 发表于 06-23 04:49 3350次阅读

    AgiBot World Colosseo:构建通用机器人智能的规模化数据平台

    数据的匮乏,制约了通用操纵能力的突破。上海人工智能实验室与AgiBot公司联合研发的AgiBot World Colosseo平台,通过构建大规模、模态的真实世界数据集与
    的头像 发表于 03-12 11:42 1692次阅读
    AgiBot World Colosseo:构建<b class='flag-5'>通用</b>机器人<b class='flag-5'>智能</b>的规模化数据平台

    智慧路灯如何应用人工智能技术

    叁仟智慧路灯通过整合人工智能(AI)技术,显著提升了城市的智能化程度,为城市管理工作带来了诸多便利。以下将详细阐述叁仟智慧路灯在应用人工智能技术方面的几个关键领域: 一、
    的头像 发表于 03-07 09:18 795次阅读
    智慧路灯如何应<b class='flag-5'>用人工智能技术</b>

    亥步模态医疗大模型发布:人工智能引领医疗新纪元

    当下,人工智能(AI)正以不可阻挡之势渗透到各行各业,包括医疗行业。12月14日,2024中国医学人工智能大会的召开。会上,一款名为“亥步”的模态医疗大模型的正式发布。
    的头像 发表于 12-19 17:56 780次阅读