0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软视觉语言模型有显著超越人类的表现

如意 来源:cnBeta.COM 作者:cnBeta.COM 2021-01-19 14:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

视觉语言(Vision-Language,VL)系统允许为文本查询搜索相关图像(或反之),并使用自然语言描述图像的内容。一般来说,一个VL系统使用一个图像编码模块和一个视觉语言融合模块。微软研究部门最近开发了一种新的图像编码对象属性检测模型,称为VinVL(Visual features in Vision-Language),有着显著超越人类的表现。

当VinVL与OSCAR和vivo等VL融合模块结合后,微软新的VL系统能够在竞争最激烈的VL排行榜上取得第一,包括视觉问题回答(VQA)、微软COCO图像字幕和新颖对象字幕(nocaps)。微软研究团队还强调,在nocaps排行榜上,这种新的VL系统在CIDEr(92.5对85.3)方面的表现明显超过了人类的同形式表现。

微软解释道:

VinVL在改善VL理解的图像编码方面表现出了巨大的潜力。我们新开发的图像编码模型可以使广泛的VL任务受益,正如本文中的例子所说明的那样。尽管我们获得了很有希望的结果,比如在图像字幕基准上超越了人类的表现,但我们的模型绝不是达到VL理解的人类水平的智能。未来有趣的工作方向包括 (1)利用海量图像分类/标记数据,进一步扩大对象属性检测预训练的规模;(2)将跨模态VL表征学习的方法扩展到构建感知基础的语言模型,可以像人类一样将视觉概念建立在自然语言中,反之亦然。

微软VinVL正在被整合到Azure认知服务中,Azure认知服务为微软的各种服务提供支撑,如Seeing AI、Office和LinkedIn中的图像字幕等。微软研究团队还将向公众发布VinVL模型和源代码。
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6719

    浏览量

    107349
  • 图像
    +关注

    关注

    2

    文章

    1095

    浏览量

    42157
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51712
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    iTOF技术,多样化的3D视觉应用

    视觉传感器对于机器信息获取至关重要,正在从二维(2D)发展到三维(3D),在某些方面模仿并超越人类视觉能力,从而推动创新应用。3D 视觉
    发表于 09-05 07:24

    【VisionFive 2单板计算机试用体验】3、开源大语言模型部署

    的系统和芯片架构。 3、拉取/运行大语言模型 ollama的使用方法和docker很像。 返回到ollama的编译路径,找到ollama可执行文件 执行 ./ollama run qwen3:0.6b
    发表于 07-19 15:45

    基于MindSpeed MM玩转Qwen2.5VL多模态理解模型

    多模态理解模型是让AI像人类一样,通过整合多维度信息(如视觉语言、听觉等),理解数据背后的语义、情感、逻辑或场景,从而完成推理、决策等任务。
    的头像 发表于 04-18 09:30 2669次阅读
    基于MindSpeed MM玩转Qwen2.5VL多模态理解<b class='flag-5'>模型</b>

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的多模态人工智能
    的头像 发表于 03-17 15:32 7573次阅读
    ​VLM(<b class='flag-5'>视觉</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>)​详细解析

    全志视觉芯片V821接入DeepSeek和豆包视觉模型

    带来一款全志新的视觉芯片V821,通过网络接入的方式打通DeepSeek-R1满血版模型和豆包视觉模型,并展示其语言
    的头像 发表于 02-21 09:27 3619次阅读

    TeleAI提出COPO对齐方法:8B模型超越Llama3-70B的表现

    新大陆。 正如人类在面对未知时展现出的探索行为,在人工智能领域,尤其在大型语言模型(LLMs)理解语言和知识中,研究人员正尝试赋予 LLM 类似的探索能力,从而突破其在给定数据集中学习
    的头像 发表于 02-17 17:31 669次阅读
    TeleAI提出COPO对齐方法:8B<b class='flag-5'>模型</b><b class='flag-5'>超越</b>Llama3-70B的<b class='flag-5'>表现</b>

    一文详解视觉语言模型

    视觉语言模型(VLM)是一种多模态、生成式 AI 模型,能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 3240次阅读
    一文详解<b class='flag-5'>视觉</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    Hugging Face推出最小AI视觉语言模型

    ,SmolVLM-256M-Instruct仅有2.56亿参数,是有史以来发布的最小视觉语言模型,可在内存低于1GB的PC上运行并提供卓越性能。SmolVLM-500M-Instruct
    的头像 发表于 01-24 14:15 1432次阅读

    望获实时Linux系统与大语言模型深度融合,开创实时智能无限可能!

    控制领域,大语言模型能够显著提升控制系统的智能化水平,确保实时性的同时实现高质量的人机交互,为具身机器人、智能驾驶等对实时性和智能化强烈需求的场景提供理想的解决方案。 然而,大
    的头像 发表于 01-08 13:44 1032次阅读

    语言模型管理的作用

    要充分发挥语言模型的潜力,有效的语言模型管理非常重要。以下,是对语言模型管理作用的分析,由AI部
    的头像 发表于 01-02 11:06 573次阅读

    马斯克预言:AI将全面超越人类智力

    近日,科技巨头马斯克作出了一个关于人工智能(AI)的大胆预测。他断言,AI的发展速度将超乎人类的想象,并将在不久的将来全面超越人类的智力。 马斯克在X平台上明确表示,AI的迅猛进步不容忽视。他预测
    的头像 发表于 12-28 14:23 1159次阅读

    微软寻求在365 Copilot中引入非OpenAI模型

    近日,据路透社报道,微软正在积极寻求为其旗舰人工智能产品Microsoft 365 Copilot增加内部和第三方的人工智能模型,以减少对OpenAI底层技术的依赖,并降低成本。 知情人士透露,微软
    的头像 发表于 12-25 10:41 833次阅读

    【「大模型启示录」阅读体验】+开启智能时代的新钥匙

    阅读之旅。在翻开这本书之前,我对大模型的认知仅仅停留在它是一种强大的人工智能技术,可以进行自然语言处理、图像识别等任务。我知道像 ChatGPT 这样的应用是基于大模型开发的,能够与人类
    发表于 12-24 13:10

    NaVILA:加州大学与英伟达联合发布新型视觉语言模型

    日前,加州大学的研究人员携手英伟达,共同推出了一款创新的视觉语言模型——NaVILA。该模型在机器人导航领域展现出了独特的应用潜力,为智能机器人的自主导航提供了一种全新的解决方案。
    的头像 发表于 12-13 10:51 956次阅读

    超越人类视觉!昱感微“多维像素”多模态超级摄像头方案产品赋能超凡感知力

    如今人工智能发展之日新月异,令人不由感叹也许科幻电影里仿生人的应用不再是遥不可及,那么未来AI会超越人类甚至取代人类吗?也许现在AI的大脑还无法做到,但眼睛已经做到,机器视觉的感知力已
    的头像 发表于 12-12 17:17 1270次阅读
    <b class='flag-5'>超越</b><b class='flag-5'>人类</b><b class='flag-5'>视觉</b>!昱感微“多维像素”多模态超级摄像头方案产品赋能超凡感知力