搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

VIP于到期续费

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

会员中心

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

微软视觉语言模型有显著超越人类的表现

视觉语言（Vision-Language，VL）系统允许为文本查询搜索相关图像（或反之），并使用自然语言描述图像的内容。一般来说，一个VL系统使用一个图像编码模块和一个视觉语言融合模块。微软研究部门最近开发了一种新的图像编码对象属性检测模型，称为VinVL（Visual features in Vision-Language），有着显著超越人类的表现。

当VinVL与OSCAR和vivo等VL融合模块结合后，微软新的VL系统能够在竞争最激烈的VL排行榜上取得第一，包括视觉问题回答（VQA）、微软COCO图像字幕和新颖对象字幕（nocaps）。微软研究团队还强调，在nocaps排行榜上，这种新的VL系统在CIDEr（92.5对85.3）方面的表现明显超过了人类的同形式表现。

微软解释道：

VinVL在改善VL理解的图像编码方面表现出了巨大的潜力。我们新开发的图像编码模型可以使广泛的VL任务受益，正如本文中的例子所说明的那样。尽管我们获得了很有希望的结果，比如在图像字幕基准上超越了人类的表现，但我们的模型绝不是达到VL理解的人类水平的智能。未来有趣的工作方向包括（1）利用海量图像分类/标记数据，进一步扩大对象属性检测预训练的规模；（2）将跨模态VL表征学习的方法扩展到构建感知基础的语言模型，可以像人类一样将视觉概念建立在自然语言中，反之亦然。

微软VinVL正在被整合到Azure认知服务中，Azure认知服务为微软的各种服务提供支撑，如Seeing AI、Office和LinkedIn中的图像字幕等。微软研究团队还将向公众发布VinVL模型和源代码。
责编AJX

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

微软

微软

+关注

关注
4

文章
6719

浏览量
107349
图像

图像

+关注

关注
2

文章
1095

浏览量
42157
模型

模型

+关注

关注
1

文章
3648

浏览量
51712

评论

精选推荐
更多

文章

资料

帖子

T型三电平拓扑架构深入剖析与碳化硅MOSFET技术优势的全面研究报告

杨茜
9小时前

881 阅读

温补晶振选型有哪些关键参数呢？

赛思电子
3天前

2498 阅读

低功耗、结构简：干簧传感器赋能家电精准运动感知

斯丹麦德电子
2天前

3764 阅读

预算紧张如何打造高精度实验室？航智HZ6011一台整合电压源电流源与测量表

深圳航智
2天前

4136 阅读

【深度实战】MYD-LR3576 AMP非对称多核开发指南：从配置到实战

米尔电子
2天前

3057 阅读

传导骚扰的测试要点其及对策

维生素B2
275 KB

10积分

77下载

LTE演进的物联网连接_英版

李蒙蒙
259 KB

1积分

0下载

TiDB Operator自动化部署运维工具

凌流浪
2.50 MB

免费

0下载

LeanClub高性能C++论坛系统

云中云
0.59 MB

2积分

1下载

TKImageView iOS图片裁剪工具类

siyugege
0.13 MB

免费

0下载

FPGA初学者求助

jf_55722372
1天前

16 阅读

移相全桥驱动和输出问题求助

qiuqiuqiua
2天前

35 阅读

飞凌嵌入式ElfBoard-文件I/O的深入学习之存储映射I/O

jf_13411809
2天前

380 阅读

在移动电源应用中，电容的高容值和低ESR，哪个对抑制纹波更重要？

jf_90094650
2天前

653 阅读

【瑞萨RA6E2】+复现uart测试和shell移植

yinxiangxv
2天前

405 阅读

推荐专栏
更多

企业产品

资料

方案
更多

华秋（原“华强聚丰”）：

电子发烧友

华秋开发

华秋电路(原"华强PCB")

华秋商城(原"华强芯城")

华秋智造

My ElecFans

APP
网站地图

设计技术

可编程逻辑

电源/新能源

MEMS/传感技术

测量仪表

嵌入式技术

制造/封装

模拟技术

RF/无线

接口/总线/驱动

处理器/DSP

EDA/IC设计

存储技术

光电显示

EMC/EMI设计

连接器

行业应用

LEDs

汽车电子

音视频及家电

通信网络

医疗电子

人工智能

虚拟现实

可穿戴设备

机器人

安全设备/系统

军用/航空电子

移动通信

工业控制

便携设备

触控感测

物联网

智能电网

区块链

新科技

特色内容

专栏推荐

学院

设计资源

设计技术

电子百科

电子视频

元器件知识

工具箱

VIP会员

最新技术文章

产品地图

品牌地图

社区

小组

论坛

问答

评测试用

企业服务

产品

资料

文章

方案

企业

供应链服务

硬件开发

华秋电路

华秋商城

华秋智造

nextPCB

BOM配单

媒体服务

网站广告

在线研讨会

活动策划

新闻发布

新品发布

小测验

设计大赛

华秋

关于我们

投资关系

新闻动态

加入我们

联系我们

举报投诉

社交网络

微博

移动端

发烧友APP

硬声APP

WAP

联系我们

广告合作

王婉珠：wangwanzhu@elecfans.com

内容合作

黄晶晶：huangjingjing@elecfans.com

内容合作（海外）

张迎辉：mikezhang@elecfans.com

供应链服务 PCB/IC/PCBA

江良华：lanhu@huaqiu.com

投资合作

曾海银：zenghaiyin@huaqiu.com

社区合作

刘勇：liuyong@huaqiu.com

关注我们的微信

下载发烧友APP

电子发烧友观察

电子工程师社区

1-32层PCB打样·中小批量

元器件现货·全球代购·SmartBOM

SMT贴片·PCBA加工

PCB Manufacturer

华秋简介

企业动态

联系我们

企业文化

企业宣传片

加入我们

版权所有 © 湖南华秋数字科技有限公司

长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层（0731-88081133）
电子发烧友 （电路图） 湘公网安备43011202000918 工商网监湘ICP备2023018690号-1