本周四,一些媒体首次报道了英伟达特供芯片的消息。报道称,这三款新产品是在 H100 GPU 的基础版....
CVer 发表于 11-13 16:44
•1979次阅读
不同领域的数据集包含各种数据类型和类别,如图像、视频、点云、时间序列等。每种数据类型可能需要不同的异....
CVer 发表于 11-13 16:25
•1751次阅读
尽管Vision Transformer(ViTs)和自监督学习(SSL)越来越受欢迎,但在大多数任....
CVer 发表于 11-13 15:41
•2045次阅读
深度学习的大模型时代已经来临,越来越多的大规模预训练模型在文本、视觉和多模态领域展示出杰出的生成和推....
CVer 发表于 11-08 16:20
•2524次阅读
在top-1中,CODEFUSION的性能与自回归模型相媲美,甚至在某些情况下表现更出色,尤其是在P....
CVer 发表于 11-01 16:23
•1684次阅读
相比于仅使用logits的蒸馏方法,同步使用模型中间层特征进行蒸馏的方法通常能取得更好的性能。然而在....
CVer 发表于 11-01 16:18
•2427次阅读
在初始阶段我们尝试了多个GAN-based从mask生成image的模型 (e.g., OASIS[....
CVer 发表于 11-01 16:09
•1669次阅读
现有方法往往是:用一个2D特征提取网络提取图像特征;用一个3D特征提取网络提取点云特征;然后根据pi....
CVer 发表于 10-29 17:14
•2151次阅读
2023年10月18日(北京时间),PyTorch 基金会正式宣布华为作为Premier会员加入基金....
CVer 发表于 10-22 16:33
•1947次阅读
效果怎么样呢?PaLI-3 在需要视觉定位文本理解和目标定位的任务上实现了新的 SOTA,包括 Re....
CVer 发表于 10-20 16:21
•3705次阅读
描述自动驾驶场景的条件是多维度的,包括:相机参数、物体框、路面地图以及对场景属性的语言描述(比如天气....
CVer 发表于 10-20 16:18
•1425次阅读
用一句话来总结这个工作就是——我们提出了一种即插即用的loss S3IM(随机结构相似性),可以近乎....
CVer 发表于 10-13 15:59
•1551次阅读
为了完成这两个任务,最为直觉,也是使用最多的方式就是:使用两个分支来完成这两件事,一个用来保留信息,....
CVer 发表于 10-10 17:18
•1706次阅读
我们提出了一种全新的自监督代理任务 DropPos,首先在 ViT 前向过程中屏蔽掉大量的 posi....
CVer 发表于 10-10 17:10
•1352次阅读
LanguageMPC首次将LLM应用于驾驶场景,并设计了将文字形式高层决策转化为可操作驾驶行为的方....
CVer 发表于 10-10 15:57
•2168次阅读
最后,可能大家从上面一段论述中也已经能感觉出来了,许多大佬们正把embodied AI作为一个最终的....
CVer 发表于 10-08 16:16
•1351次阅读
本文将空间条件中物体的形状、位置以及它们之间的关系等性质总结为视觉先验(Visual Prior),....
CVer 发表于 09-26 16:14
•1247次阅读
目前为止,OpenAI还没有对爆料中的传闻做出回应,但此前发布过多模态模型测试。CEO奥特曼在回应有....
CVer 发表于 09-20 17:34
•1971次阅读
进一步使用大核卷积使得 FastViT 精度得到提升,而且不怎么影响延时。在移动设备和 ImageN....
CVer 发表于 09-20 17:12
•1434次阅读
近来去噪扩散概率模型 Denoising diffusion probabilistic model....
CVer 发表于 09-19 16:02
•7817次阅读
基于MoCo[3]的框架,该文提出了用于文本识别的关系对比学习框架(RCLSTR)。如下图所示:1、....
CVer 发表于 09-14 17:21
•1374次阅读
如下图,SCConv 由两个单元组成,即空间重构单元 (SRU) 和信道重构单元 (CRU) ,两个....
CVer 发表于 09-14 17:05
•4703次阅读
最近,马毅教授团队探索了基于Transformer架构的模型中涌现分割能力是否仅仅是复杂的自监督学习....
CVer 发表于 09-14 15:58
•1165次阅读
一般性地,输入数据可以被表征为由序列维度(sequential)和通道维度(channel)组成的二....
CVer 发表于 09-12 16:40
•1022次阅读
事实上,这并非唯一案例。自pubpeer不完全统计,4个月以来就有十几篇含有「Regenerate ....
CVer 发表于 09-12 16:22
•1095次阅读
本文提出了新型的可控光照增强框架,主要采用了条件扩散模型来控制任意区域的任意亮度增强。通过亮度控制模....
CVer 发表于 09-11 17:20
•2137次阅读
使用主动学习进行遥感目标检测旨在通过从大型未标记数据集中选择信息量丰富的样本来降低标注成本,从而训练....
CVer 发表于 09-10 10:02
•1755次阅读
近期,火热的扩散模型也被广泛应用于多模态合成与编辑任务。例如效果惊人的DALLE-2和Imagen都....
CVer 发表于 09-05 16:06
•1660次阅读
现有的视频目标分割(VOS)数据集主要关注于短时视频,平均时长在3-5秒左右,并且视频中的物体大部分....
CVer 发表于 09-04 16:33
•2162次阅读
另外,采访中,Suleyman还爆出了很多自己在DeepMind和Inflection AI工作时的....
CVer 发表于 09-04 16:28
•1275次阅读