0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

计算机视觉走向何方?参会ICCV的一些感想

CVer 来源:Architistics 2023-10-08 16:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

ICCV结束了。对我来说,这次的highlight就是第一天下午的"Quo vadis, computer vision“ workshop。“Quo vadis"是拉丁语,意思是“我们去向何方“。

四年前的CVPR,也有过一场类似的workshop(Computer Vision After 5 Years),今年这次workshop,主办方也让四年前也在的大佬们回顾了自己当年的predictions,看看谁是大预言家(spoiler: Jitendra Malik)。这场 workshop是我这几年来参加的各种会议里最有意思的。可惜因为听的太投入,并没有很多的图片记录,现在我意识到似乎主办方并不会上传slides。所以这篇文章里我就简单谈谈我自己的一些感想,而不是记录这个会议。

Ignorance or faith on LLM?

今年最火的莫过于LLM。LLM的成功刺激了很多相关的vision research。然而许多的vision-language的研究其实都是基于一种对LLM的faith,而并没有在深入思考这一切的合理性。David Forsyth问道:why would anyone believe that:

Visual knowledge is the same as linguistic knowledge

You can describe the world of an image properly in words

LLMs can do vision (anything)? if you ask nicely.

深入来看,这其实是一个关于vision和language区别的问题。但其实在我看来这些问题都很奇怪,可能因为我自己也觉得这些想法都很absurd。对我来说,更有意思的问题可能是:vision systems的什么knowledge是LLM做不了的,我们又该怎么做?在这里提一个idea,不知道未来有没有机会去好好做:我们有没有可能对稠密的vision空间进行一个approximate decomposition,分解成几个子空间的积?(其中一个子空间就可以是离散的language空间)

Data over algorithms

这个主题是我非常认同的。四年前,我写过一篇文章(Andre:思考无标注数据的可用极限),提出的也是我们要重视数据的研究,而不是算法的研究。今天依然适用。Alyosha Efros这次也再次强调了这个方向的本质性。

需要解释的是,什么是"data research"。并不是说直接去做数据集才是data research,而是说从data层面开始思考模型的有效性,learning process,generalization ability,等等。从这个角度讲,从data中学习知识 (self-supervised learning)是data research,研究如何克服data shift的影响(OOD, open-world)当然也是data research,这里不再赘述了。

Video与视觉大模型

这个主题是今年开始进入我的视野的。年初随着stable diffusion, segment anything model的出现,我们不少人开始思考视觉大模型该是什么形态,我与组里不少同学聊天后的感受就是要做video。在五月份的ICLR时,我与Ben Poole还有3DGP的作者也交流了不少(顺带表示ICLR的参会体验比ICCV好太多了),感受就是现在3D问题大概就是两个思路:1. 希望随着depth camera的引入,会有更多海量的3D data,直接训出3D大模型;2. 希望video大模型直接绕开explicit 3D modeling的需求,建成vision大模型。这次ICCV另一个MMFM上,Vincent Sitzman也提出了一个类似的思路,但是他直接把video和3d modeling结合了起来(然而我并没有特别跟上他讲的东西,希望之后talk能有slides让我再学习学习)。

讲了上面这么多,我就是想说video很可能是我们走向视觉大模型的路。这次quo vadis workshop上,Jitendra的分享主要也是指出video的重要性。他指出:video有两个用处:

Exteroception:建立对外部世界的认识。We build mental models of behavior (physical, social ...) and use them to interpret, predict, and control

Proprioception:建立对自己的认识。Helps produce an episodic memory situated in space and time, and guides action in a context-specific way。

他还给出了一个对video的思考框架,短video对应了movement/physical action,长video对应了goal/intention,而一个完整的action就是movement + goal。

当然,这些都是比较高屋建瓴的观点了。但对于我们这些正在地上爬的人当然还是有好处的。(另外,Jitendra还认为token-based LLM可能不是最终的模型,因为它不能很好地capture 4D world,同时complexity也太高)。

Embodied AI?

最后,可能大家从上面一段论述中也已经能感觉出来了,许多大佬们正把embodied AI作为一个最终的目标。Antonio Torralba给了一个很有意思的talk,说我们是时候要返璞归真,从focus on performance on benchmarks回到"the original goal"。对他来说,这个goal就是embodied AI。有意思的是, Antonio提出的设想是 small network, big sensing,他称作embodied perception。他举了个例子:人光光味蕾上的传感器就比我们现在最先进的机器人身上全部的传感器要多。然而就在第二天的BRAVO workshop上,Wayve的Jamie Shotton给出了完全相反的框架:lightweight sensors + big model。考虑到传感器的价格,Jamie的想法可能现在这个时候是更合适的。不过也许最终Antonio的想法才最make sense。

cfffe6da-65af-11ee-939d-92fbcf53809c.jpg

Antonio的小模型,大感知

d0102ffe-65af-11ee-939d-92fbcf53809c.jpg

Jamie的大模型,小感知

闲话就说到这里了。这次ICCV还是有不少有意思的talks,希望之后能有公开的videos/slides。最后,祝愿各位同仁们都能继续做自己感兴趣的方向,做出令自己满意的工作!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    9

    文章

    1714

    浏览量

    47464
  • 数据集
    +关注

    关注

    4

    文章

    1232

    浏览量

    26056
  • LLM
    LLM
    +关注

    关注

    1

    文章

    341

    浏览量

    1260

原文标题:计算机视觉走向何方?参会ICCV的一些感想

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用代理式AI激活传统计算机视觉系统的三种方法

    当前的计算机视觉系统擅长于识别物理空间与流程中的事件,却难以诠释场景细节及其意义,也无法推理后续可能发生的情况。
    的头像 发表于 12-01 09:44 364次阅读

    STM32计算机视觉开发套件:B-CAMS-IMX摄像头模块技术解析

    STMicroelectronics用于 STM32开发板的B-CAMS-IMX摄像头模块提供强大的硬件集,可处理多种计算机视觉场景和用例。该模块具有高分辨率500万像素IMX335LQN
    的头像 发表于 10-20 09:46 768次阅读
    STM32<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>开发套件:B-CAMS-IMX摄像头模块技术解析

    易控智驾荣获计算机视觉顶会CVPR 2025认可

    近日,2025年国际计算机视觉与模式识别顶级会议(IEEE/CVF Conference on Computer Vision and Pattern Recognition,CVPR 2025)在美国田纳西州纳什维尔召开。
    的头像 发表于 07-29 16:54 997次阅读

    自动化计算机经过加固后有什么好处?

    让我们讨论下部署坚固的自动化计算机一些好处。1.温度范围宽自动化计算机经过工程设计,配备了支持宽温度范围的组件,使自动化计算解决方案能够
    的头像 发表于 07-21 16:44 433次阅读
    自动化<b class='flag-5'>计算机</b>经过加固后有什么好处?

    自动化计算机的功能与用途

    工业自动化是指利用自动化计算机来控制工业环境中的流程、机器人和机械,以制造产品或其部件。工业自动化的目的是提高生产率、增加灵活性,并提升制造过程的质量。工业自动化在汽车制造中体现得最为明显,其中许多
    的头像 发表于 07-15 16:32 539次阅读
    自动化<b class='flag-5'>计算机</b>的功能与用途

    工业计算机与商用计算机的区别有哪些

    工业计算机种专为工厂和工业环境设计的计算系统,具有高可靠性和稳定性,能够应对恶劣环境下的自动化、制造和机器人操作。其特点包括无风扇散热技术、无电缆连接和防尘防水设计,使其在各种工业自动化场景中
    的头像 发表于 07-10 16:36 530次阅读
    工业<b class='flag-5'>计算机</b>与商用<b class='flag-5'>计算机</b>的区别有哪些

    格灵深瞳六篇论文入选ICCV 2025

    近日,国际顶级会议ICCV 2025(计算机视觉国际大会)公布论文录用结果,格灵深瞳团队共有6篇论文入选。
    的头像 发表于 07-07 18:23 1315次阅读

    Nullmax端到端自动驾驶最新研究成果入选ICCV 2025

    近日,国际计算机视觉大会 ICCV 2025 正式公布论文录用结果,Nullmax 感知团队在端到端自动驾驶方向的最新研究成果《HiP-AD: Hierarchical
    的头像 发表于 07-05 15:40 1574次阅读
    Nullmax端到端自动驾驶最新研究成果入选<b class='flag-5'>ICCV</b> 2025

    理想汽车八篇论文入选ICCV 2025

    近日,ICCV 2025(国际计算机视觉大会)公布论文录用结果,理想汽车共有8篇论文入选,其中5篇来自自动驾驶团队,3篇来自基座模型团队。ICCV作为
    的头像 发表于 07-03 13:58 850次阅读

    利用边缘计算和工业计算机实现智能视频分析

    IVA的好处、实际部署应用程序以及工业计算机如何实现这些解决方案。、什么是智能视频分析(IVA)?智能视频分析(IVA)集成了复杂的计算机视觉,通常与卷积神经网
    的头像 发表于 05-16 14:37 647次阅读
    利用边缘<b class='flag-5'>计算</b>和工业<b class='flag-5'>计算机</b>实现智能视频分析

    文带你了解工业计算机尺寸

    项艰巨的任务。本博客将指导您了解关键的工业计算机尺寸、使用案例。关键工业计算机外形要素及其使用案例、工业微型PC尺寸范围:宽度:100毫米-180毫米深度:10
    的头像 发表于 04-24 13:35 802次阅读
    <b class='flag-5'>一</b>文带你了解工业<b class='flag-5'>计算机</b>尺寸

    计算机视觉专业实训教学 如何更高效开展?

    现在很多高校都采用实训教学,尤其是理科类院校,理论结合实践才是学习的最好方法。在计算机图像处理专业,需要通过大量的应用实验来进行算法的验证提升,这个过程需要AI图像处理板、相机、算法等共同参与。一些
    的头像 发表于 04-08 17:50 520次阅读
    <b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>专业实训教学 如何更高效开展?

    Arm KleidiCV与OpenCV集成助力移动端计算机视觉性能优化

    生成式及多模态人工智能 (AI) 工作负载的广泛增长,推动了对计算机视觉 (CV) 技术日益高涨的需求。此类技术能够解释并分析源自现实世界的视觉信息,并可应用于人脸识别、照片分类、滤镜处理及增强现实
    的头像 发表于 02-24 10:15 892次阅读

    AR和VR中的计算机视觉

    ):计算机视觉引领混合现实体验增强现实(AR)和虚拟现实(VR)正在彻底改变我们与外部世界的互动方式。即便是在引人入胜的沉浸式
    的头像 发表于 02-08 14:29 2171次阅读
    AR和VR中的<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>

    云端超级计算机使用教程

    云端超级计算机种基于云计算的高性能计算服务,它将大量计算资源和存储资源集中在起,通过网络向
    的头像 发表于 12-17 10:19 984次阅读