0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

对话三位IEEE专家:如何理解SAM视觉大模型

IEEE电气电子工程师 来源:IEEE电气电子工程师 2023-08-23 16:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

正在流行的视觉AI大模型SAM究竟是一种什么样的技术,会形成什么样的产业影响?经济观察报就此采访三位IEEE(电气电子工程师学会)专家,解读了视觉大模型SAM技术、应用路线以及对原有产业的影响。

今年4月,Meta公布了一款名为SAM(Segment Anything Model)的技术,这是一款用于图像分割的AI大模型,会对图像进行观察、感知、思考、逻辑推理、得出结果,且操作极其简单,类似于ChatGPT用人类语言对话的方式给机器下命令。

IEEE高级会员、天津理工大学教授、AR/VR技术专家罗训对记者表示,SAM是视觉领域的通用大模型,很多报道中把它比喻成视觉领域的ChatG-PT,SAM和ChatGPT的支撑技术和应用场景都是不同的,但是在通用性这一点上,它们都是当前技术发展趋势的代表者。

SAM技术、应用路线和颠覆性

作为AI的一个重要分支,机器视觉的目标是让计算机模仿人类视觉系统,实现图像和视频的理解和处理。

IEEE数字化转型联合会策略与架构主席汪齐齐对记者表示,高效准确的图像分割结果,对于日常生活和商业场景,甚至科研领域都具有重大意义。正因为如此,其在计算机视觉领域一直是个重要的课题。SAM的图像分割功能,是机器视觉的核心任务之一。过去,机器视觉分割图像的过程需要大量图像标注、堆叠算法,消耗大量算力。如今,SAM更容易地实现了机器视觉的目标。

Meta将SAM大模型和背后数据集一并开源,相关的研究手稿也于今年4月5日发布在arXiv上(用于学术交流的预印本平台),作者有Alexander Kirillov,Eric Mintun等12人。

此后,SAM在开源社区Github上获得大量关注,一些华人学者又照此原理提出了相关的大模型GroundingDI-NO,用于物体检测,不久GitHub上有人再创新,将GroundingDINO和SAM结合,达到了对图像识别、检测、分割的效果。

汪齐齐表示,该模型在准确程度、效率上,达到了惊人的提升。尤其是SAM开源的SA-1B数据库,用巨量的图像以及更加巨量的Mask(这里译为图层遮罩),将有助于许多科研项目和商业化项目在高起点上快速更新迭代,产生更好的模型和更优化的数据。

Meta从AR、VR、内容创建等领域,介绍了SAM的应用场景。中国的专家看到了更广泛的应用场景。

罗训对记者表示,鉴于计算机视觉的广泛应用场景,SAM的发布对产业的影响也会是巨大的,会赋能更多的长尾创新者进入产业,并进一步丰富应用场景和商业模式。

汪齐齐表示,早前人工智能技术就能实现回答用户问题的功能,而Chat-GPT第一次让很多人产生了“生成的回复可以在接受的比例下用于日常、商用和科研”,并因此达到了在这个垂直领域前所未有的高度。目前SAM的分割结果,以及其公开的大量供公众使用的资源来看,SAM在其擅长的垂直领域也达到了相当可观的高度,并会从技术、数据以及对于这个领域的关注度等多方面帮助计算机视觉在短时间内产生大量突破,而计算机视觉,是一个非常重要的“广义AI生态”中的基础设施,该方面的突破将实现对数字化世界的理解和升级,带来质变的效率和价值提升。

IEEE会士、河海大学信息科学与工程学院院长韩光洁对记者表示,SAM将会在自动驾驶、安防控制、医学影像处理等应用领域改变业态布局,甚至引发技术革命。SAM作为一个基础模型,可为这些应用领域快速孵化出适用性更强的专用网络模型。

SAM的变革性可能会颠覆一批原有的AI技术优势。汪齐齐表示,视觉大模型会在相当多的领域抵消技术壁垒,这在任何一次产业技术升级中都多次出现,也是无法避免的。

罗训表示,通用大模型就相当于AI的能力开放平台,之前头部企业的AI能力优势,会因为通用大模型的兴起而被一定程度削弱。但是这些企业是否本身会变弱,取决于它们的转型。

罗训举例称,回顾移动计算在本世纪前十年的变化,iOS和安卓的能力开放平台在赋能长尾创新者方面起到了非常重要的作用,极大增加了移动计算产业规模。在移动计算领域,WindowsMobile和塞班的封闭平台最终因为缺乏竞争力而退出了市场。

汪齐齐表示,作为有核心技术储备和深入理解的企业,首先是需要拥抱大模型,尤其是应该感谢相对公开的大模型,将自己对于产业的理解和领先部分,在大模型的加持下快速升级,演化出更新的形态。同时,计算机视觉领域也一定会有大模型目前还不擅长的领域,仍然可以作为技术壁垒,并在这些方面继续深挖独有优势。

AIGC带来知识和技术的平权?

此前有科技企业表示,AIGC的本质是技术平权和知识平权,这在很大程度上将大厂与小厂拉到了同一起跑线上。

罗训就该观点对记者表示,技术和知识平权的说法并不是很准确,因为之前并没有系统性的歧视。AIGC带来的是“易得”,本质上是市场规模急剧扩大后的成本降低。AIGC会促进整个社会对算力和计算模式使用的转型升级,大规模提高AI使用者的生产效率,同时利好AI软硬件设施生态企业。过程中,巨头和大厂是技术进步的先期投入者,它们在其周期内获取回报也是合理的,因为它们付出了更高的成本,也承担了更大的风险。

汪齐齐认为,AIGC确实带来了一定的技术平权,但技术本身是有一个价值属性的。例如,曾经做网页可以带来不菲的收入,随着工具升级和模板的完善,一个漂亮网页制作难度数量级地下降,但是他带来的价值也产生数量级地下降。

同样,AIGC将一个需要大量技术和知识储备才能产生优质内容的时代,带入轻易产生的优质内容的时代,这会让原有定义的“优质内容”的平均价值急速下降。

汪齐齐表示,AIGC是否带来了知识平权仍然有待商榷。长期来看,AIGC可能会使人们更容易获取到真实有用的知识。但是今天,人们还处于“技术带来了前所未有的体量的知识,也同时让筛选这些知识的可用度达到了前所未有的高成本”。

汪齐齐表示,尽管AIGC可以产生大量的知识和内容,但其准确性和可信度是个挑战,相当部分AIGC是基于老的训练数据,“一本正经供应错误知识”的案例已经有很多。目前在大量、无法辨别真伪的数据和内容的情况下,是否真正达到了知识平权,是要打问号的。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SAM
    SAM
    +关注

    关注

    0

    文章

    118

    浏览量

    34491
  • ChatGPT
    +关注

    关注

    31

    文章

    1608

    浏览量

    10433
  • AIGC
    +关注

    关注

    1

    文章

    394

    浏览量

    3288
  • 大模型
    +关注

    关注

    2

    文章

    3863

    浏览量

    5297

原文标题:对话三位IEEE专家:如何理解SAM视觉大模型

文章出处:【微信号:IEEE_China,微信公众号:IEEE电气电子工程师】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    爱立信研究人员斩获IEEE无线通信领域权威奖项

    三位爱立信研究人员因在推动4G和5G无线通信发展方面的贡献,荣获了享有盛誉的电气电子工程师学会(IEEE)的表彰,高级专家Erik Dahlman、Stefan Parkvall和首席研究员
    的头像 发表于 05-16 09:37 397次阅读

    人工智能多模态与视觉模型开发实战 - 2026必会

    和训练,模型可以逐渐提升对图像的理解能力,实现对各种视觉任务的精准处理。 此外,视觉模型的发展还得益于大规模数据集和强大计算资源的支持。海
    发表于 04-15 16:06

    探索SAM4S微控制器家族:32MCU的卓越之选

    探索SAM4S微控制器家族:32MCU的卓越之选 在当今的电子设计领域,32微控制器(MCU)扮演着至关重要的角色。今天,我们将深入探讨Microchip的SAM4S微控制器家族,
    的头像 发表于 04-06 14:20 708次阅读

    电子工程师必备:SAM4S 32 MCU 深度解析

    电子工程师必备:SAM4S 32 MCU 深度解析 作为电子工程师,在设计项目时,选择一款合适的微控制器(MCU)至关重要。今天我们就来深入了解一下基于 ARM Cortex - M4 处理器
    的头像 发表于 04-06 14:20 780次阅读

    探索AT91SAM ARM-based Flash MCU SAM3N系列:高性价比32微控制器的卓越之选

    探索AT91SAM ARM-based Flash MCU SAM3N系列:高性价比32微控制器的卓越之选 在电子设计领域,选择一款合适的微控制器对于项目的成功至关重要。Atmel的SAM
    的头像 发表于 04-06 14:20 759次阅读

    探索AT91SAM SAM7SE512/256/32:高性能ARM微控制器的卓越之选

    : AT91SAM7SE256-AU-999.pdf 一、概述:智慧与性能的融合 Atmel的SAM7SE系列属于基于32ARM7™ RISC处理器和高速闪存的智能ARM微控制器
    的头像 发表于 04-06 11:05 910次阅读

    商汤科技NEO-unify如何打造原生视觉语言理解与生成

    当前,多模态模型普遍采用“视觉编码器(VE)用于理解,变分自编码器(VAE)用于生成”的组合式设计。这套范式虽行之有效,却也内在割裂了感知与创造,常面临模块协同与效率权衡的挑战。
    的头像 发表于 03-10 14:37 491次阅读
    商汤科技NEO-unify如何打造原生<b class='flag-5'>视觉</b>语言<b class='flag-5'>理解</b>与生成

    Atmel SAM3S系列32Flash微控制器深度剖析

    Atmel SAM3S系列32Flash微控制器深度剖析 在当今的电子世界中,高性能、低功耗的微控制器是众多电子设备的核心。Atmel的SAM3S系列32Flash微控制器,凭借其
    的头像 发表于 02-25 11:40 477次阅读

    SAM(通用图像分割基础模型)丨基于BM1684X模型部署指南

    前言SAM是Meta提出的一个分割一切的提示型模型,其在1100万张图像上训练了超过10亿个掩码,实现了强大的零样本泛化,突破了分割界限。本例程对SAM官方开源仓库的模型和算法进行移植
    的头像 发表于 01-12 16:17 581次阅读
    <b class='flag-5'>SAM</b>(通用图像分割基础<b class='flag-5'>模型</b>)丨基于BM1684X<b class='flag-5'>模型</b>部署指南

    云知声推出医疗领域专家模型“山海·知医大模型5.0”

    刚刚,云知声正式推出医疗领域专家级大模型全新力作——“山海・知医大模型5.0”。这一里程碑式的发布,标志着其医疗大模型完成了从“智能工具”到“临床协作者”的关键跨越,以更深刻的医学
    的头像 发表于 12-24 18:12 4706次阅读

    广和通发布端侧情感对话模型FiboEmo-LLM

    9月,广和通正式发布自主研发的端侧情感对话模型FiboEmo-LLM。该模型专注于情感计算与自然语言交互融合,致力于为AI玩具、智能陪伴设备等终端场景提供“情感理解-情感响应”一体化
    的头像 发表于 09-26 13:37 2115次阅读

    大规模专家并行模型在TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。Llama 4 和 Qwen3 等新发布的开源
    的头像 发表于 09-06 15:21 1555次阅读
    大规模<b class='flag-5'>专家</b>并行<b class='flag-5'>模型</b>在TensorRT-LLM的设计

    米尔RK3576部署端侧多模态多轮对话,6TOPS算力驱动30亿参数LLM

    通过硬件算力优化与软件栈协同,将视觉编码、语言推理、对话管理大核心能力封装为可落地的工程方案,而本文将聚焦其多轮对话的部署全流程,拆解从模型
    发表于 09-05 17:25

    格灵深瞳视觉基础模型Glint-MVT的发展脉络

    》主题演讲,从热点话题“世界模型”引入,介绍格灵深瞳自研视觉基础模型Glint-MVT的发展脉络和技术亮点,讲述视觉模型基座如何让AI
    的头像 发表于 09-05 17:13 1963次阅读
    格灵深瞳<b class='flag-5'>视觉</b>基础<b class='flag-5'>模型</b>Glint-MVT的发展脉络

    【「DeepSeek 核心技术揭秘」阅读体验】+混合专家

    :路由专家) 这种创新让AI的推理过程更接近人类思维,为解决复杂问题提供了新的思路。 共享专家宛如一知识渊博的通才,它始终参与模型的每一次运算,就像一个稳定的基石,为整个
    发表于 07-22 22:14