0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

对话三位IEEE专家:如何理解SAM视觉大模型

IEEE电气电子工程师 来源:IEEE电气电子工程师 2023-08-23 16:32 次阅读

正在流行的视觉AI大模型SAM究竟是一种什么样的技术,会形成什么样的产业影响?经济观察报就此采访三位IEEE(电气电子工程师学会)专家,解读了视觉大模型SAM技术、应用路线以及对原有产业的影响。

今年4月,Meta公布了一款名为SAM(Segment Anything Model)的技术,这是一款用于图像分割的AI大模型,会对图像进行观察、感知、思考、逻辑推理、得出结果,且操作极其简单,类似于ChatGPT用人类语言对话的方式给机器下命令。

IEEE高级会员、天津理工大学教授、AR/VR技术专家罗训对记者表示,SAM是视觉领域的通用大模型,很多报道中把它比喻成视觉领域的ChatG-PT,SAM和ChatGPT的支撑技术和应用场景都是不同的,但是在通用性这一点上,它们都是当前技术发展趋势的代表者。

SAM技术、应用路线和颠覆性

作为AI的一个重要分支,机器视觉的目标是让计算机模仿人类视觉系统,实现图像和视频的理解和处理。

IEEE数字化转型联合会策略与架构主席汪齐齐对记者表示,高效准确的图像分割结果,对于日常生活和商业场景,甚至科研领域都具有重大意义。正因为如此,其在计算机视觉领域一直是个重要的课题。SAM的图像分割功能,是机器视觉的核心任务之一。过去,机器视觉分割图像的过程需要大量图像标注、堆叠算法,消耗大量算力。如今,SAM更容易地实现了机器视觉的目标。

Meta将SAM大模型和背后数据集一并开源,相关的研究手稿也于今年4月5日发布在arXiv上(用于学术交流的预印本平台),作者有Alexander Kirillov,Eric Mintun等12人。

此后,SAM在开源社区Github上获得大量关注,一些华人学者又照此原理提出了相关的大模型GroundingDI-NO,用于物体检测,不久GitHub上有人再创新,将GroundingDINO和SAM结合,达到了对图像识别、检测、分割的效果。

汪齐齐表示,该模型在准确程度、效率上,达到了惊人的提升。尤其是SAM开源的SA-1B数据库,用巨量的图像以及更加巨量的Mask(这里译为图层遮罩),将有助于许多科研项目和商业化项目在高起点上快速更新迭代,产生更好的模型和更优化的数据。

Meta从AR、VR、内容创建等领域,介绍了SAM的应用场景。中国的专家看到了更广泛的应用场景。

罗训对记者表示,鉴于计算机视觉的广泛应用场景,SAM的发布对产业的影响也会是巨大的,会赋能更多的长尾创新者进入产业,并进一步丰富应用场景和商业模式。

汪齐齐表示,早前人工智能技术就能实现回答用户问题的功能,而Chat-GPT第一次让很多人产生了“生成的回复可以在接受的比例下用于日常、商用和科研”,并因此达到了在这个垂直领域前所未有的高度。目前SAM的分割结果,以及其公开的大量供公众使用的资源来看,SAM在其擅长的垂直领域也达到了相当可观的高度,并会从技术、数据以及对于这个领域的关注度等多方面帮助计算机视觉在短时间内产生大量突破,而计算机视觉,是一个非常重要的“广义AI生态”中的基础设施,该方面的突破将实现对数字化世界的理解和升级,带来质变的效率和价值提升。

IEEE会士、河海大学信息科学与工程学院院长韩光洁对记者表示,SAM将会在自动驾驶、安防控制、医学影像处理等应用领域改变业态布局,甚至引发技术革命。SAM作为一个基础模型,可为这些应用领域快速孵化出适用性更强的专用网络模型。

SAM的变革性可能会颠覆一批原有的AI技术优势。汪齐齐表示,视觉大模型会在相当多的领域抵消技术壁垒,这在任何一次产业技术升级中都多次出现,也是无法避免的。

罗训表示,通用大模型就相当于AI的能力开放平台,之前头部企业的AI能力优势,会因为通用大模型的兴起而被一定程度削弱。但是这些企业是否本身会变弱,取决于它们的转型。

罗训举例称,回顾移动计算在本世纪前十年的变化,iOS和安卓的能力开放平台在赋能长尾创新者方面起到了非常重要的作用,极大增加了移动计算产业规模。在移动计算领域,WindowsMobile和塞班的封闭平台最终因为缺乏竞争力而退出了市场。

汪齐齐表示,作为有核心技术储备和深入理解的企业,首先是需要拥抱大模型,尤其是应该感谢相对公开的大模型,将自己对于产业的理解和领先部分,在大模型的加持下快速升级,演化出更新的形态。同时,计算机视觉领域也一定会有大模型目前还不擅长的领域,仍然可以作为技术壁垒,并在这些方面继续深挖独有优势。

AIGC带来知识和技术的平权?

此前有科技企业表示,AIGC的本质是技术平权和知识平权,这在很大程度上将大厂与小厂拉到了同一起跑线上。

罗训就该观点对记者表示,技术和知识平权的说法并不是很准确,因为之前并没有系统性的歧视。AIGC带来的是“易得”,本质上是市场规模急剧扩大后的成本降低。AIGC会促进整个社会对算力和计算模式使用的转型升级,大规模提高AI使用者的生产效率,同时利好AI软硬件设施生态企业。过程中,巨头和大厂是技术进步的先期投入者,它们在其周期内获取回报也是合理的,因为它们付出了更高的成本,也承担了更大的风险。

汪齐齐认为,AIGC确实带来了一定的技术平权,但技术本身是有一个价值属性的。例如,曾经做网页可以带来不菲的收入,随着工具升级和模板的完善,一个漂亮网页制作难度数量级地下降,但是他带来的价值也产生数量级地下降。

同样,AIGC将一个需要大量技术和知识储备才能产生优质内容的时代,带入轻易产生的优质内容的时代,这会让原有定义的“优质内容”的平均价值急速下降。

汪齐齐表示,AIGC是否带来了知识平权仍然有待商榷。长期来看,AIGC可能会使人们更容易获取到真实有用的知识。但是今天,人们还处于“技术带来了前所未有的体量的知识,也同时让筛选这些知识的可用度达到了前所未有的高成本”。

汪齐齐表示,尽管AIGC可以产生大量的知识和内容,但其准确性和可信度是个挑战,相当部分AIGC是基于老的训练数据,“一本正经供应错误知识”的案例已经有很多。目前在大量、无法辨别真伪的数据和内容的情况下,是否真正达到了知识平权,是要打问号的。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SAM
    SAM
    +关注

    关注

    0

    文章

    107

    浏览量

    33362
  • ChatGPT
    +关注

    关注

    27

    文章

    1410

    浏览量

    4769
  • AIGC
    +关注

    关注

    1

    文章

    261

    浏览量

    911
  • 大模型
    +关注

    关注

    2

    文章

    1536

    浏览量

    1135

原文标题:对话三位IEEE专家:如何理解SAM视觉大模型

文章出处:【微信号:IEEE_China,微信公众号:IEEE电气电子工程师】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一种新的分割模型Stable-SAM

    SAM、HQ-SAM、Stable-SAM在提供次优提示时的性能比较,Stable-SAM明显优于其他算法。这里也推荐工坊推出的新课程《如何将深度学习
    的头像 发表于 12-29 14:35 297次阅读
    一种新的分割<b class='flag-5'>模型</b>Stable-<b class='flag-5'>SAM</b>

    请问ADXL355 0X24 REGISTER中的ACT_Z ACT_Y ACT_X是干么用的,测量轴加速度值时需要将这三位都设置为1吗?

    请问ADXL3550X24 REGISTER中的ACT_ZACT_YACT_X是干么用的,测量轴加速度值时需要将这三位都设置为1吗?谢谢!
    发表于 12-28 07:21

    Holtek HT45F5Q 控制三位數七段顯示器 請益

    我用Holtek HT45F5Q 控制三位數七段顯示器,透過根PIN來控制 目前沒辦法個顯示不同的數字,想請教各位大大有沒有想法或是我的程式上有問題,謝謝
    发表于 12-18 15:48

    哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型

    最近,大型多模态(即视觉和语言)模型(LMM)在图像描述、视觉理解视觉推理等多种视觉任务上表现
    的头像 发表于 11-21 16:08 705次阅读
    哈工大提出Myriad:利用<b class='flag-5'>视觉</b><b class='flag-5'>专家</b>进行工业异常检测的大型多模态<b class='flag-5'>模型</b>

    模型国际标准启动,商汤共同发起成立IEEE模型标准工作组

    指导下和深圳市市场监督管理局支持下顺利召开,近300位产业专家参加大会。 会上,商汤科技与中国电子技术标准化研究院、 上海人工智能实验室、 华为云、百度、腾讯、蚂蚁、360、中兴通讯、美的、海信集团等 国内首批11家单位共同启动了IEEE
    的头像 发表于 11-07 20:50 511次阅读

    阿里云开源视觉语言大模型Qwen-VL ,支持图文双模态输入

    据介绍,Qwen-VL 是支持中英文等多种语言的视觉语言(Vision Language,VL)模型。相较于此前的 VL 模型,Qwen-VL 除了具备基本的图文识别、描述、问答及对话
    的头像 发表于 08-25 15:12 706次阅读
    阿里云开源<b class='flag-5'>视觉</b>语言大<b class='flag-5'>模型</b>Qwen-VL ,支持图文双模态输入

    如何在SAM时代下打造高效的高性能计算大模型训练平台

    Segment Anything Model (SAM)是Meta 公司最近推出的一个创新AI 模型,专门用于计算机视觉领域图像分割任务。借鉴ChatGPT 的学习范式,将预训练和特定任务结合
    的头像 发表于 08-21 04:02 1360次阅读
    如何在<b class='flag-5'>SAM</b>时代下打造高效的高性能计算大<b class='flag-5'>模型</b>训练平台

    对话文本数据的珍贵贡献:训练大模型赋予智能与情感理解

    在当今信息爆炸的时代,对话文本数据正成为塑造人工智能大模型的重要基石,为这些模型注入智能和情感理解的能力。这些数据不仅在培养模型的语言表达能
    的头像 发表于 08-14 10:09 389次阅读

    FastSAM模型可实现25FPS的实时推理

    在Github已经获得2.4K+次星标,在Twitter、PaperswithCode等平台也受到了广泛关注。 相关论文预印本现已发表。 以下内容由投稿者提供   视觉基础模型 SAM[1]在许多计算机
    的头像 发表于 07-03 17:06 699次阅读
    FastSAM<b class='flag-5'>模型</b>可实现25FPS的实时推理

    理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度

    在人类的日常交流中,经常会关注场景中不同的区域或物体,人们可以通过说话并 指向这些区域 来进行高效的信息交换。这种交互模式被称为 参考对话(Referential Dialogue) 。 如果
    的头像 发表于 07-02 20:55 252次阅读
    <b class='flag-5'>理解</b>指向,说出坐标,Shikra开启多模态大<b class='flag-5'>模型</b>参考<b class='flag-5'>对话</b>新维度

    构建一个移动端友好的SAM方案MobileSAM

    ,比FastSAM的处理速度快4倍。 SAM(Segment Anything Model)是一种提示词引导感兴趣目标分割的视觉基础模型。自提出之日起,SAM引爆了CV社区,也衍生出了
    的头像 发表于 06-30 10:59 739次阅读
    构建一个移动端友好的<b class='flag-5'>SAM</b>方案MobileSAM

    SAM 到底是什么

    的有这么强大吗?让我们一起通过本文了解详情! SAM 是一个由 Meta AI 实验室推出的强大人工智能图像分割应用,可以自动识别哪些图像像素属于一个对象,并且对图像中各个对象进行自动风格处理,可广泛用于分析科学图像、编辑照片等。 SAM 的完整应用由一个图片编码器
    的头像 发表于 06-12 10:46 2928次阅读
    <b class='flag-5'>SAM</b> 到底是什么

    第一篇综述!分割一切模型(SAM)的全面调研

    SAM 是一个提示型模型,其在 1100 万张图像上训练了超过 10 亿个掩码,实现了强大的零样本泛化。许多研究人员认为「这是 CV 的 GPT-3 时刻,因为 SAM 已经学会了物体是什么的一般
    的头像 发表于 05-24 14:36 631次阅读
    第一篇综述!分割一切<b class='flag-5'>模型</b>(<b class='flag-5'>SAM</b>)的全面调研

    SAM分割模型是什么?

    SAM是一类处理图像分割任务的通用模型。与以往只能处理某种特定类型图片的图像分割模型不同,SAM可以处理所有类型的图像。
    的头像 发表于 05-20 09:30 1573次阅读

    天合光能陈奕峰荣获IEEE Stuart R. Wenham青年专家

    常州2023年5月4日 /美通社/ -- 日前,国际光伏专家大会(IEEE PVSC)公布,天合光能技术助理副总裁、光伏科学与技术全国重点实验室副主任陈奕峰博士荣获2023年IEEE Stuart
    的头像 发表于 05-05 06:58 856次阅读