0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

对话三位IEEE专家:如何理解SAM视觉大模型

IEEE电气电子工程师 来源:IEEE电气电子工程师 2023-08-23 16:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

正在流行的视觉AI大模型SAM究竟是一种什么样的技术,会形成什么样的产业影响?经济观察报就此采访三位IEEE(电气电子工程师学会)专家,解读了视觉大模型SAM技术、应用路线以及对原有产业的影响。

今年4月,Meta公布了一款名为SAM(Segment Anything Model)的技术,这是一款用于图像分割的AI大模型,会对图像进行观察、感知、思考、逻辑推理、得出结果,且操作极其简单,类似于ChatGPT用人类语言对话的方式给机器下命令。

IEEE高级会员、天津理工大学教授、AR/VR技术专家罗训对记者表示,SAM是视觉领域的通用大模型,很多报道中把它比喻成视觉领域的ChatG-PT,SAM和ChatGPT的支撑技术和应用场景都是不同的,但是在通用性这一点上,它们都是当前技术发展趋势的代表者。

SAM技术、应用路线和颠覆性

作为AI的一个重要分支,机器视觉的目标是让计算机模仿人类视觉系统,实现图像和视频的理解和处理。

IEEE数字化转型联合会策略与架构主席汪齐齐对记者表示,高效准确的图像分割结果,对于日常生活和商业场景,甚至科研领域都具有重大意义。正因为如此,其在计算机视觉领域一直是个重要的课题。SAM的图像分割功能,是机器视觉的核心任务之一。过去,机器视觉分割图像的过程需要大量图像标注、堆叠算法,消耗大量算力。如今,SAM更容易地实现了机器视觉的目标。

Meta将SAM大模型和背后数据集一并开源,相关的研究手稿也于今年4月5日发布在arXiv上(用于学术交流的预印本平台),作者有Alexander Kirillov,Eric Mintun等12人。

此后,SAM在开源社区Github上获得大量关注,一些华人学者又照此原理提出了相关的大模型GroundingDI-NO,用于物体检测,不久GitHub上有人再创新,将GroundingDINO和SAM结合,达到了对图像识别、检测、分割的效果。

汪齐齐表示,该模型在准确程度、效率上,达到了惊人的提升。尤其是SAM开源的SA-1B数据库,用巨量的图像以及更加巨量的Mask(这里译为图层遮罩),将有助于许多科研项目和商业化项目在高起点上快速更新迭代,产生更好的模型和更优化的数据。

Meta从AR、VR、内容创建等领域,介绍了SAM的应用场景。中国的专家看到了更广泛的应用场景。

罗训对记者表示,鉴于计算机视觉的广泛应用场景,SAM的发布对产业的影响也会是巨大的,会赋能更多的长尾创新者进入产业,并进一步丰富应用场景和商业模式。

汪齐齐表示,早前人工智能技术就能实现回答用户问题的功能,而Chat-GPT第一次让很多人产生了“生成的回复可以在接受的比例下用于日常、商用和科研”,并因此达到了在这个垂直领域前所未有的高度。目前SAM的分割结果,以及其公开的大量供公众使用的资源来看,SAM在其擅长的垂直领域也达到了相当可观的高度,并会从技术、数据以及对于这个领域的关注度等多方面帮助计算机视觉在短时间内产生大量突破,而计算机视觉,是一个非常重要的“广义AI生态”中的基础设施,该方面的突破将实现对数字化世界的理解和升级,带来质变的效率和价值提升。

IEEE会士、河海大学信息科学与工程学院院长韩光洁对记者表示,SAM将会在自动驾驶、安防控制、医学影像处理等应用领域改变业态布局,甚至引发技术革命。SAM作为一个基础模型,可为这些应用领域快速孵化出适用性更强的专用网络模型。

SAM的变革性可能会颠覆一批原有的AI技术优势。汪齐齐表示,视觉大模型会在相当多的领域抵消技术壁垒,这在任何一次产业技术升级中都多次出现,也是无法避免的。

罗训表示,通用大模型就相当于AI的能力开放平台,之前头部企业的AI能力优势,会因为通用大模型的兴起而被一定程度削弱。但是这些企业是否本身会变弱,取决于它们的转型。

罗训举例称,回顾移动计算在本世纪前十年的变化,iOS和安卓的能力开放平台在赋能长尾创新者方面起到了非常重要的作用,极大增加了移动计算产业规模。在移动计算领域,WindowsMobile和塞班的封闭平台最终因为缺乏竞争力而退出了市场。

汪齐齐表示,作为有核心技术储备和深入理解的企业,首先是需要拥抱大模型,尤其是应该感谢相对公开的大模型,将自己对于产业的理解和领先部分,在大模型的加持下快速升级,演化出更新的形态。同时,计算机视觉领域也一定会有大模型目前还不擅长的领域,仍然可以作为技术壁垒,并在这些方面继续深挖独有优势。

AIGC带来知识和技术的平权?

此前有科技企业表示,AIGC的本质是技术平权和知识平权,这在很大程度上将大厂与小厂拉到了同一起跑线上。

罗训就该观点对记者表示,技术和知识平权的说法并不是很准确,因为之前并没有系统性的歧视。AIGC带来的是“易得”,本质上是市场规模急剧扩大后的成本降低。AIGC会促进整个社会对算力和计算模式使用的转型升级,大规模提高AI使用者的生产效率,同时利好AI软硬件设施生态企业。过程中,巨头和大厂是技术进步的先期投入者,它们在其周期内获取回报也是合理的,因为它们付出了更高的成本,也承担了更大的风险。

汪齐齐认为,AIGC确实带来了一定的技术平权,但技术本身是有一个价值属性的。例如,曾经做网页可以带来不菲的收入,随着工具升级和模板的完善,一个漂亮网页制作难度数量级地下降,但是他带来的价值也产生数量级地下降。

同样,AIGC将一个需要大量技术和知识储备才能产生优质内容的时代,带入轻易产生的优质内容的时代,这会让原有定义的“优质内容”的平均价值急速下降。

汪齐齐表示,AIGC是否带来了知识平权仍然有待商榷。长期来看,AIGC可能会使人们更容易获取到真实有用的知识。但是今天,人们还处于“技术带来了前所未有的体量的知识,也同时让筛选这些知识的可用度达到了前所未有的高成本”。

汪齐齐表示,尽管AIGC可以产生大量的知识和内容,但其准确性和可信度是个挑战,相当部分AIGC是基于老的训练数据,“一本正经供应错误知识”的案例已经有很多。目前在大量、无法辨别真伪的数据和内容的情况下,是否真正达到了知识平权,是要打问号的。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SAM
    SAM
    +关注

    关注

    0

    文章

    116

    浏览量

    34317
  • ChatGPT
    +关注

    关注

    31

    文章

    1596

    浏览量

    10073
  • AIGC
    +关注

    关注

    1

    文章

    391

    浏览量

    3151
  • 大模型
    +关注

    关注

    2

    文章

    3440

    浏览量

    4964

原文标题:对话三位IEEE专家:如何理解SAM视觉大模型

文章出处:【微信号:IEEE_China,微信公众号:IEEE电气电子工程师】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI、量子通信与JCAP:6G时代的“三位一体“革命

    100%的覆盖可靠性 然而,这些数字背后隐藏着更深层的挑战: 太空与地面的无缝连接 绝对安全的信息传输 厘米级的实时定位 要实现这些突破,仅靠单点技术创新已无法满足需求。AI、量子通信和联合通信与定位(JCAP)大技术的深度融合,正在构建6G的"三位一体"核心架构。
    的头像 发表于 11-07 11:11 276次阅读
    AI、量子通信与JCAP:6G时代的“<b class='flag-5'>三位</b>一体“革命

    广和通发布端侧情感对话模型FiboEmo-LLM

    9月,广和通正式发布自主研发的端侧情感对话模型FiboEmo-LLM。该模型专注于情感计算与自然语言交互融合,致力于为AI玩具、智能陪伴设备等终端场景提供“情感理解-情感响应”一体化
    的头像 发表于 09-26 13:37 1602次阅读

    大规模专家并行模型在TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。Llama 4 和 Qwen3 等新发布的开源
    的头像 发表于 09-06 15:21 916次阅读
    大规模<b class='flag-5'>专家</b>并行<b class='flag-5'>模型</b>在TensorRT-LLM的设计

    米尔RK3576部署端侧多模态多轮对话,6TOPS算力驱动30亿参数LLM

    通过硬件算力优化与软件栈协同,将视觉编码、语言推理、对话管理大核心能力封装为可落地的工程方案,而本文将聚焦其多轮对话的部署全流程,拆解从模型
    发表于 09-05 17:25

    格灵深瞳视觉基础模型Glint-MVT的发展脉络

    》主题演讲,从热点话题“世界模型”引入,介绍格灵深瞳自研视觉基础模型Glint-MVT的发展脉络和技术亮点,讲述视觉模型基座如何让AI
    的头像 发表于 09-05 17:13 1304次阅读
    格灵深瞳<b class='flag-5'>视觉</b>基础<b class='flag-5'>模型</b>Glint-MVT的发展脉络

    【「DeepSeek 核心技术揭秘」阅读体验】基于MOE混合专家模型的学习和思考-2

    时,它的权重就会增大,而当它的误差大于此加权平均值时,它的权重就会减小。所以,使用这种损失函数训练出来的模型,各专家网络之间是竞争关系,而不是合作关系。正是这种“竞争上岗”的模式,形成了动态加载的效果
    发表于 08-23 17:00

    【「DeepSeek 核心技术揭秘」阅读体验】+混合专家

    :路由专家) 这种创新让AI的推理过程更接近人类思维,为解决复杂问题提供了新的思路。 共享专家宛如一知识渊博的通才,它始终参与模型的每一次运算,就像一个稳定的基石,为整个
    发表于 07-22 22:14

    超声波T-SAM与C-SAM模式的区别

    本文介绍了超声波的T-SAM与C-SAM两种模式的区别。
    的头像 发表于 05-21 15:26 1178次阅读
    超声波T-<b class='flag-5'>SAM</b>与C-<b class='flag-5'>SAM</b>模式的区别

    基于MindSpeed MM玩转Qwen2.5VL多模态理解模型

    多模态理解模型是让AI像人类一样,通过整合多维度信息(如视觉、语言、听觉等),理解数据背后的语义、情感、逻辑或场景,从而完成推理、决策等任务。
    的头像 发表于 04-18 09:30 2669次阅读
    基于MindSpeed MM玩转Qwen2.5VL多模态<b class='flag-5'>理解</b><b class='flag-5'>模型</b>

    蔡司CIMT2025 | 新品天团第三位成员ZEISS ScanPort亮相 – 一键扫描,效率倍增!

    蔡司CIMT2025 | 新品天团第三位成员ZEISS ScanPort亮相 – 一键扫描,效率倍增!     蔡司新品组团出道   您是否正在寻找一款 移动灵活的 自动化维光学扫描系统 为您提
    发表于 04-11 15:27 389次阅读
    蔡司CIMT2025 | 新品天团第<b class='flag-5'>三位</b>成员ZEISS ScanPort亮相 – 一键扫描,效率倍增!

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的多模态人工智能模型,能够理解
    的头像 发表于 03-17 15:32 7577次阅读
    ​VLM(<b class='flag-5'>视觉</b>语言<b class='flag-5'>模型</b>)​详细解析

    RFID技术三位一体开启智能资产管理新时代

    三位一体的RFID解决方案将RFID电子标签、手持机和读写器有机结合,形成完整的资产管理闭环。RFID电子标签作为数据载体,手持机提供移动采集能力,固定读写器实现自动化监控,者协同工作,构建起智能化的资产管理网络。
    的头像 发表于 02-21 11:29 593次阅读
    RFID技术<b class='flag-5'>三位</b>一体开启智能资产管理新时代

    一文详解视觉语言模型

    视觉语言模型(VLM)是一种多模态、生成式 AI 模型,能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 3241次阅读
    一文详解<b class='flag-5'>视觉</b>语言<b class='flag-5'>模型</b>

    【「大模型启示录」阅读体验】如何在客服领域应用大模型

    训练模型如BERT、GPT等。这些模型理解自然语言、生成文本、处理对话等方面具有不同的能力。因此,在选择模型时,需要了解每个
    发表于 12-17 16:53

    NaVILA:加州大学与英伟达联合发布新型视觉语言模型

    (VLM)是一种具备多模态生成能力的先进AI模型。它能够智能地处理文本、图像以及视频等多种提示,并通过复杂的推理过程,实现对这些信息的准确理解和应用。NaVILA正是基于这一原理,通过将大型语言模型(LLM)与
    的头像 发表于 12-13 10:51 959次阅读