0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

注意力可以为视觉应用程序带来所需的上下文

醉清歌 来源:醉清歌 作者:醉清歌 2022-07-15 08:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

嵌入式视觉技术赋予机器视觉的力量,但今天的系统仍然无法理解图像的所有细微差别。一种用于自然语言处理的方法可以解决这个问题。

基于注意力的神经网络,尤其是变换器网络,彻底改变了自然语言处理 (NLP),让机器比以往任何时候都更好地理解语言。这种技术旨在通过为人工神经网络提供历史或背景的概念来模拟认知过程,与使用记忆的旧方法(如长短期记忆(LSTM)和循环记忆)相比,它产生了更复杂的人工智能代理。神经网络(RNN)。NLP 现在对输入的问题或提示有了更深层次的理解,并且可以创建很长的文本作为响应,这些文本通常与人类可能写的内容没有区别。

注意力当然可以应用于图像处理,尽管到目前为止它在计算机视觉中的使用受到限制。Perceive 首席执行官、人工智能专家 Steve Teig 在接受 EE Times 的独家采访时认为,注意力对于视觉应用程序将变得极为重要。

基于注意力的网络

注意机制查看输入序列,例如句子,并在序列中的每条数据(音节或单词)之后决定序列的其他部分是相关的。这类似于您阅读本文的方式:您的大脑在记忆中保留了某些单词,即使它专注于您正在阅读的每个新单词,因为您已经阅读的单词与您正在正确阅读的单词结合在一起现在提供有价值的上下文来帮助您理解文本。

泰格的例子是:

汽车在街上打滑,因为它很滑。

当你读完这句话时,你会明白“滑”可能是指街道而不是汽车,因为你已经记住了“街道”和“汽车”这两个词,你的经验告诉你, “slippery”和“street”比“slippery”和“car”之间的关联性强得多。神经网络可以尝试使用注意力机制来模仿这种能力。

该机制“获取最近过去的所有单词,并以某种方式将它们进行比较,以了解哪些单词可能与哪些其他单词相关,”Teig 说。“然后网络知道至少要关注这一点,因为“滑”更有可能与街道或汽车[相关]而不是[任何其他词]。

因此,注意力是一种专注于将呈现数据的序列减少到可能感兴趣的子集(可能仅是当前和以前的句子),然后分配每个单词可能相关程度的可能性的方法。

“[注意力]最终成为了一种利用时间的方式,以一种有点原则的方式,没有查看曾经发生的一切的开销,”泰格说。“这导致人​​们,直到最近,还认为注意力是一种可以管理时间的技巧。当然,它对语音处理、语言处理和其他时间事物产生了巨大的积极影响。最近,就在最近几个月,人们开始意识到,也许我们可以用注意力来做其他的信息聚焦。”

视觉转换器

迄今为止,为视觉设计的神经网络对注意力技术的使用非常有限。到目前为止,注意力已与卷积神经网络 (CNN) 一起应用或用于替换 CNN 的某些组件。但谷歌科学家最近发表的一篇论文(“一幅图像值得 16 × 16 字:大规模图像识别的变形金刚,” 2020 年 10 月)认为注意力的概念更广泛地适用于视觉。作者表明,纯 Transformer 网络是 NLP 中广泛使用的一种依赖于注意力机制的网络,当直接应用于图像块序列时,可以很好地执行图像分类任务。研究人员构建的变压器网络 Vision Transformer (ViT) 取得了优于 CNN 的结果,但训练所需的计算资源更少。

虽然很容易想象注意力如何应用于文本或口语对话,但将相同的概念应用于静止图像(而不是诸如视频之类的时间序列)就不那么明显了。事实上,注意力可以用在空间上,而不是这里的时间上下文中。音节或单词类似于图像的补丁。

Teig 的例子是一张狗的照片。显示狗耳朵的图像补丁可能会将自己识别为耳朵,即使是在毛茸茸的动物或四足动物身上发现的特定类型的耳朵。同样,尾巴补丁知道它也存在于毛茸茸的动物和四足动物身上。图像背景中的树块知道它有树枝和树叶。注意力机制询问耳贴和树贴有什么共同点。答案是,不多。然而,耳贴和尾贴确实有很多共同点。他们可以讨论这些共性,也许神经网络可以找到比“耳朵”或“尾巴”更大的概念。也许网络可以理解图像提供的一些上下文,以计算出耳朵加尾巴可能等于狗。

注意力可以通过了解图像块之间的相关性来推断上下文,从而帮助 AI 代理更好地理解图像中发生的事情。

“狗的耳朵和尾巴不是独立的这一事实使我们能够更简洁地描述图片中发生的事情:‘图片中有一只狗’,而不是‘旁边有一个棕色像素到一个灰色像素,旁边是……’,这是对图片中正在发生的事情的可怕描述,”Teig 说。“可以这么说,当系统用这些语义术语描述图像的各个部分时,这就是可能的。然后它可以将这些聚合成更有用的概念,用于下游推理。”

Teig 说,最终的目标是让神经网络理解图片是一只追逐飞盘的狗。

“祝你好运,用 1600 万色像素做到这一点,”他说。“这是一种尝试将其处理为‘有一只狗;有一个飞盘;狗在跑。‘ 现在我有机会理解狗可能在玩飞盘。”

更近一步

谷歌在视觉系统注意力方面的工作是朝着正确方向迈出的一步,Teig 说,“但我认为无论从理论和软件的角度,还是从硬件的角度来看,这里都有很大的进步空间,当一个不必用巨大的矩阵来打击数据,我非常怀疑你的大脑正在做什么。有很多东西可以在上下文中过滤掉,而无需将其与其他所有内容进行比较。”

虽然 Google 研究团队的解决方案比 CNN 更节省地使用计算资源,但 NLP 中通常实现注意力的方式使得像转换器这样的网络非常耗费资源。Transformer 经常构建巨大的 N × N 音节矩阵(用于文本)或像素(用于图像),需要大量的计算能力和内存来处理。

“那里的数据中心人员认为,‘太好了——我们有一个数据中心,所以一切对我们来说都像是钉子,’”Teig 说,这就是我们最终得到像 OpenAI 的 GPT-3 这样的 NLP 模型的方式,它的 1750 亿个参数。“当你先验地看到所有东西时,你可以说前面句子中的几乎所有内容都无关紧要,这有点荒谬。你不能提前做任何过滤吗?你真的要因为你有一个巨大的矩阵乘法器就粗暴地做这个吗……?这有任何意义吗?可能不是。”

科学界最近尝试减少注意力的计算开销,已将所需的操作数量从 N 2减少到 N√N。但这些尝试延续了“近乎普遍的信念——我不同意——即深度学习完全是关于矩阵和矩阵乘法,”Teig 说,并指出最先进的神经网络研究正在由那些能够获得大规模矩阵乘法加速器。

Teig 作为边缘 AI 加速器芯片公司 Perceive 的首席执行官的观点是,有更有效的方法来概念化神经网络计算。Perceive 已经在使用其中一些概念,Teig 认为类似的见解将适用于注意力机制和转换器网络。

“我认为关注的精神非常重要,”他说。“我认为机器本身将在未来几年内迅速发展……在软件、理论上和硬件方面来代表它。”

今天的大型变压器网络最终会安装到边缘设备的加速器上吗?在 Teig 看来,部分问题在于像 GPT-3 的 1750 亿个参数这样的网络——大约 1 万亿位信息(为了论证而假设 8 位参数)。

他说:“这就像我们在玩20个问题的游戏,只是我要问你一万亿个问题,才能理解你刚才说的话。”也许两万或两百万不能完成,但一万亿——滚出去!缺陷不是我们有一个20-MW的小芯片;缺陷在于,拥有1750亿个参数意味着你真的做错了什么。

根据泰格的说法,减少基于注意力的网络的参数数量,并有效地表示它们,可以为边缘设备带来基于注意力的嵌入式视觉。而这样的发展“并不遥远”。

Percept首席执行官Steve Teig将在嵌入式愿景峰会上发表两次演讲。在“直面偏见”中,他将讨论人工智能系统中歧视的来源,而在“TinyML不够大”中,他将挑战TinyML模型必须在准确性上妥协以及它们应该在CPUMCU上运行的观念。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 嵌入式
    +关注

    关注

    5209

    文章

    20645

    浏览量

    336906
  • 神经网络
    +关注

    关注

    42

    文章

    4842

    浏览量

    108152
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    安信可AI语音模组支持MCP模型上下文协议

    安信可 PalChat 系列(V1/V2)支持 MCP(模型上下文协议),工程师只需写几十行 C 代码,就能让 AI 模型直接控制硬件设备。V1 基于 Ai-WB2-12F,适合快速验证;V2
    的头像 发表于 04-15 09:54 441次阅读

    NVIDIA BlueField-4为推理上下文记忆存储平台提供强大支持

    随着代理式 AI 工作流将上下文窗口扩展到数百万个 token,并将模型规模扩展到数百万亿个参数,AI 原生企业正面临着越来越多的扩展挑战。这些系统目前依赖于智能体长期记忆来存储跨多轮、工具和会话持续保存的上下文,以便智能体能够基于先前的推理进行构建,而不是每次请求都从头
    的头像 发表于 02-02 10:29 1279次阅读
    NVIDIA BlueField-4为推理<b class='flag-5'>上下文</b>记忆存储平台提供强大支持

    如何基于P300个性化调控ADHD?

    oddball等认知任务时,P300振幅显著减少,这与注意力驱动的工作记忆更新和上下文比较过程异常相关。这种生理异常导致ADHD典型的行为缺陷,如反应时变异性增加、遗漏错误
    的头像 发表于 01-28 18:24 468次阅读
    如何基于P300个性化调控ADHD?

    奇异摩尔入选2025中国科创好公司半导体榜单

    随着国产大模型接连取得突破,AI产业的焦点正迅速转移。就在本月,DeepSeek正式发布V3.2和其高算版本Speciale,主力模型V3.2强化通用Agent与长上下文处理能力,而
    的头像 发表于 12-16 14:22 879次阅读

    自然场景下注意力如何耳周脑电可靠监测

    HUIYING自然听觉注意力概述听觉注意力是大脑在复杂听觉场景中选择相关信息、抑制无关信息的重要认知功能。传统研究多在实验室内使用笨重设备与人工刺激进行,限制了其生态效度。本研究采用语音包络跟踪、被
    的头像 发表于 12-05 18:03 4280次阅读
    自然场景下<b class='flag-5'>注意力</b>如何耳周脑电可靠监测

    大语言模型如何处理上下文窗口中的输入

    本博客介绍了五个基本概念,阐述了大语言模型如何处理上下文窗口中的输入。通过明确的例子和实践中获得的见解,本文介绍了多个与上下文窗口有关的基本概念,如词元化、序列长度和注意力等。
    的头像 发表于 12-03 13:48 758次阅读
    大语言模型如何处理<b class='flag-5'>上下文</b>窗口中的输入

    执行脱离上下文的威胁分析与风险评估

    作为WITTENSTEIN high integrity system(WHIS)公司的核心产品,SAFERTOS专为安全关键型嵌入式系统设计,使其成为确保联网车辆环境可靠防护的理想选择。在本文中,我们将讨论如何开展SAFERTOS安全分析,结合威胁评估与风险评估(TARA)结果,以及这些实践方法的具体实施,最终推动SAFERTOS增强型安全模块的开发。遵循行业标准,该方法为管理风险并保护互联车辆组件免受不断演变的威胁提供了一个结构化的框架。
    的头像 发表于 11-28 09:11 616次阅读
    执行脱离<b class='flag-5'>上下文</b>的威胁分析与风险评估

    请问riscv中断还需要软件保存上下文和恢复吗?

    以下是我拷贝的文档里的说明,这个中断处理还需要软件来写上下文保存和恢复,在使用ARM核的单片机都不需要考虑这些的,使用过的小伙伴能解答吗? 3.8. 进出中断的上下文保存和恢复 RISC-V架构
    发表于 10-20 09:56

    米尔RK3576部署端侧多模态多轮对话,6TOPS算驱动30亿参数LLM

    多轮交互机制程序会提供预设问题供用户选择(官方案例中也有输入序号,可以快速提问),同时支持用户自定义输入,核心交互逻辑通过以下机制实现: 上下文记忆 通过设置
    发表于 09-05 17:25

    【「DeepSeek 核心技术揭秘」阅读体验】+看视频+看书籍+国产开源大模型DeepSeekV3技术详解--1

    大小的潜在向量 (Latent Vector) c_t 中。同时,为了保证对近期上下文的精确感知,它依然会实时计算当前 token 的 K 和 V。 最终,注意力机制的计算将同时作用于“压缩的历史
    发表于 08-23 15:20

    HarmonyOSAI编程编辑区代码续写

    利用AI大模型分析并理解开发者在代码编辑区的上下文信息或自然语言描述信息,智能生成符合上下文的ArkTS或C++代码片段。 使用约束 建议在编辑区内已有较丰富上下文,能够使模型对编程场景有一定
    发表于 08-21 15:43

    HarmonyOS AI辅助编程工具(CodeGenie)智能问答

    DeepSeek-R1智能体,快速体验智能问答能力。 一、对话示例 在对话区域输入需要查询的问题,开始问答。示例如下: ArkTS如何实现多线程? 二、指定上下文问答 在对话框中输入@符号,或点击上方@Add
    发表于 08-15 11:07

    HarmonyOS AI辅助编程工具(CodeGenie)代码续写

    利用AI大模型分析并理解开发者在代码编辑区的上下文信息或自然语言描述信息,智能生成符合上下文的ArkTS或C++代码片段。 一、使用约束 建议在编辑区内已有较丰富上下文,能够使模型对编程场景有一定
    发表于 07-15 16:15

    鸿蒙NEXT-API19获取上下文,在class中和ability中获取上下文,API迁移示例-解决无法在EntryAbility中无法使用最新版

    摘要:随着鸿蒙系统API升级至16版本(modelVersion5.1.1),多项API已废弃。获取上下文需使用UIContext,具体方法包括:在组件中使用getUIContext(),在类中使
    的头像 发表于 07-01 10:57 894次阅读
    鸿蒙NEXT-API19获取<b class='flag-5'>上下文</b>,在class中和ability中获取<b class='flag-5'>上下文</b>,API迁移示例-解决无法在EntryAbility中无法使用最新版

    UIAbility组件基本用法说明

    用getContext接口获取当前页面关联的UIAbilityContext或ExtensionContext。 在UIAbility中可以通过this.context获取UIAbility实例的上下文信息
    发表于 05-16 06:32