0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

注意力可以为视觉应用程序带来所需的上下文

醉清歌 来源:醉清歌 作者:醉清歌 2022-07-15 08:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

嵌入式视觉技术赋予机器视觉的力量,但今天的系统仍然无法理解图像的所有细微差别。一种用于自然语言处理的方法可以解决这个问题。

基于注意力的神经网络,尤其是变换器网络,彻底改变了自然语言处理 (NLP),让机器比以往任何时候都更好地理解语言。这种技术旨在通过为人工神经网络提供历史或背景的概念来模拟认知过程,与使用记忆的旧方法(如长短期记忆(LSTM)和循环记忆)相比,它产生了更复杂的人工智能代理。神经网络(RNN)。NLP 现在对输入的问题或提示有了更深层次的理解,并且可以创建很长的文本作为响应,这些文本通常与人类可能写的内容没有区别。

注意力当然可以应用于图像处理,尽管到目前为止它在计算机视觉中的使用受到限制。Perceive 首席执行官、人工智能专家 Steve Teig 在接受 EE Times 的独家采访时认为,注意力对于视觉应用程序将变得极为重要。

基于注意力的网络

注意机制查看输入序列,例如句子,并在序列中的每条数据(音节或单词)之后决定序列的其他部分是相关的。这类似于您阅读本文的方式:您的大脑在记忆中保留了某些单词,即使它专注于您正在阅读的每个新单词,因为您已经阅读的单词与您正在正确阅读的单词结合在一起现在提供有价值的上下文来帮助您理解文本。

泰格的例子是:

汽车在街上打滑,因为它很滑。

当你读完这句话时,你会明白“滑”可能是指街道而不是汽车,因为你已经记住了“街道”和“汽车”这两个词,你的经验告诉你, “slippery”和“street”比“slippery”和“car”之间的关联性强得多。神经网络可以尝试使用注意力机制来模仿这种能力。

该机制“获取最近过去的所有单词,并以某种方式将它们进行比较,以了解哪些单词可能与哪些其他单词相关,”Teig 说。“然后网络知道至少要关注这一点,因为“滑”更有可能与街道或汽车[相关]而不是[任何其他词]。

因此,注意力是一种专注于将呈现数据的序列减少到可能感兴趣的子集(可能仅是当前和以前的句子),然后分配每个单词可能相关程度的可能性的方法。

“[注意力]最终成为了一种利用时间的方式,以一种有点原则的方式,没有查看曾经发生的一切的开销,”泰格说。“这导致人​​们,直到最近,还认为注意力是一种可以管理时间的技巧。当然,它对语音处理、语言处理和其他时间事物产生了巨大的积极影响。最近,就在最近几个月,人们开始意识到,也许我们可以用注意力来做其他的信息聚焦。”

视觉转换器

迄今为止,为视觉设计的神经网络对注意力技术的使用非常有限。到目前为止,注意力已与卷积神经网络 (CNN) 一起应用或用于替换 CNN 的某些组件。但谷歌科学家最近发表的一篇论文(“一幅图像值得 16 × 16 字:大规模图像识别的变形金刚,” 2020 年 10 月)认为注意力的概念更广泛地适用于视觉。作者表明,纯 Transformer 网络是 NLP 中广泛使用的一种依赖于注意力机制的网络,当直接应用于图像块序列时,可以很好地执行图像分类任务。研究人员构建的变压器网络 Vision Transformer (ViT) 取得了优于 CNN 的结果,但训练所需的计算资源更少。

虽然很容易想象注意力如何应用于文本或口语对话,但将相同的概念应用于静止图像(而不是诸如视频之类的时间序列)就不那么明显了。事实上,注意力可以用在空间上,而不是这里的时间上下文中。音节或单词类似于图像的补丁。

Teig 的例子是一张狗的照片。显示狗耳朵的图像补丁可能会将自己识别为耳朵,即使是在毛茸茸的动物或四足动物身上发现的特定类型的耳朵。同样,尾巴补丁知道它也存在于毛茸茸的动物和四足动物身上。图像背景中的树块知道它有树枝和树叶。注意力机制询问耳贴和树贴有什么共同点。答案是,不多。然而,耳贴和尾贴确实有很多共同点。他们可以讨论这些共性,也许神经网络可以找到比“耳朵”或“尾巴”更大的概念。也许网络可以理解图像提供的一些上下文,以计算出耳朵加尾巴可能等于狗。

注意力可以通过了解图像块之间的相关性来推断上下文,从而帮助 AI 代理更好地理解图像中发生的事情。

“狗的耳朵和尾巴不是独立的这一事实使我们能够更简洁地描述图片中发生的事情:‘图片中有一只狗’,而不是‘旁边有一个棕色像素到一个灰色像素,旁边是……’,这是对图片中正在发生的事情的可怕描述,”Teig 说。“可以这么说,当系统用这些语义术语描述图像的各个部分时,这就是可能的。然后它可以将这些聚合成更有用的概念,用于下游推理。”

Teig 说,最终的目标是让神经网络理解图片是一只追逐飞盘的狗。

“祝你好运,用 1600 万色像素做到这一点,”他说。“这是一种尝试将其处理为‘有一只狗;有一个飞盘;狗在跑。‘ 现在我有机会理解狗可能在玩飞盘。”

更近一步

谷歌在视觉系统注意力方面的工作是朝着正确方向迈出的一步,Teig 说,“但我认为无论从理论和软件的角度,还是从硬件的角度来看,这里都有很大的进步空间,当一个不必用巨大的矩阵来打击数据,我非常怀疑你的大脑正在做什么。有很多东西可以在上下文中过滤掉,而无需将其与其他所有内容进行比较。”

虽然 Google 研究团队的解决方案比 CNN 更节省地使用计算资源,但 NLP 中通常实现注意力的方式使得像转换器这样的网络非常耗费资源。Transformer 经常构建巨大的 N × N 音节矩阵(用于文本)或像素(用于图像),需要大量的计算能力和内存来处理。

“那里的数据中心人员认为,‘太好了——我们有一个数据中心,所以一切对我们来说都像是钉子,’”Teig 说,这就是我们最终得到像 OpenAI 的 GPT-3 这样的 NLP 模型的方式,它的 1750 亿个参数。“当你先验地看到所有东西时,你可以说前面句子中的几乎所有内容都无关紧要,这有点荒谬。你不能提前做任何过滤吗?你真的要因为你有一个巨大的矩阵乘法器就粗暴地做这个吗……?这有任何意义吗?可能不是。”

科学界最近尝试减少注意力的计算开销,已将所需的操作数量从 N 2减少到 N√N。但这些尝试延续了“近乎普遍的信念——我不同意——即深度学习完全是关于矩阵和矩阵乘法,”Teig 说,并指出最先进的神经网络研究正在由那些能够获得大规模矩阵乘法加速器。

Teig 作为边缘 AI 加速器芯片公司 Perceive 的首席执行官的观点是,有更有效的方法来概念化神经网络计算。Perceive 已经在使用其中一些概念,Teig 认为类似的见解将适用于注意力机制和转换器网络。

“我认为关注的精神非常重要,”他说。“我认为机器本身将在未来几年内迅速发展……在软件、理论上和硬件方面来代表它。”

今天的大型变压器网络最终会安装到边缘设备的加速器上吗?在 Teig 看来,部分问题在于像 GPT-3 的 1750 亿个参数这样的网络——大约 1 万亿位信息(为了论证而假设 8 位参数)。

他说:“这就像我们在玩20个问题的游戏,只是我要问你一万亿个问题,才能理解你刚才说的话。”也许两万或两百万不能完成,但一万亿——滚出去!缺陷不是我们有一个20-MW的小芯片;缺陷在于,拥有1750亿个参数意味着你真的做错了什么。

根据泰格的说法,减少基于注意力的网络的参数数量,并有效地表示它们,可以为边缘设备带来基于注意力的嵌入式视觉。而这样的发展“并不遥远”。

Percept首席执行官Steve Teig将在嵌入式愿景峰会上发表两次演讲。在“直面偏见”中,他将讨论人工智能系统中歧视的来源,而在“TinyML不够大”中,他将挑战TinyML模型必须在准确性上妥协以及它们应该在CPUMCU上运行的观念。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 嵌入式
    +关注

    关注

    5186

    文章

    20164

    浏览量

    329035
  • 神经网络
    +关注

    关注

    42

    文章

    4829

    浏览量

    106824
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自然场景下注意力如何耳周脑电可靠监测

    HUIYING自然听觉注意力概述听觉注意力是大脑在复杂听觉场景中选择相关信息、抑制无关信息的重要认知功能。传统研究多在实验室内使用笨重设备与人工刺激进行,限制了其生态效度。本研究采用语音包络跟踪、被
    的头像 发表于 12-05 18:03 363次阅读
    自然场景下<b class='flag-5'>注意力</b>如何耳周脑电可靠监测

    大语言模型如何处理上下文窗口中的输入

    本博客介绍了五个基本概念,阐述了大语言模型如何处理上下文窗口中的输入。通过明确的例子和实践中获得的见解,本文介绍了多个与上下文窗口有关的基本概念,如词元化、序列长度和注意力等。
    的头像 发表于 12-03 13:48 223次阅读
    大语言模型如何处理<b class='flag-5'>上下文</b>窗口中的输入

    请问riscv中断还需要软件保存上下文和恢复吗?

    以下是我拷贝的文档里的说明,这个中断处理还需要软件来写上下文保存和恢复,在使用ARM核的单片机都不需要考虑这些的,使用过的小伙伴能解答吗? 3.8. 进出中断的上下文保存和恢复 RISC-V架构
    发表于 10-20 09:56

    米尔RK3576部署端侧多模态多轮对话,6TOPS算驱动30亿参数LLM

    多轮交互机制程序会提供预设问题供用户选择(官方案例中也有输入序号,可以快速提问),同时支持用户自定义输入,核心交互逻辑通过以下机制实现: 上下文记忆 通过设置
    发表于 09-05 17:25

    【「DeepSeek 核心技术揭秘」阅读体验】+看视频+看书籍+国产开源大模型DeepSeekV3技术详解--1

    大小的潜在向量 (Latent Vector) c_t 中。同时,为了保证对近期上下文的精确感知,它依然会实时计算当前 token 的 K 和 V。 最终,注意力机制的计算将同时作用于“压缩的历史
    发表于 08-23 15:20

    鸿蒙NEXT-API19获取上下文,在class中和ability中获取上下文,API迁移示例-解决无法在EntryAbility中无法使用最新版

    摘要:随着鸿蒙系统API升级至16版本(modelVersion5.1.1),多项API已废弃。获取上下文需使用UIContext,具体方法包括:在组件中使用getUIContext(),在类中使
    的头像 发表于 07-01 10:57 608次阅读
    鸿蒙NEXT-API19获取<b class='flag-5'>上下文</b>,在class中和ability中获取<b class='flag-5'>上下文</b>,API迁移示例-解决无法在EntryAbility中无法使用最新版

    UIAbility组件基本用法说明

    用getContext接口获取当前页面关联的UIAbilityContext或ExtensionContext。 在UIAbility中可以通过this.context获取UIAbility实例的上下文信息
    发表于 05-16 06:32

    经颅电刺激适应症之tDCS治疗注意力缺陷ADHD

    ADHD是常见神经行为障碍,症状包括注意力不集中、多动和冲动,儿童和青少年患病率为5%-7.2%,成人在1%-10%,男孩多于女孩,成年后部分症状会持续,引发多种并发症,给个人、家庭和社会带来
    的头像 发表于 04-22 19:49 143次阅读
    经颅电刺激适应症之tDCS治疗<b class='flag-5'>注意力</b>缺陷ADHD

    LPCXpresso54S018在位置0xBF30B670访问后无法访问调试端口,怎么解决?

    我使用的是 SDK 版本 2.15 并打开 freertos_hello SDK 演示应用程序可以正常构建,但下载到 Flash 会打印一条错误消息,指出: 15:Read Memory 中
    发表于 03-31 08:18

    S32K在AUTOSAR中使用CAT1 ISR,是否需要执行上下文切换?

    如果我们在 AUTOSAR 中使用 CAT1 ISR,是否需要执行上下文切换?另外,是否需要返回指令才能跳回到作系统?您有没有带有 CAT1 ISR 的 S32K3x4 微控制器的示例?
    发表于 03-27 07:34

    DeepSeek推出NSA机制,加速长上下文训练与推理

    近日,DeepSeek公司宣布推出一种全新的稀疏注意力机制——NSA(Native Sparse Attention)。据DeepSeek介绍,NSA旨在与现代硬件实现高度一致,并且具备本机可训练
    的头像 发表于 02-19 14:01 928次阅读

    DLP471TP USB无法连接,无法编程FLASH,无法烧写应用程序,怎么解决?

    我参考以下文档的原理图设计了一块线路板,但是目前无法烧录boot程序应用程序: DLPDLCR471TPEVM Formatter Board Electrical Design Files 我
    发表于 02-17 07:32

    一种新的通用视觉主干模型Vision Mamba

    核,使其计算量为线性,但也由此而面临着窗口化局部感受野的缺陷,使其在全局场景感知和场景语义理解上之力;Transformer通过全局的注意力计算,使其具有长上下文的全局感知能力,但其二次方复杂度的计算量使得在算有限的端侧设备上
    的头像 发表于 01-06 09:55 2261次阅读
    一种新的通用<b class='flag-5'>视觉</b>主干模型Vision Mamba

    OpenAI更新macOS ChatGPT应用,推出“代理”功能实现无缝集成

    ”功能的推出。通过这一功能,ChatGPT能够作为用户的得力助手,在支持的第三方应用程序中读取屏幕信息,并根据上下文提供精准的帮助和建议。无论是编写代码、记录笔记还是处理文档,用户都能享受到ChatGPT带来的智能化辅助,实现工
    的头像 发表于 01-02 10:49 950次阅读

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    的应用。MAML算法通过二阶优化找到对任务变化敏感的模型参数,实现了快速适应。上下文学习则引入了注意力机制,使模型能够根据当前场景动态调整行为策略。在预训练-微调范式中,我们要注意任务表示的重要性:好的表示
    发表于 12-24 15:03