0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用于有效使用TinyML的随机计算架构

星星科技指导员 来源:嵌入式计算设计 作者:Abhishek Jadhav 2022-07-11 09:20 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

神经网络是一种流行的机器学习模型,但它们需要更高的能耗和更复杂的硬件设计。随机计算是平衡硬件效率和计算性能之间权衡的一种有效方式。然而,由于算术单元的低数据精度和不准确性,随机计算见证了 ML 工作负载的低准确性。

为了解决与传统随机计算方法相关的问题,并通过更高的精度和更低的功耗来提高性能,正在进行的研究提出了一种改进的基于块的随机计算架构。通过在输入层中引入块,可以通过利用高数据并行性来减少延迟。更重要的是确定全局优化方法所需要的块数。

现有的方法包括增加比特流的长度以提高数据精度,甚至使用指数比特来获得准确的结果。然而,这引入了较长的计算延迟,这对于 TinyML 应用程序来说是不合理的。因此,为了应对这种不断上升的计算延迟,比特流被分成块然后并行执行。结合块内算术单元和输出修正 (OUR) 方案可缓解块间不准确问题,从而提供高计算效率。

基于块的随机计算架构

研究提供了一种新颖的架构,其中输入被划分为块并使用优化的块内算术单元并行执行乘法和加法。此外,在 TinyML 应用程序的延迟-功耗权衡方面,所提出的模型是一个出色的架构。

架构划分如下:

块划分

如上图所示,输入比特流被划分为“k”个值块。所提出的想法是,为比特流选择大量块并不能保证是最佳的,但可以用于接近近似值。如果在选择块数时出现错误,这可能会自相矛盾地导致大错误。在确定来自输入比特流的正和负部分的两个平均值的概率方面存在复杂的计算。

块内计算

缓解了传统加法器面临的OR加法器相关问题和分离加法器溢出问题。新修改的架构设计在输入之间带有 XNOR+AND 门,以消除双极计算的相关性。

每个输入位都在并行计数器 (PC) 中获取,对于正负部分 (Ap, An) 分别进行处理。有两个专用累加器用于处理有符号位。取输入位后,累加器之间发生减法,如正负部分所示。目标是获得所有输入的累积 1 的数量。进一步地,比较取时间输出(Sop,Son)中的一位,在多个“n”个循环之后,计算符号位,并根据符号位Ap和An,选择Sop和Son的输出结果。

这种新的基于累加器的符号幅度格式加法器利用 unNSADD 加法器来比较输出和输入中的实际累加 1 以确定输出位。这种方法消除了相关性和快速溢出问题的影响。

块间​​输出修正方案

尽管块内加法器解决了相关性和溢出问题,但块划分引入了新的块间不准确错误。乘法器不会发生这种情况,因为输入是 XNORed 和 ANDed。但是对于加法器,输出中 1 的数量可能会偏离所产生的不准确性。输出修订方案在并行块内计算阶段之后添加或删除 1s,而不会引入任何额外的延迟来解决这些块间不准确错误。

新颖的基于块的随机计算架构旨在提高随机计算运算电路的精度,同时降低计算延迟和能源效率。根据研究结果,该方法比现有方法的准确度提高了 10% 以上,并节省了 6 倍以上的功率。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106796
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136233
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    双口SRAM静态随机存储器存储原理

    在各类存储设备中,SRAM(静态随机存储器)因其高速、低功耗和高可靠性,被广泛应用于高性能计算、通信和嵌入式系统中。其中,双口SRAM静态随机存储器凭借其独特的双端口设计,在高带宽和多
    的头像 发表于 11-25 14:28 122次阅读

    用于RISCV的F指令集实现的浮点计算单元(FPU)设计方案

    实现功能 为了完成F拓展,我们计划在ALU内添加一个专用于计算单精度浮点数的FPU单元。 2.1 实现riscv的F指令集拓展 即需要实现26条F指令: 以下部分指令返回地址是给整数寄存器,红色
    发表于 10-24 07:43

    随机数和伪随机数的区别

    随机数在当前程序运行环境中是一种常用参数,目前主要分为两种,伪随机数和真随机数,本期我们就来讲一下二者的区别。
    的头像 发表于 08-27 17:46 1834次阅读

    知合计算:RISC-V架构创新,阿基米德系列剑指高性能计算

    在2025 RISC-V中国峰会上,知合计算处理器设计总监刘畅就高性能RISC-V处理器架构探索与实践进行了精彩分享。 在以X86和ARM为代表的处理器架构之下,RISC-V在高性能计算
    的头像 发表于 07-18 14:17 2360次阅读
    知合<b class='flag-5'>计算</b>:RISC-V<b class='flag-5'>架构</b>创新,阿基米德系列剑指高性能<b class='flag-5'>计算</b>

    如何释放异构计算的潜能?Imagination与Baya Systems的系统架构实践启示

    报告作者:PallaviSharma,Imaginaiton产品管理总监Dr.EricNorige,BayaSystems首席软件架构师关注Imagination公众号,消息框发送【异构计算】,即可
    的头像 发表于 06-13 08:33 830次阅读
    如何释放异构<b class='flag-5'>计算</b>的潜能?Imagination与Baya Systems的系统<b class='flag-5'>架构</b>实践启示

    GPU架构深度解析

    GPU架构深度解析从图形处理到通用计算的进化之路图形处理单元(GPU),作为现代计算机中不可或缺的一部分,已经从最初的图形渲染专用处理器,发展成为强大的并行计算引擎,广泛应
    的头像 发表于 05-30 10:36 1321次阅读
    GPU<b class='flag-5'>架构</b>深度解析

    能效提升3倍!异构计算架构让AI跑得更快更省电

    电子发烧友网报道(文/李弯弯)异构计算架构通过集成多种不同类型的处理单元(如CPU、GPU、NPU、FPGA、DSP等),针对不同计算任务的特点进行分工协作,从而在性能、能效和灵活性之间实现最优平衡
    的头像 发表于 05-25 01:55 3452次阅读

    Arm架构何以成为现代计算的基础

    2025 年 4 月,Arm 架构迎来了问世 40 周年。这个始于英国剑桥一隅、怀揣雄心壮志的项目,如今已成为全球广泛采用的计算架构。从传感器、智能手机、笔记本电脑,到汽车、数据中心等诸多领域,有数十亿设备如今运行在 Arm
    的头像 发表于 05-20 10:02 934次阅读

    让智能遍布人形机器人全身,这家国产MCU企业探索MCU+AI(TinyML

    大模型主要用于处理语义理解、复杂场景感知和长期任务规划等高层智能任务,能让人形机器人在标准化场景中表现出色。但在对实时性要求极高的个性化场景里,AI 大模型却无法满足实时控制需求。因此,‌MCU+AI(TinyML) 成为一种有效
    的头像 发表于 04-14 00:44 2303次阅读
    让智能遍布人形机器人全身,这家国产MCU企业探索MCU+AI(<b class='flag-5'>TinyML</b>)

    基于玻色量子相干光量子计算机的混合量子经典计算架构

    近日,北京玻色量子科技有限公司(以下简称“玻色量子”)与北京师范大学、中国移动研究院组成的联合研究团队提出一种基于相干光量子计算机的混合量子-经典计算架构,结合量子计算范式和经典
    的头像 发表于 03-10 15:43 932次阅读
    基于玻色量子相干光量子<b class='flag-5'>计算</b>机的混合量子经典<b class='flag-5'>计算</b><b class='flag-5'>架构</b>

    揭秘云计算架构的分层奥秘

    的重要基石。那么,云计算架构究竟是如何构建的呢?今天,我们带您揭秘云计算架构的分层奥秘——边缘层、IaaS、PaaS、SaaS。
    的头像 发表于 02-26 17:41 972次阅读

    AI的“随机性”挑战:它们比人类更“不随机”?

    你有没有想过,人类真的能做出完全随机的选择吗?答案可能出乎你的意料。事实上,人类天生就不擅长“随机”,我们总能在看似无序的事物中发现规律,甚至在本该随机的场景中创造出模式。这种“伪随机
    的头像 发表于 02-20 13:11 1039次阅读
    AI的“<b class='flag-5'>随机</b>性”挑战:它们比人类更“不<b class='flag-5'>随机</b>”?

    熵基科技实现BioCV TinyML与DeepSeek大模型融合

    近日,熵基科技宣布了一项重大技术突破。该公司自主研发的“BioCV TinyML模型”已成功与全球知名的LLM大模型DeepSeek实现接入与融合。 这一融合成果不仅彰显了熵基科技在智能物联和智慧
    的头像 发表于 02-19 16:15 1108次阅读

    HPC云计算的技术架构

    HPC云计算结合了HPC的强大计算能力和云计算的弹性、可扩展性,为用户提供了按需获取高性能计算资源的便利。下面,AI部落小编带您了解HPC云计算
    的头像 发表于 02-05 14:51 689次阅读

    计算机网络架构的演进

    计算机网络架构的演进见证了信息技术的飞速发展。早期的总线型网络架构,通过一条共享的通信线路连接各个节点,结构简单且成本较低,但存在单点故障和传输效率不高的问题。随着技术的发展,星型网络架构
    的头像 发表于 01-21 11:11 778次阅读