0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

将语音到文本推理模型压缩到小型 MCU

王静 来源:nhonglan 作者:nhonglan 2022-07-21 11:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来自加拿大初创公司的新技术意味着用于自然语言处理的 AI 模型可以在小型 CPU 甚至微控制器上高效运行。语音控制功能,现在通常通过互联网连接到云来完成,现在可以添加到各种设备中。

初创公司 PicoVoice(加拿大温哥华)推出了一个紧凑的语音到文本推理引擎,可以在最少的计算资源上运行。该公司表示,与竞争的边缘自然语言处理解决方案相比,PicoVoice 技术在计算和内存方面使用的资源要少一个数量级。这可以在各种设备上启用语音识别,而无需将任何数据发送到云端。

虽然云端处理模型对于亚马逊 Alexa 和 Google Home 等助手来说是众所周知的,但它可能无法转化为需要严格隐私或低成本的边缘设备中的语音识别。

PicoVoice 创始人兼总裁 Alireza Kenarsari-Anhari 表示:“随着[支持语音的] 设备变得越来越普遍,在服务器端处理所有内容在财务上将无法正常工作。” “计算资源不是免费的。要为所有东西制作语音界面,你需要让它足够便宜。在设备上运行是做到这一点的唯一方法。”

例如,根据 Kenarsari-Anhari 的说法,使用公共云服务的声控咖啡机,如果每天使用 10 次,每台设备每年的成本约为 15 美元。

“如果您使用咖啡机 CPU 上已有的资源,您可以免费执行此操作,”他说。

根据具体的应用,在边缘执行语音识别还可以提供更好的延迟和可靠性。

pYYBAGLXUXmANyZxADSFZ06vPZU925.jpg

语音激活助手,如 Amazon Alexa,使用云进行自然语言处理,但这种模式可能不适用于更便宜的设备(图片:Loewe Technologies

语音转文本

PicoVoice 的新产品是一种用于语音到文本转录的机器学习模型,它在小型 CPU 上运行,就像 Raspberry Pi Zero 上的 ARM11 内核一样。该模型可以理解大约 200,000 个英语单词,单词错误率与基于云的家庭助手相当。这可以用于需要云外转录能力的设备。

“市场上有一些活动围绕捕获或总结公司会议中发生的事情,”Kenarsari-Anhari 说,引用了不想将专有信息提交到云中的公司,或者有大量数据需要转录的公司,在云中做这件事的成本太高了。

语音到文本引擎加入了该公司的两个现有产品。第一个是唤醒词引擎,可以定制为使用迁移学习快速、廉价地接受任何唤醒词。

第二个是用于设备的语音到意图引擎,可以理解有限域内的语音命令(例如要求打开或关闭灯)。

“如果我有一个定义明确的域,并且用户要在该域中发出语音命令,我们可以在该域中进行自然语言理解,并且我们可以非常有效地做到这一点,整个模型小于半兆字节。这就是为什么我们可以在低于 1 美元的 MCU 上做到这一点,”Kenarsari-Anhari 说。“如果客户想要制造智能冰箱,并使用一组定义的语音命令,我们将为该特定应用程序训练模型,然后他们将其部署在他们的冰箱中,并向我们支付版税。”

这个怎么运作

为了在小型 CPU 上运行自然语言处理模型,PicoVoice 发明了一种训练模型的新方法,使模型更小,计算效率更高。

“我们查看目标设备上的指令集,并尝试找到使用这些指令有效实施的数学运算,”Kenarsari-Anhari 说。“我们用不同的数学运算模拟矩阵乘法,使用该设备上的指令来实现更有效。”

这意味着经过训练的模型是特定于设备的,因为它们取决于所使用的确切指令集,但他说,在实践中,绝大多数音频处理器仅基于三个选项(ARM、Tensilica HiFi 和 Ceva TeakLite)。

pYYBAGLO_PeAdmBnAAGjieDGWvk030.png

Alireza Kenarsari-Anhari
(图片:PicoVoice)

“我们在这三种不同类型的 CPU 上找到了指令,我们可以在其中非常有效地实现模拟矩阵乘法的东西,”他说。“我们可以针对这三个不同的目标训练模型,但是我们针对 ARM 训练模型的方式与针对 Tensilica HiFi 训练模型的方式不同。从用户的角度来看,[模型] 提供了相似的性能,但底层的数学公式不同,这导致在目标设备上的高效执行。”

虽然 Kenarsari-Anhari 拒绝进一步详细说明 PicoVoice 使用了哪些指令,但他表示基本概念类似于位于西雅图的 Xnor,后者使用 XNOR 指令加速计算机视觉模型。然而,与基于循环神经网络 (RNN) 的加速语音模型相比,通常基于卷积神经网络 (CNN) 的加速视觉模型是一项更简单的任务。

他解释说,对于查看相机图片的 CNN,模型看到的内容是有限的,但 RNN 包含时间的概念。

“通过语音,当我说话时,你的大脑会保存我所说的历史,并用它来推断我现在所说的,”他说。“加速 RNN 更难的原因是因为没有记忆可以帮助你避免复合错误。加速模型中通常有更多的噪声,而对于 RNN,噪声会随着时间的推移而累积,使神经网络变得不稳定。”

收入来源

PicoVoice 的“不到 10 人”核心团队大部分来自亚马逊,其中包括 2018 年 1 月创办公司的 Kenarsari-Anhari。PicoVoice 根据工业研究援助计划 (IRAP) 获得了加拿大国家研究委员会的资助,但迄今为止没有其他外部资金。

Kenarsari-Anhari 说,不筹集资金的决定使公司有时间“解决实验开发和应用研究的基本问题”。

该公司已经从包括 LG、惠而浦和 Local Motors 在内的众多客户那里获得了收入来源。


审核编辑 黄昊宇
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • mcu
    mcu
    +关注

    关注

    147

    文章

    19240

    浏览量

    405199
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    从显存瓶颈推理革命:vLLM 为何成为大模型服务的底层标配

    从显存瓶颈推理革命:vLLM 为何成为大模型服务的底层标配 很多开发者都有一个共识:当模型基座的性能逐渐趋同,真正决定 AI 产品落地效率和成本的,是
    的头像 发表于 05-12 09:57 446次阅读
    从显存瓶颈<b class='flag-5'>到</b><b class='flag-5'>推理</b>革命:vLLM 为何成为大<b class='flag-5'>模型</b>服务的底层标配

    《多模态大模型 前沿算法与实战应用 第一季》精品课程简介

    为512维向量。 语言模态 :BERT、GPT等预训练模型文本转换为上下文相关的词嵌入。例如\"苹果\"在\"水果\"语境和\"科技公司\"
    发表于 05-01 17:46

    商汤科技正式开源多模态自主推理模型SenseNova-MARS

    今日,商汤正式开源多模态自主推理模型 SenseNova-MARS(8B/32B 双版本),其在多模态搜索与推理的核心基准测试中以 69.74 分超越Gemini-3-Pro(69.06 分)、GPT-5.2(67.64 分)。
    的头像 发表于 01-30 10:13 881次阅读
    商汤科技正式开源多模态自主<b class='flag-5'>推理模型</b>SenseNova-MARS

    阿里巴巴发布通义千问旗舰推理模型Qwen3-Max-Thinking

    今天,我们正式发布千问旗舰推理模型Qwen3-Max-Thinking,创下数项权威评测全球新纪录。
    的头像 发表于 01-27 15:47 787次阅读
    阿里巴巴发布通义千问旗舰<b class='flag-5'>推理模型</b>Qwen3-Max-Thinking

    LLM推理模型是如何推理的?

    这篇文章《(How)DoReasoningModelsReason?》对当前大型推理模型(LRM)进行了深刻的剖析,超越了表面的性能宣传,直指其技术本质和核心局限。以下是基于原文的详细技术原理、关键
    的头像 发表于 01-19 15:33 843次阅读
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    什么是AI模型推理能力

    NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的头像 发表于 09-23 15:19 1618次阅读

    语音交互数据 精准赋能语音模型进阶

    模型在多轮对话、噪声环境及语义理解方面表现不佳。 相较于传统数据集仅关注语音-文本的单点转写,端语音交互数据集强调在真实多轮对话场景下的
    的头像 发表于 09-11 17:17 897次阅读

    如果大模型是一片星空,谁是北斗?

    文心X1.1,破解推理模型的发展瓶颈
    的头像 发表于 09-10 18:02 3752次阅读
    如果大<b class='flag-5'>模型</b>是一片星空,谁是北斗?

    NVIDIA Nemotron Nano 2推理模型发布

    NVIDIA 正式推出准确、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的头像 发表于 08-27 12:45 2139次阅读
    NVIDIA Nemotron Nano 2<b class='flag-5'>推理模型</b>发布

    澎峰科技完成OpenAI最新开源推理模型适配

    澎峰科技现已完成 OpenAI 最新开源推理模型 gpt-oss-20b 在 DeepFusion 大模型一体机上的原生适配与优化,用户可一键启用这颗“小而强悍”的新引擎,在本地享受企业级 AI 生产力!
    的头像 发表于 08-14 11:34 1656次阅读

    利用NVIDIA推理模型构建AI智能体

    开放式推理模型能够更快、更广泛地进行思考,为客户服务、网络安全、制造、物流和机器人等领域的 AI 智能体生成更明智的结果。
    的头像 发表于 08-13 14:32 1859次阅读
    利用NVIDIA<b class='flag-5'>推理模型</b>构建AI智能体

    速看!EASY-EAI教你离线部署Deepseek R1大模型

    1.Deepseek简介DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研发的推理模型。DeepSeek-R1采用强化学习进行后训练,旨在提升推理能力,尤其擅长数学、代码
    的头像 发表于 07-25 15:22 1650次阅读
    速看!EASY-EAI教你离线部署Deepseek R1大<b class='flag-5'>模型</b>

    模型推理显存和计算量估计方法研究

    随着人工智能技术的飞速发展,深度学习大模型在各个领域得到了广泛应用。然而,大模型推理过程对显存和计算资源的需求较高,给实际应用带来了挑战。为了解决这一问题,本文探讨大
    发表于 07-03 19:43

    Whisper大型v3 fp32模型转换为较低精度后,推理时间增加,怎么解决?

    openai/whisper-large-v3 FP32 模型转换为 FP16、INT8 和 INT4。 推理所花费的时间比在 FP32 上花费的时间要多
    发表于 06-24 06:23

    边缘计算中的机器学习:基于 Linux 系统的实时推理模型部署与工业集成!

    你好,旅行者!欢迎来到Medium的这一角落。在本文中,我们将把一个机器学习模型(神经网络)部署边缘设备上,利用从ModbusTCP寄存器获取的实时数据来预测一台复古音频放大器的当前健康状况。你
    的头像 发表于 06-11 17:22 1203次阅读
    边缘计算中的机器学习:基于 Linux 系统的实时<b class='flag-5'>推理模型</b>部署与工业集成!