0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Amazon Alexa如何工作?您的自然语言处理指南

电子设计 来源:电子设计 作者:电子设计 2020-12-10 21:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

我们现在可以与几乎所有智能设备进行对话,但是它如何工作?当您问“这是什么歌?”时,正在使用什么技术?

Alexa如何运作?

根据Microsoft程序经理Adi Agashe的说法,Alexa是基于自然语言处理(NLP)构建的,该过程是将语音转换为单词,声音和想法的过程。
亚马逊会记录您的话语。实际上,解释声音会占用大量计算能力,您的语音记录会发送到Amazon的服务器以进行更有效的分析。

计算能力:指执行指令的速度,通常以kiloflops,megaflops等表示。

亚马逊将您的命令分解为单独部分的声音。然后,它查阅包含各个单词的发音的数据库,以找出最接近对应于各个声音组合的单词。

然后,它识别出重要的单词以使任务有意义并执行相应的功能。例如,如果Alexa注意到诸如“体育”或“篮球”之类的字词,则会打开体育应用程序。

Amazon的服务器将信息发送回您的设备,Alexa可能会讲话。如果Alexa需要说点什么,它将按照上述相同的过程进行,但是顺序相反

深入的解释

根据Trupti Behera的说法,“它始于信号处理,这为Alexa提供了尽可能多的机会通过清除信号来理解音频。信号处理是远场音频中最重要的挑战之一。

想法是改善目标信号,这意味着能够识别电视等环境噪声并将其最小化。为了解决这些问题,使用了七个麦克风来大致识别信号的来源,以便设备可以专注于此。回声消除可以减去该信号,因此仅保留剩余的重要信号。

下一个任务是“唤醒字检测”。它确定用户是否说出设备被编程需要打开的单词之一,例如“ Alexa”。需要这样做以最大程度地减少误报和误报,这些误报和误报可能导致意外购买和引起客户愤怒。这确实很复杂,因为它需要识别发音差异,并且需要在CPU能力有限的设备上进行识别。

如果检测到唤醒字,则将信号发送到云中的语音识别软件,该软件将音频和 将其转换为文本格式。由于它查看英语中的所有单词,因此输出空间很大,并且云是唯一能够充分扩展的技术。使用Echo播放音乐的人的数量使情况进一步复杂化-许多艺术家使用的名字拼写方式不同于一般常见的单词。

要将音频转换为文本,Alexa将分析用户语音的特征(例如频率和音高)以提供特征值。

给定输入特征和模型,解码器将确定最可能的单词序列是什么,该模型分为两部分。其中的第一个是先验的,它根据大量现有文本为您提供最可能的序列,而无需查看功能,另一个是声学模型,通过查看音频对进行深度学习训练和成绩单。将这些组合在一起,并应用动态编码,该编码必须实时进行。”

分析命令

上面的命令包含3个主要部分:唤醒字,调用名称,提示。

唤醒词
当用户说“ Alexa”时,它将唤醒设备。唤醒词使Alexa进入聆听模式,并准备接受用户的指示。

调用名称
调用名称是用于触发特定“技能”的关键字。用户可以将调用名称与操作,命令或问题结合使用。所有自定义技能都必须具有一个调用名称才能启动它。

Alexa的“技能”:语音驱动的Alexa功能。

表述
“Taurus”是一种话语。表述是用户向Alexa请求时将使用的短语。Alexa从给定的语音识别用户的意图,并做出相应的响应。因此,基本上,这些表述决定了用户希望Alexa执行的操作。

什么是NLP?

它是人工智能和计算语言学的融合,它处理机器与人类自然语言之间的相互作用,其中计算机必须分析,理解,更改或生成自然语言。

NLP帮助计算机使用多种形式的自然人类语言进行通信,包括但不限于语音和书写。

“与计算机进行二十分钟的闲聊不只是一个月球,而是去火星的旅程。”

在本文中,我发现了一个有趣的部分,其中说:“理解人类语言由于其复杂性而被认为是一项艰巨的任务。例如,有无数种不同的方式来排列句子中的单词。而且,单词可能具有多种含义,上下文信息对于正确地解释句子是必要的。”

开始时,系统会输入自然语言。

自然语言:任何通过使用和重复在人类中自然进化而无需有意识地计划或预想的语言。自然语言可以采用不同的形式,例如语音或签名

之后,它将 它们转换为人工语言,例如语音识别。在这里,我们将数据转换为文本形式,通过NLU(自然语言理解)过程来理解其含义。

一个很好的规则是,如果您只是在谈论机器理解我们所说内容的能力,请使用术语NLU。NLU实际上是NLP广阔世界的一个子集

隐马尔可夫模型(NLU示例):

在语音识别中,此模型将波形的每个部分与之前发生的事情和之后发生的事情进行比较,并与波形字典进行比较以弄清楚正在说什么。

波形:声带的周期性振动导致发声

隐藏的马尔可夫模型(HMM)是您观察排放序列的模型,但不知道模型产生排放所经历的状态序列。隐马尔可夫模型的分析试图从观察到的数据中恢复状态序列。

对于NeoSpeech的市场营销专家Trevor Jackins来说,“它通过获取语音数据并将其分解为特定时间段(通常为10到20毫秒)的小样本来尝试理解您的发言。将这些数据集与预语音进行比较,以解码您在语音的每个单元中所说的内容。这里的目的是找到音素(最小的语音单位)。然后,机器查看一系列这样的音素,并从统计角度确定最有可能说出的单词和句子。”

然后,NLU会深入理解每个单词,从而尝试理解它是名词还是动词,使用的时态等。此过程定义为POS:语音标记的一部分。

据EasyGov的CPO Pramod Chandrayan所说,,“NLP系统也有一个词汇(词汇)和一组编码到系统的语法规则。现代的NLP算法使用统计机器学习将这些规则应用于自然语言,并确定您所说内容背后最可能的含义。”

“要构建能够理解自然语言的机器,必须结合使用规则和统计模型来提取语音。必须提取,标识和解析实体,并且必须在上下文中派生语义,并将其用于标识意图。例如,必须解析一个简单的短语,例如:“我需要从12月5日至10日去巴黎乘坐飞机和预定旅馆”,并给出以下结构:

need:flight {intent} / need:hotel {intent} / Paris {city} / DEC 5 {date} / DEC 10 {date} / sentiment: 0.5723 (neutral)”

对于作者,主题演讲者和顾问 Bernard Marr来说, “当Alexa在解释您的请求时出错时,该数据将在下一次使系统变得更好时使用。机器学习是语音激活用户界面功能快速提高的原因。”

在亚马逊网站上,我们可以读到“通过自然语言理解(NLU),计算机可以推断出说话者的实际含义,而不仅仅是他们说的话。基本上,这就是让Alexa之类的语音技术推断出您可能在询问“ Alexa,外面的感觉是什么?”时要求本地天气预报的原因。

如今的语音优先技术是使用NLU构建的,NLU是一种人工智能,其重点在于识别人类语言中的模式和含义。以语音助手为代理的自然语言处理已经重新定义了我们在家庭和其他方面与技术交互的方式。”

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    39

    文章

    1803

    浏览量

    115559
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261508
  • 自然语言处理

    关注

    1

    文章

    629

    浏览量

    14563
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    云知声论文入选自然语言处理顶会EMNLP 2025

    近日,自然语言处理(NLP)领域国际权威会议 ——2025 年计算语言学与自然语言处理国际会议(EMNLP 2025)公布论文录用结果,云知
    的头像 发表于 11-10 17:30 513次阅读
    云知声论文入选<b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>顶会EMNLP 2025

    亚马逊云科技推出Amazon Quick Suite,引领Agentic AI驱动的工作新范式

    Amazon Quick Suite帮助客户 突破 信息碎片化、应用孤岛 化 和重复性 工作 的 干扰 , 专注于**真正重要的 事情上 。 要点概述 Amazon Quick Suite是亚马逊云
    的头像 发表于 10-10 14:50 452次阅读

    HarmonyOSAI编程自然语言代码生成

    安装CodeGenie后,在下方对话框内,输入代码需求描述,将根据描述智能生成代码,生成内容可一键复制或一键插入至编辑区当前光标位置。 提问示例 使用ArkTs语言写一段代码,在页面中间部分
    发表于 09-05 16:58

    【HZ-T536开发板免费体验】5- 无需死记 Linux 命令!用 CangjieMagic 在 HZ-T536 开发板上搭建 MCP 服务器,自然语言轻松控板

    Code。 二、核心原理:MCP 服务器与 CangjieMagic 的协同工作 MCP 服务器作用 :运行在开发板上,负责接收客户端的自然语言指令,解析后执行对应操作(如调用系统命令、控制
    发表于 08-23 13:10

    人工智能浪潮下,制造企业如何借力DeepSeek实现数字化转型?

    DeepSeek,凭借其强大的深度学习和自然语言处理能力,能够理解复杂问题并提供精准解决方案。它不仅能够作为学习、工作、生活的助手,满足用户在不同场景下的需求,更能在制造业中发挥重要作用。通过
    的头像 发表于 05-29 16:17 439次阅读

    云知声四篇论文入选自然语言处理顶会ACL 2025

    近日,第63届国际计算语言学年会ACL 2025(Annual Meeting of the Association for Computational Linguistics,简称ACL)论文接收
    的头像 发表于 05-26 14:15 1042次阅读
    云知声四篇论文入选<b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>顶会ACL 2025

    亚马逊功能最强模型Amazon Nova Premier现已正式可用

    是目前亚马逊功能最强大的模型,适用于处理复杂任务,并可作为教师模型来蒸馏定制模型。 作为现有Amazon Nova理解模型家族的新成员,Amazon Nova Premier现已在Amazon
    的头像 发表于 05-09 18:18 438次阅读
    亚马逊功能最强模型<b class='flag-5'>Amazon</b> Nova Premier现已正式可用

    自然语言处理的发展历程和应用场景

    你是否曾经对着手机说:“嘿,Siri,今天天气怎么样?”或者在出国旅行时,打开翻译软件,对着菜单说:“请把这道菜翻译成英文”。
    的头像 发表于 04-17 11:40 1142次阅读

    自然语言提示原型在英特尔Vision大会上首次亮相

    在英特尔Vision大会上,Network Optix首次展示了自然语言提示原型,该方案将重新定义视频管理,为各行各业由AI驱动的洞察和效率提速。
    的头像 发表于 04-09 09:30 790次阅读

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的多模态人工智能模型,能够理解并生成与视觉内容相关的自然语言。以下
    的头像 发表于 03-17 15:32 7573次阅读
    ​VLM(视觉<b class='flag-5'>语言</b>模型)​详细解析

    语言模型的解码策略与关键优化总结

    的技术参考。主要涵盖贪婪解码、束搜索、采样技术等核心解码方法,以及温度参数、惩罚机制等关键优化手段。大型语言模型的技术基础大型语言模型是当代自然语言处理技术的核心
    的头像 发表于 02-18 12:00 1069次阅读
    大<b class='flag-5'>语言</b>模型的解码策略与关键优化总结

    亚马逊云科技发布Amazon Trainium2实例

    近期,亚马逊云科技宣布了一项重要更新:基于Amazon Trainium2的全新Amazon Elastic Compute Cloud(Amazon EC2)Trn2实例现已正式推出。这一创新实例
    的头像 发表于 12-27 14:57 885次阅读

    亚马逊云科技发布Amazon Q Developer,助力工作负载转型

    在近日举行的2024亚马逊云科技re:Invent全球大会上,一项旨在加速大规模传统工作负载转型的新功能——Amazon Q Developer,正式亮相。这款功能强大的软件开发生成式人工智能(AI
    的头像 发表于 12-26 11:32 889次阅读

    Amazon Q Business发布新功能 助力企业提升内部工作效率

    新功能旨在提升Amazon Q Business和Amazon Q in QuickSight的洞察能力,增强跨应用的生成式AI体验,为流行的商业应用提供50余种操作,并简化复杂工作流程的自动化方式
    的头像 发表于 12-19 15:29 725次阅读

    深度学习工作负载中GPU与LPU的主要差异

    ,一个新的竞争力量——LPU(Language Processing Unit,语言处理单元)已悄然登场,LPU专注于解决自然语言处理(NLP)任务中的顺序性问题,是构建AI应用不可或
    的头像 发表于 12-09 11:01 3910次阅读
    深度学习<b class='flag-5'>工作</b>负载中GPU与LPU的主要差异