0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语音控制使设备能够说话和倾听

tr12345 来源:tr12345 作者:tr12345 2023-01-10 15:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

语音控制技术让家中的每一件电器都能说话和倾听

这是一个场景:你下班或放学回家,你告诉电视你想看什么节目,它会自动打开并切换到你喜欢的频道。或者,也许您告诉炉子准备低火和慢火烹饪,以便晚餐在合适的时间以合适的温度烹饪。今天,家用电器能够执行这些功能。通过语音控制,在工作或学习了一天的劳累之后,你可以躺在沙发上放松一下,并向这些乖乖听从你指挥的电器发出指令。

复杂的架构和广泛的连接是物联网的标志。越来越多的公司选择云托管物联网系统,因为云架构安全、快速、方便。通过使用多层加密和身份验证,系统变得更加安全。一键完成自然语言处理等基于AI的模型训练和部署。物联网云通常包括嵌入家用电器中的传感器,通过 Wi-Fi 连接到互联网。用于接收数据并将其传输到云数据库中,以便在云环境中进行分析和处理。本文以云架构为框架,讲解语音控制技术如何让家电服从口头指令并做出响应。

家电中的语音控制技术

随着人工智能和物联网的不断发展,人机交互(HMI)已经出现了更高端的体验。语音控制技术是当今应用最为广泛和热门的研究课题之一。语音控制在家用电器中的应用,消除了对熟悉的遥控器的需要,并使电器仅使用口头命令即可运行,这对大多数人来说是新的。人工智能、机器学习语音识别、物联网和云计算使语音控制的家用电器成为可能。

Azure 云语音控制和语音识别技术

语音控制系统包括:

语音识别

自然语言理解

对话管理

自然语言生成

语音合成

语音识别是指信息从语音到文本的转换。Azure平台的TTS(text-to-speech)是使用微软现有数据训练的通用语言模型,部署在云端。该模型可用于创建和训练自定义语言模型。它可以选择一个特定的词典,并根据需要将其添加到训练数据中。

自然语言分析/自然语言处理是机器学习的一部分,设计模型并进行训练。

对话管理的任务包括三个要点:

用户意图预测

根据对话内容进行分析,机器学习模型预测并确认下一步要做什么。

提供与后端/任务模型

交互的接口作为应用接口,实现与服务器或模型的请求交互,获取反馈结果,生成文本结果。

为语义分析的结果提供期望值。

它根据用户的问题通过语义解析来响应以满足用户的期望。

响应文本是根据模型对用户命令的分析生成的。语音合成技术的主要作用是将文本转化为人性化的语音。基本的 Azure 云语音合成使用语音 SDK 或 REST 应用程序编程接口 (API) 协议(请参阅下面的详细信息)来实现具有神经或自定义语音的文本到语音。

在家用电器中,对话模型的情感要求较低,因为大多数用户命令只是功能性请求,例如打开设备和请求温度或湿度。

云语音控制技术基本解决方案步骤

云语音控制技术的基本解决方案包括:

对话模式:对话模式是人机语言交互的中心枢纽;所有其他模式都源于此。只要用户发出命令,系统就会切换到对话模式。Azure 使用 UWP 应用程序平台开发了一个接口,用于监控是否成功接收到人声触发(例如对平台说:“嗨,云!”)。

听写模式:用户说出较长的短语或句子,等待语音识别结果。在说出初始触发器“'嗨,云!”之后,用户可以向机器发出实际命令。语音内容传输到语义分析系统 (Azure LUIS),实时语音转文本服务初始化通用语言模型。通过REST API/语音软件开发包(SDK)完成操作。

交互模式:当用户发出简短请求并希望应用程序做出响应时,使用交互模式,由于应用程序中嵌入了语音识别和文本到语音转换功能,该过程才有效。在本文的示例中,部署在 Azure 云中的语音控制系统的交互模式使用用户交互通用 Windows 平台 (UWB) 应用程序发挥作用。UWP上提供了一个简单的接口供用户操作,或者供开发者测试使用。

通用 Windows 平台 (UWP)

借助通用 Windows 平台,相同的 API 可以普遍应用于计算机、智能手机或其他 Windows 10 设备。换句话说,相同的代码可以在不同的终端上运行,而无需为不同的平台编写不同版本的代码。

认知服务语音识别 SDK 和 REST API

语音 SDK 软件允许制造商通过对汽车免提应用(例如驾驶舱设备中的语音识别)使用语音频带音频处理来提高免提应用中的语音质量。

官方文档指出:“作为语音 SDK 的替代方法,语音服务允许使用 REST API 将语音转换为文本。每个可访问的端点都连接到特定区域。应用程序需要使用的端点的订阅密钥. REST API 非常有限,因为它们只能在语音 SDK 不可用的情况下使用。”

以语音识别为例:在向服务器发送 HTTP 请求之前,必须获取 REST API 的密钥。认证通过后,服务器将转换后的音频返回本地。此图是在应用程序中创建和使用 REST 客户端然后调用它的示例(图 1)。调用 REST 客户端时,输入会转换为 HTTP 请求并发送到 REST API。来自通信端点的响应是 HTTP 响应。REST 客户端将其转换为应用程序可以识别的类型并将其返回给应用程序。

poYBAGO07_mAfS6-AAA1mvzfoQs265.png

图 1:在应用程序中创建和使用 REST 客户端。(来源:gunnarpeipman.com)

我们选择不公开披露我们应用程序的 REST 客户端的详细信息,因此可以添加一个用于与外部服务器通信的适配器。适配器从应用程序接收已知类型的参数,适配器将相同的数据返回给外部服务器。

语言理解智能服务(LUIS)

Azure 的 LUIS 是一种基于云的对话 AI 服务,可以让机器理解人类语言。操作模式可以概括如下:客户端通过应用程序直接向 LUIS 发送语音请求。LUIS 中的自然语言处理功能将命令转换为 JSON 格式。分析后,答案也以JSON格式返回。LUIS平台为用户提供训练模型服务。该模型具有“持续学习”功能,可以响应客户的要求,通过持续自动修正来提高准确性。

现在,让我们以住宅湿度监控系统为例了解 LUIS 的工作原理。如果您希望用户发出“检查湿度”命令怎么办?LUIS 包含自然语言处理的基本组件:

目的(动词):在这里,“检查”是动词。LUIS 模型最多接受 80 个客观词。

完整的语言内容:这是用户给出的完整命令。LUIS 模型最多接受 500 个单词的语音请求。

实体(名词):在这里,“湿度”是名词。LUIS 模型最多可以接受 30 个实体名词。

用户可以根据自己的需要自定义 LUIS 特征,这意味着当你的模型不能轻易识别一个或几个单词时,它可以自动添加新数据进行再训练。

在 Windows 10 IoT Core 上运行 Raspberry Pi 3

Raspberry Pi 是一块可以连接不同类型传感器的开发板。Raspberry Pi 可以与 Web 服务器一起使用。这样的服务器接收不同的解释命令并发送电信号来控制安装在智能家居中的家电。

语音控制技术如何应用于家电

语音控制让家居环境更加智能,带来家电自动化(图2)。我们可以这样定义它:通过使用提供与健康、多媒体、娱乐和能源领域相关的不同服务的技术来改善房主的生活质量。

图 2:语音控制技术识别音频命令以操作连接的家用电器。(来源:Andrey Suslov/Shutterstock.com)

示例应用程序:具有云服务的智能湿度监测器

下面我们以云架构为例,看看家电语音控制技术如何与智能声控湿度监测器协同工作。

核心技术

在 Raspberry Pi 3 上运行通用 Windows 平台 (UWP) 时,语音识别 API 和传感器会与用户交互。在 LUIS 中进行语义分析,Raspberry Pi 3 输入用户的问题。答案最终来自认知服务的语音识别API。

建筑学

云计算已成为数据架构的首选,以确保数据传输安全、数据处理快速、模型预测准确。云部署还可以显着减少设备操作,提升设备性能,同时提升用户体验,实现双赢。这里选择的云架构是最近在人工智能和物联网领域引起重大发展和创新的微软 Azure 云平台。

职能

数据存储:通过传感器收集的数据存储在云端。

语音转文本和文本转语音 API 用于识别用户的问题并使用语音进行回答。

LUIS 语音识别和语义分析可以使用先前训练的模型预测对用户命令的正确响应。

家电可以通过Raspberry Pi 3的语音输入和认知服务的语音识别来回答用户的问题。

解决方案

有关创建此类解决方案的示例,请参阅以下 GitHub 链接。

数据发送到云端

使用当今的数据架构已经可以完成从传感器到云数据库的数据传输。客户可以直接使用不同类型的数据库来满足不同的需求。

进行语音对话:UWP 应用程序

例子:用户想知道他们家里的湿度是多少,所以他们说,“嘿,云!房间里现在的湿度是多少?” 问题的文本是使用在设备上的 Raspberry Pi 3 中运行的 UWP 提供的。该应用程序将与所有传感器和执行器通信,然后触发系统将问题发送到 LUIS 进行语义分析。

通过连接 LUIS 分析问题

LUIS 用于理解从 Raspberry Pi 3 收到的命令。通过模型训练,应用程序可以识别命令的意图是检测室内湿度。之后,将 LUIS API 添加到 UWP 应用程序中。当用户说出触发命令“嘿,云!”时,所有内容都会通过 API 发送到 LUIS 并进行分析。在 UWP 中调用 LUIS,它接收输入并分析意图。根据预测意图的置信度,向用户提供正确答案。然后向物联网中心发送命令以从传感器获取温度。

开发网络应用程序

可以开发用于设备管理的网络应用程序。该应用程序可以显示物联网中心接收到的所有传感器数据,使设备的管理更容易,并实现重启和固件更新的功能。

人机交互

UWP 应用程序和 Web 应用程序相互交互,给客户端一个响应,Web 应用程序负责将命令发送到指定的传感器,检测特定传感器当前的室内湿度,并回答用户的问题。最后,通过文本转语音 API 向用户提供当前室内湿度。

结论

物联网时代,拥有语音控制和响应能力的家电,让人类实现高品质便捷生活的梦想成为可能。家电的语音控制功能是结合人工智能、机器学习、自然语言处理、物联网、云计算、数据传输和传感器等技术设计的。

语音控制技术在家电中的应用是一个非常具有前瞻性的应用。未来的家肯定会是一个充满可以与用户交谈的智能设备的地方。希望这项技术能够吸引更多的科学家投入到这一研究领域,不断创新发展。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • wi-fi
    +关注

    关注

    15

    文章

    2484

    浏览量

    130204
  • 语音控制
    +关注

    关注

    5

    文章

    519

    浏览量

    29779
  • Azure
    +关注

    关注

    1

    文章

    130

    浏览量

    13737
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    语音芯片怎么样写入声音?一文讲透语音播放芯片的声音写入之道

    如果说芯片是电子产品的“大脑”,那么语音芯片就是赋予设备“声音灵魂”的关键元器件。从商场迎宾器、电动车报警器,到智能门锁、医疗设备,凡是需要“开口说话”的
    的头像 发表于 04-24 10:04 190次阅读
    <b class='flag-5'>语音</b>芯片怎么样写入声音?一文讲透<b class='flag-5'>语音</b>播放芯片的声音写入之道

    常用的语音播放芯片有哪些?一文带你从入门到选型

    在智能设备遍地开花的今天,从会“说话”的电饭煲到会语音提示的汽车导航,背后都离不开一颗小小的语音播放芯片(又称语音IC)。那么,面对市面上琳
    的头像 发表于 04-23 10:03 215次阅读
    常用的<b class='flag-5'>语音</b>播放芯片有哪些?一文带你从入门到选型

    485AI语音识别模块:多路语音控制,实现安防设备语音联动

    防消防、能源设施、老旧设备改造等。 一、工业自动化(核心场景) - 智慧工厂/产线:语音控制流水线启停、机械臂、传送带调速、机床操作、设备参数查询 - 智慧仓储:
    的头像 发表于 04-22 15:17 260次阅读

    什么是语音芯片?思泽远科技语音芯片的工作原理、主流类型与核心应用

    随着智能家居、物联网和消费电子产业的迅猛发展,“会说话设备”已融入我们的日常生活——从智能音箱到可语音控制的空调,从会播报体温的测温枪到会语音
    的头像 发表于 04-21 10:11 184次阅读

    语音芯片是如何让机器“开口说话”的?一文读懂语音芯片工作原理及选型指南

    在智能家居设备应声而动、车载导航精准报出路口、电子玩具发出悦耳声音的每一个瞬间,你是否好奇:这些机器究竟是如何“开口说话”的?答案就藏在一枚枚看似不起眼却功能强大的语音芯片之中。今天,我们就从
    的头像 发表于 04-14 08:59 204次阅读
    <b class='flag-5'>语音</b>芯片是如何让机器“开口<b class='flag-5'>说话</b>”的?一文读懂<b class='flag-5'>语音</b>芯片工作原理及选型指南

    什么是语音芯片?一文读懂其工作原理、主流类型与核心应用

    随着智能家居、物联网和消费电子产业的迅猛发展,“会说话设备”越来越多——从智能音箱到可语音控制的空调,从会播报体温的测温枪到会语音提示的汽
    的头像 发表于 04-13 09:44 273次阅读
    什么是<b class='flag-5'>语音</b>芯片?一文读懂其工作原理、主流类型与核心应用

    瑞芯微(EASY EAI)RV1126B 语音识别

    字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音说话人而非其中所包含的词汇内容。我们的语音算法是基于Whisper是Op
    的头像 发表于 01-21 10:43 1097次阅读
    瑞芯微(EASY EAI)RV1126B <b class='flag-5'>语音</b>识别

    语音识别IC分类,语音识别芯片的工作原理

    语音识别芯片,也叫语音识别集成电路,是一种集声音存储、播放、录音及语音识别功能于一体的专用芯片。语音识别IC的核心功能在于实现语音识别,即让
    的头像 发表于 01-14 15:22 511次阅读
    <b class='flag-5'>语音</b>识别IC分类,<b class='flag-5'>语音</b>识别芯片的工作原理

    芯知识|如何让智能设备轻松“换声”?深度解析Flash语音芯片的革新力量

    在智能化浪潮席卷各行各业的今天,电子设备不仅需要“能说话”,更被期待“说得好”、“说得对”,甚至能够根据场景“换个说法”。传统的固定语音方案已难以满足日益增长的个性化与迭代需求。在此背
    的头像 发表于 01-06 08:52 472次阅读
    芯知识|如何让智能<b class='flag-5'>设备</b>轻松“换声”?深度解析Flash<b class='flag-5'>语音</b>芯片的革新力量

    芯知识|语音芯片是如何让机器“开口说话”的?

    在智能音箱回应你的询问、车载导航提示你转弯、甚至医疗设备发出清晰提醒的瞬间,你是否曾好奇,这些机器是如何“开口说话”的?其背后的核心功臣,正是一枚枚精巧的语音芯片。它如同一个高度集成的“声音翻译官
    的头像 发表于 12-29 09:05 504次阅读
    芯知识|<b class='flag-5'>语音</b>芯片是如何让机器“开口<b class='flag-5'>说话</b>”的?

    智能语音识别控制器是什么?图形中文编程,多路设备控制

    智能语音识别控制器是一种融合语音识别技术、物联网通信技术与设备控制模块的智能终端设备,核心功能是
    的头像 发表于 12-03 16:35 896次阅读

    语音播报芯片:让产品“开口说话”的秘密

    不知道大家发现没有,在我们的日常生活当中,其实有很多会“说话”的产品,比如我们日常骑行电动自行车,在没电的时候它会通过语音播报提醒你“电量低请及时充电”。在便利店或者很多餐饮商家付款的时候,都会有一
    的头像 发表于 09-28 09:28 785次阅读
    <b class='flag-5'>语音</b>播报芯片:让产品“开口<b class='flag-5'>说话</b>”的秘密

    瑞芯微RK3576语音识别算法

    字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音说话人而非其中所包含的词汇内容。我们的语音算法是基于Whisper是Op
    的头像 发表于 08-15 15:13 2550次阅读
    瑞芯微RK3576<b class='flag-5'>语音</b>识别算法

    哪些离线语音芯片适用于家电设备

    ​哪些离线语音芯片适用于家电设备?选择适用于家电设备的离线语音芯片时,需综合考量家电的使用环境、功能需求、成本预算等多方面因素。以下为您推荐几款性能出色的离线
    的头像 发表于 08-06 17:27 1093次阅读
    哪些离线<b class='flag-5'>语音</b>芯片适用于家电<b class='flag-5'>设备</b>

    语音控制模块工作原理

    ,才能够发出正确的指令。 语音芯片控制模块是实现 “语音指令 - 设备响应” 的核心组件,其工作原理可拆解为信号采集、处理、识别及指令执行的
    的头像 发表于 06-17 11:49 1923次阅读
    <b class='flag-5'>语音</b><b class='flag-5'>控制</b>模块工作原理