0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华为研发语音唤醒方法及电子设备的语音交互技术

454398 来源:搜狐 作者:搜狐 2021-01-09 09:07 次阅读

通常语音交互过程通常分为唤醒、响应、输入、理解、反馈几个环节,语音交互技术也一直是IBM、微软、百度等遥遥领先。

几个月前,华为消费者业务CEO余承东表示华为正在研发国际版的语音助手,同时建立自己的AI服务,并将在未来扩展到国际市场。

人工智能的潮流推动下,智能化语音技术不断发展,许多电子设备中都添加了语音助手,如Siri、小爱同学、天猫精灵等,用来协助用户进行人机交互过程。为了使得语音助手能够及时检测并响应用户发出的语音交互指令,电子设备一般会预设一些唤醒词,如“Hi Siri”等,当检测到用户输入唤醒词时,可触发电子设备与用户进行交流。通常设备设置唤醒词的声强门限60dB,当用户输入声强大于60dB时,电子设备检测成功,然而当用户距离设备较远时,由于输入声强的降低,电子设备往往难以检测到输入语音信号从唤醒失败。在这种情况下,如何在远距离下提高语音助手唤醒成功率成为诸多企业竞相研究的热点。

华为公司于2019年7月25日提出了一项名为“一种语音唤醒方法及电子设备”的发明专利(申请号:201910677390 .9),申请人为华为技术有限公司。

此发明专利介绍了一种语音唤醒方法及相对应的电子设备,可以在较广的位置范围内保证电子设备被成功唤醒的几率,从而提高用户的使用体验,而该种方法可以被应用于诸如智能家居设备、PC、手机、音箱等具有语音交互功能的电子设备之中。

o4YBAF9uXB6ASSloAACJI4NT3Lc054.png

图1 语音交互过程示意图

通常语音交互过程可分为唤醒、响应、输入、理解、反馈几个环节。当设备处于待机状态时,需要识别用户输入的语音唤醒信号,如果识别成功则切换到工作状态,此后则可以通过语音识别算法用户对输入的语义内容进行识别并响应,整个过程如图1所示。

从上述过程可以看出,成功唤醒电子设备是实现人机语音交互的基础,而唤醒设备的过程就是通过预设的唤醒参数检测用户的语音输入。唤醒参数如唤醒门限、拾音方向、噪声抑制参数、放大增益等的取值决定了电子设备在检测唤醒输入语音时唤醒率的高低。在实际使用过程中,用户相对设备的位置差异导致了唤醒率的不同,因此根据用户所在的位置动态设置唤醒参数可以使得电子设备在不同位置场景下保持较高的唤醒率。

pIYBAF9uXCCACWbGAAEKoHGuKwk742.png

图2 语音唤醒方法应用场景示意图

图2为上述提到的基于用户位置信息来划分区域,从而进行语音唤醒的示意图。电子设备在待机状态时可周期性地通过摄像头采集用户图像信息,并根据图像确定用户所在的位置信息。对于不同区域,设备可预先设置对应的唤醒参数,以声强为例,在近处的区域设置较大的门限,而在远处区域设置较小的门限,从而使各个区域都达到较高的唤醒率。如图2所示的三个区域各自具有一套唤醒参数,从而提高了语音交互场景下用户的使用体验。

o4YBAF9uXCGAUjaBAAITFAM0hTk601.png

图3 语音唤醒方法流程图

图3是此专利提供的一种语音唤醒方法流程示意图。以智能电视为例,首先设备通过摄像头采集图像,并通过采集的图像确定其中是否包含用户,如果包含则确定图像中第一用户所在的第一目标位置,并获取该位置下的唤醒参数。当用户输入语音后,设备根据上述唤醒参数处理输入语音信号。如果用户从区域1切换到区域2,则设备获取区域2中的唤醒参数并进行信号处理,包括模数转换、降噪、放大等,因此该设备可根据用户所在位置实时动态的对切换唤醒参数,达到更好的人机交互效果。

在智能语音服务上,Google和亚马逊的是目前公认的业界巨头,然而从此项专利可以推断出华为在语音业务上也在不断努力发展!

编辑:hfy
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    215

    文章

    33643

    浏览量

    247177
  • 人工智能
    +关注

    关注

    1776

    文章

    43913

    浏览量

    230647
  • 语音交互
    +关注

    关注

    3

    文章

    272

    浏览量

    27824
收藏 人收藏

    评论

    相关推荐

    离线自然说,无需记固定唤醒词也能语音控制设备

    电子发烧友网报道(文/李弯弯)离线语音识别是指不需要依赖网络,在本地设备实现语音识别的过程,通常以端侧AI语音芯片作为载体来进行数据的采集、
    的头像 发表于 04-29 09:12 764次阅读
    离线自然说,无需记固定<b class='flag-5'>唤醒</b>词也能<b class='flag-5'>语音</b>控制<b class='flag-5'>设备</b>!

    语音数据集:智能语音技术的基石与挑战

    随着人工智能技术的飞速发展,语音技术已成为人机交互领域的重要突破口。语音数据集作为支撑语音
    的头像 发表于 12-28 11:28 332次阅读

    语音数据集:AI语音技术的灵魂

    一、引言 在人工智能领域,语音技术被誉为“未来人机交互的入口”,而语音数据集则是AI语音技术的灵
    的头像 发表于 12-14 14:33 360次阅读

    离线语音识别技术:掌控未来的语音交互

    离线语音识别技术的核心优势在于其独立性和实时性。在没有网络连接的情况下,设备依然能够迅速识别用户的语音指令,实现各种功能。这使得语音
    的头像 发表于 12-13 11:12 280次阅读
    离线<b class='flag-5'>语音</b>识别<b class='flag-5'>技术</b>:掌控未来的<b class='flag-5'>语音</b><b class='flag-5'>交互</b>

    离线语音识别及控制是怎样的技术

    信号转化为文本或语义结果。  与传统的云端语音识别相比,离线语音识别的工作原理是将语音识别技术算法和模型部署在用户的设备上,通过
    发表于 11-24 17:41

    情感语音识别技术在人机交互中的应用与展望

    一、引言 随着人工智能技术的不断发展,人机交互已经渗透到日常生活的方方面面。情感语音识别作为人机交互中的关键技术之一,能够通过分析人类
    的头像 发表于 11-22 10:40 335次阅读

    方言离线语音控制场景解决方案

      随着科技的不断发展,离线语音识别技术已经变得越来越成熟。在日常生活中,老人或小孩可能会遇到一些困难,如操作复杂的电子设备。为了解决这一问题,离线语音识别模块成为了一个很好的解决方
    发表于 11-17 17:57

    情感语音识别技术在人机交互中的应用与挑战

     一、引言 随着人工智能技术的不断发展,人机交互已经成为了研究的热点之一。情感语音识别技术作为人机交互中的重要组成部分,能够通过识别人的
    的头像 发表于 11-09 15:27 382次阅读

    语音识别唤醒词:让智能设备主动“听”你的声音

    语音识别唤醒词是指在语音助理和智能设备中使用的特定词语或短语,用于唤醒设备并启动
    的头像 发表于 08-07 20:21 1249次阅读

    智能座舱的语音交互系统技术应用

    从用户发出语音指令到实现与智能设备交互,其过程并不像其名词描述的那么简单,要实现通过语音来完成人机交互,要解决解决三个关键问题,如何让机器
    发表于 07-28 10:17 346次阅读
    智能座舱的<b class='flag-5'>语音</b><b class='flag-5'>交互</b>系统<b class='flag-5'>技术</b>应用

    语音识别唤醒词-开启智能化的语音交互时代

    语音识别唤醒词是指在语音交互系统中使用的特定词语或短语,用于唤醒系统并启动语音识别功能。这项
    的头像 发表于 07-09 00:53 948次阅读

    电子设备中的语音和音频控制进展

    在本文中,我们将解释用语音和音频信号控制电子设备和机器的好处,并回顾如何实现这种控制。我们还将展示这种控制界面现在可以如何能够嵌入到离线设备,以及它们提供的音频控制体验如何能够大幅度改善。
    的头像 发表于 07-08 11:00 395次阅读

    语音识别唤醒词的挑战与未来发展

    尽管语音识别唤醒技术已经被广泛应用于各个领域,但仍然面临着一些挑战和问题。 首先,语音识别唤醒技术
    的头像 发表于 06-24 04:09 478次阅读

    语音识别唤醒词的技术与应用

    词是语音识别技术中的重要组成部分,它的作用是检测语音输入并判断是否包含唤醒词,如果包含则执行相应的指令或响应。 语音识别
    的头像 发表于 06-24 04:02 905次阅读

    语音识别技术的概念及应用前景

    智能语音技术是人工智能应用最成熟的技术之一,并拥有交互的自然性,就是让智能设备听懂人类的语音。它
    发表于 05-27 09:41