0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于声智穿透式远场语音技术介绍

声智科技 来源:djl 作者:声智科技 2019-08-13 09:01 次阅读

2018年11月1日,腾讯全球合作伙伴大会,以“开放·共生”为主题,在南京开幕。声智科技联合创始人兼首席知识官常乐受邀出席,并与来自全球的科技、文化与商业领域数百位国际大咖和万名行业精英,以及腾讯微信、QQ、腾讯云、腾讯开放平台、腾讯企鹅号、腾讯应用宝、腾讯AI Lab、腾讯车联、腾讯自动驾驶、腾讯微瓴互联、腾讯动漫等业务条线的合作伙伴,共商未来人机互联战略布局与发展之道。

声智科技联合创始人兼首席知识官常乐表示:“未来,我们将置身于人工智能语音交互时代,继续朝着‘语音即搜索,语言即服务’方向演进。物理世界与数字世界的有机融合会进一步加速,日益形成更加智能化的万物互联的人机世界。实现这一美好智能图景的关键在于,实现智能语音交互在更多真实复杂场景中的应用与落地。声智科技,自2017年初成为腾讯人工智能生态合作伙伴以来,依托声智科技自主研发的软硬件一体的远场语音交互技术势能,先后为腾讯打造了腾讯智能音箱、智能车机系统以及全球首款王者荣耀智能机器人产品,助力腾讯深化在家居、车载和机器人三大领域的人工智能布局与落地。”

全球首创的穿透式远场语音交互解决方案

王者荣耀智能机器人,游戏人物战神吕布为原型,是国内首款人工智能与游戏结合的智能机器人。搭载声智科技为腾讯独家定制的全球首创的穿透式远场语音交互解决方案,采用全球首款人偶型音腔结构设计,由独立的人偶和底座两部分构成,底座装有旋转装置,人偶可以追随玩家用户的声源,并且旋转定位;通过独家的6麦环形倒置麦克风阵列(Inverse Array)设计,内置穿透式波达方向估计(Penetrated DOA),动态声场的回声消除(Vibrated AEC)等独家定制的AI声学算法,成就了具备“听”、“说”感知能力的AI游戏达人——王者荣耀智能机器人!在腾讯全球合作伙伴大会上,王者荣耀智能机器人惊艳亮相展区,为现场观众带来了真实不凡的语音交互体验。

(1)6麦环形倒置麦克风阵列(InverseArray)

为了战斗时,给游戏玩家身临其境的听觉享受,王者荣耀机器人将扬声器设置于人偶的头部。区别于常规智能语音设备(比如音箱、机顶盒)麦克风阵列置于顶端、扬声器位于底部的“上听下说”且“听说一体”的圆柱或立方体的中空音腔结构,王者荣耀智能机器人的麦克风阵列设计位置只能置于底座,从而形成独特的“下听上说”且“听说分离”的不规则非中空音腔结构。这样的结构设计,也给麦克风阵列的结构设计与声学AI算法适配带来了巨大的难度。

同时,为了让王者荣耀机器人可以随时定位玩家位置,底盘设置了旋转电机装置,电机极为靠近麦克风阵列,当人偶被唤醒后进行大角度旋转时,会产生电机噪音,影响麦克风阵列的准确拾音。

为此,声智科技为腾讯的王者荣耀机器人量身研制了“倒置麦克风阵列(Inverse Array)”技术。基于声智科技定制研发的6麦环形的倒置麦克风阵列,进一步加强麦克风阵列的声音信号处理能力,对抗人偶机器人对于麦克风阵列的遮挡,以及其产生的声反射和声衍射的干扰,有效抑制自噪声和其他外部噪音。在真实的环境中,王者荣耀智能机器人可拾取3-5米远场距离声音,并实现的360度全方位的语音唤醒与识别。

(2)穿透式波达方向估计(PenetratedDOA)

王者荣耀智能机器人独特的设计,使人偶身体处在麦克风阵列正上方,成为直接障碍物,形成了大量因不规则外形的人偶身体产生的声反射和声衍射,导致了多径传播情况的普遍发生,极大影响了王者荣耀智能机器人的准确定位功能。

为了应对这些结构性挑战,进一步加强麦克风阵列的声音信号处理,有效抑制自噪声和其他外部噪音,提高声源测向的准确度,声智科技最新研发了穿透式波达方向估计(Penetrated DOA)技术。即使在噪音干扰大,强混响,强反射面的条件下,王者荣耀智能机器人可实现360度全方位的测向,定位误差在10度以内,随时响应“主公”的呼唤。

(3)动态声场的回声消除(VibratedAEC)

传统智能音箱等产品的设计扬声器在底部,而王者荣耀智能机器人的扬声器位于头部两侧,一侧指向性的扬声器为全频段发声器件,承担主动发声功能,另一侧为低频共振被动膜片被动发声,以达到较佳的低音效果。而这样的特殊设计,导致位于扬声器垂直下方的环形麦克风阵列单元拾取到的扬声器系统自噪声直达声信号不一致,这无疑增大了语音唤醒与识别的难度。

而且,主动扬声器的声音会干扰麦克风阵列进行声源侧向,进一步影响人偶旋转角度的准确性。同时,旋转装置的电机,极为靠近麦克风阵列,当人偶被唤醒后进行大角度旋转时,产生的电机噪音影响麦克风阵列的拾音。

为此,声智科技研发了最新的动态声场回声消除(Vibrated AEC)技术,可有效提升音乐状态或语音合成(TTS)状态下的唤醒率,以及在5米内的噪音环境下的远场语音唤醒和识别率。搭配声智科技自主知识产权的混响消除、宽场景高灵敏语音唤醒等专属声学AI算法,可在保护主方向语音不失真的前提下,去除环境中的语音等非稳态噪声以及空调等其他平稳噪声的干扰,自适应计算混响的能量,予以抑制,去除由于房间混响造成的语音拖尾,增强语音清晰度,同时解决弱参考信号或者无参考信号等复杂场景中的回声抵消(自噪声抑制)问题,在双工语音交互(Double Talk)的情况下仍然鲁棒。

所以,王者荣耀智能机器人在保证高唤醒率的同时,能有力降低误唤醒率,实现轻松唤醒,随时打断、随时唤醒,无惧环境,想说就说,声随心动,为用户打造完美的远场语音交互的体验。

语音交互技术的创新,只有依托真实的场景,才能真正释放技术的潜能,发挥技术的应用价值,推动人工智能朝着普惠化方向发展,让更多人切实地感受到科技的智能、快捷与便利。声智科技,将继续坚持引领技术服务场景的创新路线,携手生态合作伙伴,为不同的垂直行业打造适配多元场景的远场语音交互系统方案。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    206

    文章

    27055

    浏览量

    201441
  • 人工智能
    +关注

    关注

    1776

    文章

    43906

    浏览量

    230647
  • 语音交互
    +关注

    关注

    3

    文章

    272

    浏览量

    27824
收藏 人收藏

    评论

    相关推荐

    车内语音识别技术在智能驾驶中的应用与前景

    将详细介绍车内语音识别技术在智能驾驶中的应用、挑战以及未来的发展趋势。 二、车内语音识别技术在智能驾驶中的应用
    的头像 发表于 02-19 11:46 256次阅读

    语音数据集:开启智能语音技术的新篇章

    随着人工智能技术的飞速发展,语音数据集在推动智能语音技术的进步中发挥着越来越重要的作用。语音数据集是训练和优化
    的头像 发表于 12-29 11:06 205次阅读

    语音数据集:智能语音技术的基石与挑战

    随着人工智能技术的飞速发展,语音技术已成为人机交互领域的重要突破口。语音数据集作为支撑语音技术
    的头像 发表于 12-28 11:28 332次阅读

    语音数据集:AI语音技术的灵魂

    一、引言 在人工智能领域,语音技术被誉为“未来人机交互的入口”,而语音数据集则是AI语音技术的灵魂。本文将深入探讨
    的头像 发表于 12-14 14:33 360次阅读

    语音数据集:推动AI语音技术的核心力量

    一、引言 随着人工智能的快速发展,语音技术作为人机交互的重要手段,正发挥着越来越重要的作用。而语音数据集则是推动AI语音技术的核心力量。本文
    的头像 发表于 12-12 11:32 292次阅读

    离线语音识别及控制是怎样的技术

    引言:  随着人工智能的飞速发展,离线语音识别技术成为了一项备受瞩目的创新。离线语音识别技术能够将人的语音转化为可理解的文本,无需依赖网络连
    发表于 11-24 17:41

    离线语音识别和控制的工作原理及应用

    的应用越来越广泛。本文将深入探讨离线语音识别的工作原理,以及其所使用的技术。   一、离线语音识别的工作原理   离线语音识别的工作原理包括信号采集、预处理、特征提取和匹配等步骤。下面
    发表于 11-07 18:01

    标准系统:鸿诚志HCPAD-100(RK3568)

    开发板名称(芯片型号) 鸿诚志HCPAD-100(RK3568) 芯片架构 CPU频率 介绍(字数请控制在200字以内) 鸿诚志HCPAD-100开发板使用RK3568作为主控,搭载鸿诚志
    发表于 10-19 10:57

    内网穿透可以带给物联网什么呢?

    内网穿透可以带给物联网什么呢?
    的头像 发表于 10-14 15:14 400次阅读

    语音识别技术的应用及优化

    一、引言 语音识别技术是一种能够让计算机“听懂”人类语言的技术。随着科技的不断发展,语音识别技术的应用范围越来越广泛。本文将探讨
    的头像 发表于 10-10 17:26 1014次阅读

    语音合成技术的应用与挑战

    语音合成技术是一种通过计算机技术生成人类可听的语音技术,它已经广泛应用于各个领域。本文将介绍
    的头像 发表于 09-16 14:46 730次阅读

    语音合成技术的简介与未来发展

    语音合成是一种通过计算机技术生成人类可听的语音技术。它将文本转换为语音,从而实现语音交互。本文
    的头像 发表于 09-15 18:17 821次阅读

    内网穿透工具的种类、原理和使用方法

    本文以渗透的视角,总结几种个人常用的内网穿透,内网代理工具,介绍其简单原理和使用方法。
    的头像 发表于 08-25 10:35 384次阅读
    内网<b class='flag-5'>穿透</b>工具的种类、原理和使用方法

    TTS语音合成技术及其应用

    TTS语音合成技术是一种将文本转换为自然语音技术,它利用计算机技术和人工智能技术来模拟人声的发
    的头像 发表于 06-24 02:28 845次阅读

    语音识别技术的概念及应用前景

    技能,提升用户的智能化体验。 ​ AIoT语音介绍 “AI+IoT”将是未来的风口,各种应用和商机将成井喷增长,国内外各大互联网巨头早已提前布局AI+IoT的战略,这同时也是启英泰伦的战略之一
    发表于 05-27 09:41