0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于声智穿透式远场语音技术介绍

声智科技 来源:djl 作者:声智科技 2019-08-13 09:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2018年11月1日,腾讯全球合作伙伴大会,以“开放·共生”为主题,在南京开幕。声智科技联合创始人兼首席知识官常乐受邀出席,并与来自全球的科技、文化与商业领域数百位国际大咖和万名行业精英,以及腾讯微信、QQ、腾讯云、腾讯开放平台、腾讯企鹅号、腾讯应用宝、腾讯AI Lab、腾讯车联、腾讯自动驾驶、腾讯微瓴互联、腾讯动漫等业务条线的合作伙伴,共商未来人机互联战略布局与发展之道。

声智科技联合创始人兼首席知识官常乐表示:“未来,我们将置身于人工智能语音交互时代,继续朝着‘语音即搜索,语言即服务’方向演进。物理世界与数字世界的有机融合会进一步加速,日益形成更加智能化的万物互联的人机世界。实现这一美好智能图景的关键在于,实现智能语音交互在更多真实复杂场景中的应用与落地。声智科技,自2017年初成为腾讯人工智能生态合作伙伴以来,依托声智科技自主研发的软硬件一体的远场语音交互技术势能,先后为腾讯打造了腾讯智能音箱、智能车机系统以及全球首款王者荣耀智能机器人等产品,助力腾讯深化在家居、车载和机器人三大领域的人工智能布局与落地。”

全球首创的穿透式远场语音交互解决方案

王者荣耀智能机器人,游戏人物战神吕布为原型,是国内首款人工智能与游戏结合的智能机器人。搭载声智科技为腾讯独家定制的全球首创的穿透式远场语音交互解决方案,采用全球首款人偶型音腔结构设计,由独立的人偶和底座两部分构成,底座装有旋转装置,人偶可以追随玩家用户的声源,并且旋转定位;通过独家的6麦环形倒置麦克风阵列(Inverse Array)设计,内置穿透式波达方向估计(Penetrated DOA),动态声场的回声消除(Vibrated AEC)等独家定制的AI声学算法,成就了具备“听”、“说”感知能力的AI游戏达人——王者荣耀智能机器人!在腾讯全球合作伙伴大会上,王者荣耀智能机器人惊艳亮相展区,为现场观众带来了真实不凡的语音交互体验。

(1)6麦环形倒置麦克风阵列(InverseArray)

为了战斗时,给游戏玩家身临其境的听觉享受,王者荣耀机器人将扬声器设置于人偶的头部。区别于常规智能语音设备(比如音箱、机顶盒)麦克风阵列置于顶端、扬声器位于底部的“上听下说”且“听说一体”的圆柱或立方体的中空音腔结构,王者荣耀智能机器人的麦克风阵列设计位置只能置于底座,从而形成独特的“下听上说”且“听说分离”的不规则非中空音腔结构。这样的结构设计,也给麦克风阵列的结构设计与声学AI算法适配带来了巨大的难度。

同时,为了让王者荣耀机器人可以随时定位玩家位置,底盘设置了旋转电机装置,电机极为靠近麦克风阵列,当人偶被唤醒后进行大角度旋转时,会产生电机噪音,影响麦克风阵列的准确拾音。

为此,声智科技为腾讯的王者荣耀机器人量身研制了“倒置麦克风阵列(Inverse Array)”技术。基于声智科技定制研发的6麦环形的倒置麦克风阵列,进一步加强麦克风阵列的声音信号处理能力,对抗人偶机器人对于麦克风阵列的遮挡,以及其产生的声反射和声衍射的干扰,有效抑制自噪声和其他外部噪音。在真实的环境中,王者荣耀智能机器人可拾取3-5米远场距离声音,并实现的360度全方位的语音唤醒与识别。

(2)穿透式波达方向估计(PenetratedDOA)

王者荣耀智能机器人独特的设计,使人偶身体处在麦克风阵列正上方,成为直接障碍物,形成了大量因不规则外形的人偶身体产生的声反射和声衍射,导致了多径传播情况的普遍发生,极大影响了王者荣耀智能机器人的准确定位功能。

为了应对这些结构性挑战,进一步加强麦克风阵列的声音信号处理,有效抑制自噪声和其他外部噪音,提高声源测向的准确度,声智科技最新研发了穿透式波达方向估计(Penetrated DOA)技术。即使在噪音干扰大,强混响,强反射面的条件下,王者荣耀智能机器人可实现360度全方位的测向,定位误差在10度以内,随时响应“主公”的呼唤。

(3)动态声场的回声消除(VibratedAEC)

传统智能音箱等产品的设计扬声器在底部,而王者荣耀智能机器人的扬声器位于头部两侧,一侧指向性的扬声器为全频段发声器件,承担主动发声功能,另一侧为低频共振被动膜片被动发声,以达到较佳的低音效果。而这样的特殊设计,导致位于扬声器垂直下方的环形麦克风阵列单元拾取到的扬声器系统自噪声直达声信号不一致,这无疑增大了语音唤醒与识别的难度。

而且,主动扬声器的声音会干扰麦克风阵列进行声源侧向,进一步影响人偶旋转角度的准确性。同时,旋转装置的电机,极为靠近麦克风阵列,当人偶被唤醒后进行大角度旋转时,产生的电机噪音影响麦克风阵列的拾音。

为此,声智科技研发了最新的动态声场回声消除(Vibrated AEC)技术,可有效提升音乐状态或语音合成(TTS)状态下的唤醒率,以及在5米内的噪音环境下的远场语音唤醒和识别率。搭配声智科技自主知识产权的混响消除、宽场景高灵敏语音唤醒等专属声学AI算法,可在保护主方向语音不失真的前提下,去除环境中的语音等非稳态噪声以及空调等其他平稳噪声的干扰,自适应计算混响的能量,予以抑制,去除由于房间混响造成的语音拖尾,增强语音清晰度,同时解决弱参考信号或者无参考信号等复杂场景中的回声抵消(自噪声抑制)问题,在双工语音交互(Double Talk)的情况下仍然鲁棒。

所以,王者荣耀智能机器人在保证高唤醒率的同时,能有力降低误唤醒率,实现轻松唤醒,随时打断、随时唤醒,无惧环境,想说就说,声随心动,为用户打造完美的远场语音交互的体验。

语音交互技术的创新,只有依托真实的场景,才能真正释放技术的潜能,发挥技术的应用价值,推动人工智能朝着普惠化方向发展,让更多人切实地感受到科技的智能、快捷与便利。声智科技,将继续坚持引领技术服务场景的创新路线,携手生态合作伙伴,为不同的垂直行业打造适配多元场景的远场语音交互系统方案。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    214

    文章

    31634

    浏览量

    224480
  • 人工智能
    +关注

    关注

    1821

    文章

    50511

    浏览量

    267728
  • 语音交互
    +关注

    关注

    3

    文章

    364

    浏览量

    29239
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    全场景高清语音处理标杆:NR2048 高性能语音处理器技术解析与应用展望

    语音识别率与性能,同时向更高集成度、更低功耗、更小体积迭代,适配 AR/VR、可穿戴医疗、工业物联网等新兴场景。
    的头像 发表于 05-15 00:00 777次阅读
    全场景高清<b class='flag-5'>语音</b>处理标杆:NR2048 高性能<b class='flag-5'>语音</b>处理器<b class='flag-5'>技术</b>解析与应用展望

    远距离无线芯动力,穿透干扰稳连接——深入解读LoRa扩频技术

    一、什么是LoRa扩频?LoRa扩频技术是一种基于直接序列扩频(DSSS)的先进无线通信技术,通过将信号频谱扩展至更宽的带宽,在低功耗条件下实现远距离、高穿透、强抗干扰的数据传输。它不仅是物联网远程
    发表于 05-09 09:43

    一文读懂VirtualLab Fusion追迹技术

    会出现一个问题:这些算法到底分别适合什么任务?如何通过它们的配置去实现积分、逐点传输、广义德拜积分等典型分析?这篇文章就围绕这个核心问题展开,帮助大家建立一个清晰的使用框架。 一
    发表于 05-06 08:30

    远距离无线芯动力,穿透干扰稳连接——深入解读LoRa扩频技术

    一、什么是LoRa扩频?LoRa扩频技术是一种基于直接序列扩频(DSSS)的先进无线通信技术,通过将信号频谱扩展至更宽的带宽,在低功耗条件下实现远距离、高穿透、强抗干扰的数据传输。它不仅是物联网远程
    发表于 04-24 15:00

    什么是语音芯片?思泽科技语音芯片的工作原理、主流类型与核心应用

    人声,背后都离不开一颗关键元器件——语音芯片。那么,什么是语音芯片?它有哪些类型,又如何选择?作为专注于语音芯片方案开发的高科技企业,思泽科技将为您详细解读。   一、什么是
    的头像 发表于 04-21 10:11 183次阅读

    A-68 双麦语音处理模组:高性能降噪与回音消除技术解析

    A-68 一款高性能双麦语音处理模组,以专用 DSP 芯片为核心,集成回音消除(AEC)、环境降噪(ENC)与波束成型技术,可高效解决免提全双工通话、拾音场景下的声学干扰问题,为音
    的头像 发表于 04-17 10:16 340次阅读
    A-68 双麦<b class='flag-5'>语音</b>处理模组:高性能降噪与回音消除<b class='flag-5'>技术</b>解析

    思泽科技语音芯片指南:在嵌入产品中 融入语音播报

    随着嵌入技术的不断发展,在产品中加入语音播报功能已成为提升用户体验的重要手段。然而,面对市面上琳琅满目的语音方案,工程师们往往感到无从下手。本文将从实际工程角度出发,结合思泽
    的头像 发表于 04-14 09:17 507次阅读
    思泽<b class='flag-5'>远</b>科技<b class='flag-5'>语音</b>芯片指南:在嵌入<b class='flag-5'>式</b>产品中 融入<b class='flag-5'>语音</b>播报

    智科技语音交互插件上线ClawHub

    核心突破:填补生态空白近日,智科技自主研发的语音交互插件,包含ASR(自动语音识别)与TTS(语音合成)正式通过ClawHub官方审核并接入服务;与此同时,
    的头像 发表于 04-08 17:55 1234次阅读

    一文读懂RFID近场与天线:从原理到应用的核心差异

    在 RFID 技术的落地场景中,小到地铁刷卡的 “滴” ,大到仓库整托货物的快速盘点,决定 “能读多远、读得多准” 的核心,正是近场与两类天线。看似都是传递射频信号的 “载体”,
    的头像 发表于 01-16 17:00 1182次阅读

    软通动力发布新一代“棱镜”穿透监管平台

    近年来,国资委持续加强穿透监管力度,明确提出“实质重于形式,穿透至末梢、追溯至源头”,强调“监管无死角、问责无盲区”。
    的头像 发表于 01-14 15:06 711次阅读
    软通动力发布新一代“棱镜”<b class='flag-5'>穿透</b><b class='flag-5'>式</b>监管平台

    远距离无线芯动力,穿透干扰稳连接——深入解读LoRa扩频技术

    一、什么是LoRa扩频?LoRa扩频技术是一种基于直接序列扩频(DSSS)的先进无线通信技术,通过将信号频谱扩展至更宽的带宽,在低功耗条件下实现远距离、高穿透、强抗干扰的数据传输。它不仅是物联网远程
    发表于 12-19 11:06

    内网穿透:从原理到实战部署

    本文介绍了内网穿透技术的原理及其应用解决方案。由于NAT网络和动态IP的限制,外部无法直接访问内网设备。内网穿透通过公网中转服务器建立连接通道,实现外部访问内网服务。文章详细讲解了Ze
    的头像 发表于 11-04 16:57 1634次阅读
    内网<b class='flag-5'>穿透</b>:从原理到实战部署

    即插即用,声控万物!XMOS携手矽递科技赋能AI语音交互

    基于XMOS XVF3800的ReSpeaker麦克风阵列AI智能语音识别开发板已在全球市场全面上市。
    的头像 发表于 09-22 10:17 609次阅读
    即插即用,声控万物!XMOS携手矽递科技赋能AI<b class='flag-5'>语音</b>交互

    智科技与蚂蚁集团共探声学AI前沿技术

    当声学AI遇上金融科技,会碰撞出怎样的火花?当声学AI模型赋能AI硬件产品,又将如何重塑人机交互的边界?近日,智科技受邀参加蚂蚁集团《AI圆桌派》内部分享会,一关于声学AI前沿技术
    的头像 发表于 07-24 10:18 1262次阅读

    智睿SSD2351开发板:语音机器人领域的变革力量

    在人工智能快速发展的今天,语音机器人逐渐成为人们生活和工作中的得力助手。明智睿SSD2351开发板凭借强大性能与丰富功能,为语音机器人的发展注入新动力,成为该领域的变革力量。 SSD2351开发板
    发表于 05-28 11:36