0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

支持情感TTS,小爱音箱Art声学技术重磅升级!

姚小熊27 来源:北国网 作者:北国网 2020-06-17 15:48 次阅读

近日,小米发布了小爱音箱Art,这款音箱采用全新的金属机身,机身扬声器开孔被设计成0.7mm厚度的金属饰板,可谓功能与质感兼具。小米小爱音箱Art通过一颗2.5英寸的全频扬声器,让声音的细节呈现得更加自然。

作为小米推出的第9款智能音箱,小米小爱音箱Art在技术上也全面升级,搭载第三代小爱同学,并支持情感化语音交互、全屋播放及就近唤醒。通过这款音箱得以看出,小米的声学语音技术已经实现全面自研,并在自研部分领域持续。

情感化语音交互:通过迭代声学模型,支持情感TTS

对于智能设备而言,实现情感化语音交互是一项挑战。“情感”本身就是主观的、多样的感受,一种情感可以有多种呈现形式,更适合人与人的面对面对话。情感化语音交互对技术要求较高,要技术方、数据方、质检方等多方对情感浓度、情感诠释方式等标准达成共识,将较主观的情感音素统一化、标准化。

随着人工智能技术的发展,在实现人机对话的基础上,各大厂商都在情感化语音交互的领域探索。为了让机器加入情感元素,小米AI实验室在“情感数据量有限”的前提下,通过不同声学模型、不同声码器组合最终上线自然、拟人效果的情感TTS,成为业内首 家情感化TTS大规模落地的企业。

通过小米AI实验室的不断深耕,此次小米小爱同学Art全面支持情感化语音交互,基于有限但类型不同的情感音频数据(如开心、关心、害羞、惊讶等),通过不同技术训练并迭代声学模型,最终支持情感TTS合成并实现“小爱同学”音感化、拟人化。

未来,小米语音将升级此技术——支持情感TTS实时合成。从下图中可以看出,在大数据集的预训练模型基础上,利用目标说话人的中性情感数据对网络进行微调,得到目标说话人的中性情感模型;在此基础上用带情感的小批量数据对模型进一步微调,最终得到不同情感的模型,最终实现情感合成。

在国内语音助手行业中,小米首 次实现情感化TTS的大规模落地,未来将打造情感更加丰富的“小爱同学”,为用户提供多元化的语音交互体验,为IoT设备增加更丰富更立体更逼真的语音交互体验。

语音支持全屋播放:立体声组合同步播放相同音频

小米小爱音箱Art,是首 款可以实现语音支持全屋播放的设备。用户直接对小爱同学说“全屋播放XX”,无需提前在App端进行手动设置,即可实现一句话语音交互,为用户提供了更便捷的使用方式。

要实现这一功能,音箱需要具备AIoT放音的技术。小米AIoT放音的自研技术在攻克无线网络抖动、晶振时钟漂移以及弱网下数据不可达等一系列技术难题后,将不同音箱播放声音的同步优化到微秒级别,同时还实现了在不同型号的音箱之间的数据同步,提供更细腻的音质和宽广的声像。

立体声支持APP创建组网,才能进行语音指令和APP操作播放,全屋播放同时支持语音指令和APP创建组网。

立体声功能同时支持语音指令和app操作播放,云端音频流下发至音箱A,音箱A将立体声分离为左右声道,音箱A自己播放左声道音频并将右声道音频流下发给音箱B,由B音箱播放右声道,精准的同步技术保证音箱A和B同时播放立体声的左右声道音频。全屋播放功能支持语音指令和app创建组网,音频流下发至音箱C,音箱C将音频流混合为单声道信号并下发给组内其他的音箱设备同时播放,不区分声道,可支持多个设备。

就近唤醒全面升级:实现跨设备关闭闹钟

早在2018年,小米音箱系列就上线了就近唤醒功能。值得一提的是,此次小米小爱音箱Art就近唤醒全新升级,可支持跨设备关闭闹钟。远处的音箱闹钟响了,唤醒近处的音箱可以直接关闭远处的闹钟。此功能在业内首 次上线,小米小爱音箱Art也是首 款支持该功能的产品

说到就近唤醒,小米早在2018年就上线这一功能,截止2020年4月28日,分布式就近唤醒已为多设备用户累计避免约6.82亿次设备同时唤醒,准确率达到98%。近期首 发上线了端云多维度结合的就近唤醒综合决策策略,深入加强多设备状态信息联动,智能判决空间信息,进一步提升了家庭复杂网络环境的兼容性,同时做到了多设备响应的唯一执行,大幅提升用户体验。

未来,小米将专注于家居复杂场景应用、智能声学感知和多传感融合。在复杂的家庭结构环境中,保证算法的可用性,让每个设备主动感知所处的不同环境,根据环境完成算法自适应,将数据结果取长补短,相互融合,实现多维度智能感知。

两麦阵列唤醒:两麦盲源分离降噪前端,双级唤醒策略支撑

小米小爱音箱Art同步支持两麦阵列唤醒技术。在麦克风阵列方面,小米采用两麦盲源分离降噪前端,通过盲源分离、降噪、回声消除等技术,在多声源的嘈杂环境、音箱自身播放音乐时,都能结合语音增强技术,消除噪音的强干扰,获得干净、准确的人声音频。

在唤醒方面,为了兼顾低功耗与高性能,自研语音唤醒算法采用双级唤醒策略。低功耗待机唤醒词检测模型,利用子采样与共享隐含层等技术,减少模型资源消耗的同时保证召回率在一个较高的水平。高性能误唤醒检测模型,采用粗粒度建模单元,结合局部信息与长时上下文信息,高效抑制误唤醒。通过从海量数据中自动挖掘高区分度训练样本,再经过数据扩充技术,提高唤醒模型在低信噪比与小音量场景下的鲁棒性。

小米AI实验室语音产品负责人陈君宇表示,小米IoT平台连接的智能硬件数已达到2.5亿台,音箱出货量已经达到2200万台,在这么大的用户体量下,如何让基础体验持续提升,且提升产品在AI体验上的创新性,对自研AI团队来说是非常重要的使命。

小米一直致力于研发先进的AI技术,并将技术落地到产品及业务,为用户带来更好的产品体验,让全球每一个人都能享受科技带来的美好生活。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • TTS
    TTS
    +关注

    关注

    0

    文章

    29

    浏览量

    10693
  • 小米
    +关注

    关注

    68

    文章

    14132

    浏览量

    141763
  • 小爱音箱
    +关注

    关注

    0

    文章

    26

    浏览量

    4073
收藏 人收藏

    评论

    相关推荐

    芯派 Pro 开发板试用体验】关于升级到1.45版本后出现的问题反馈

    想着升级到1.45的bsp版本好能使用硬件接口还有跟芯元智github开源的sdk等仓库能对得上以方便正常使用的,结果现在升级了之后翻车了。 升级到1.45的之后出现的问题是网
    发表于 12-13 20:36

    浅谈情感语音识别:技术发展与未来趋势

    一、引言 情感语音识别是一种新兴的人工智能技术,它通过分析人类语音中的情感信息,实现人机之间的情感交互。本文将探讨情感语音识别
    的头像 发表于 11-30 11:06 380次阅读

    情感语音识别:技术发展与挑战

    一、引言 情感语音识别是人工智能领域的重要研究方向,它通过分析人类语音中的情感信息,实现人机之间的情感交互。本文将探讨情感语音识别技术的发展
    的头像 发表于 11-28 18:26 266次阅读

    情感语音识别技术的挑战与未来发展

    情感语音识别技术作为人工智能领域的重要分支,已经取得了显著的进展。然而,在实际应用中,情感语音识别技术仍面临许多挑战。本文将探讨情感语音识别
    的头像 发表于 11-16 16:48 218次阅读

    情感语音识别技术的发展趋势与前景

    一、引言 情感语音识别技术是近年来人工智能领域的研究热点之一,它通过分析人类语音中的情感信息实现更加智能化和个性化的人机交互。本文将探讨情感语音识别
    的头像 发表于 11-16 16:13 253次阅读

    情感语音识别技术的现状与未来

    一、引言 情感语音识别技术是近年来人工智能领域的研究热点之一,它通过分析人类语音中的情感信息,为智能客服、心理健康监测、娱乐产业等多个领域提供了重要的支持。本文将探讨
    的头像 发表于 11-15 16:36 286次阅读

    情感语音识别的技术挑战与解决方案

    一、引言 情感语音识别技术是一种通过分析人类语音中的情感信息来理解和识别人的情感状态的技术。然而,在实际应用中,
    的头像 发表于 11-12 17:31 241次阅读

    情感语音识别技术的应用与未来发展

    一、引言 随着科技的飞速发展,情感语音识别技术已经成为人机交互的重要发展方向。情感语音识别技术能够通过分析人类语音中的情感信息,实现更加智能
    的头像 发表于 11-12 17:30 371次阅读

    情感语音识别技术在人机交互中的应用与挑战

     一、引言 随着人工智能技术的不断发展,人机交互已经成为了研究的热点之一。情感语音识别技术作为人机交互中的重要组成部分,能够通过识别人的语音情感,实现更加智能化和个性化的交互体验。本文
    的头像 发表于 11-09 15:27 381次阅读

    TTS技术赋能对讲机,迎来智能语音革新

    随着语音合成技术的快速发展,对讲机的智能语音升级已经到来。作为文本转语音的核心技术TTS(文本到语音合成)为对讲机带来了革新机遇。它能够自动、快速地将文本转化为连贯自然的语音,并
    的头像 发表于 10-20 14:53 281次阅读
    <b class='flag-5'>TTS</b><b class='flag-5'>技术</b>赋能对讲机,迎来智能语音革新

    让文字会说话,启英泰伦离线语音合成(TTS技术全面升级

    “•A01,请用餐•请001号到03号窗口办理业务•本次列车即将到达火车南站,请提前准备下车”语音合成(TTS技术作为人工智能领域的一项重要技术,已经深入大众生活,无孔不入。通过将文字转化
    的头像 发表于 09-04 16:27 531次阅读
    让文字会说话,启英泰伦离线语音合成(<b class='flag-5'>TTS</b>)<b class='flag-5'>技术</b>全面<b class='flag-5'>升级</b>!

    亥姆霍兹吸声原理 声学亥姆霍兹方程

    了解这两个重要概念。 一、亥姆霍兹吸声原理 1.1 基本概念 亥姆霍兹吸声原理是指一种声学材料,能够有效地吸收声波,而不产生反射。这种材料常用于声学隔板、音箱、音频室内部的隔音和吸音装置以及减少噪声污染等方面。 1.2 吸声
    的头像 发表于 08-29 17:05 1998次阅读

    情感语音识别技术及其应用

    分析语音中的声学特征和语言学特征,来判断说话者情感的状态。常用的情感标签包括愉悦、悲伤、愤怒、惊讶等。该技术的实现需要使用信号处理技术、机器
    的头像 发表于 06-24 03:24 756次阅读

    TTS语音合成技术的挑战和未来发展

    TTS语音合成技术在实现过程中面临着一些挑战和问题。 首先,TTS语音合成技术需要处理自然语言理解和语音识别等复杂的问题,如何提高技术的准确
    的头像 发表于 06-24 03:18 642次阅读

    TTS语音合成技术及其应用

    TTS语音合成技术是一种将文本转换为自然语音的技术,它利用计算机技术和人工智能技术来模拟人声的发音和语调。该
    的头像 发表于 06-24 02:28 845次阅读