0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

支持情感TTS,小爱音箱Art声学技术重磅升级!

姚小熊27 来源:北国网 作者:北国网 2020-06-17 15:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,小米发布了小爱音箱Art,这款音箱采用全新的金属机身,机身扬声器开孔被设计成0.7mm厚度的金属饰板,可谓功能与质感兼具。小米小爱音箱Art通过一颗2.5英寸的全频扬声器,让声音的细节呈现得更加自然。

作为小米推出的第9款智能音箱,小米小爱音箱Art在技术上也全面升级,搭载第三代小爱同学,并支持情感化语音交互、全屋播放及就近唤醒。通过这款音箱得以看出,小米的声学语音技术已经实现全面自研,并在自研部分领域持续。

情感化语音交互:通过迭代声学模型,支持情感TTS

对于智能设备而言,实现情感化语音交互是一项挑战。“情感”本身就是主观的、多样的感受,一种情感可以有多种呈现形式,更适合人与人的面对面对话。情感化语音交互对技术要求较高,要技术方、数据方、质检方等多方对情感浓度、情感诠释方式等标准达成共识,将较主观的情感音素统一化、标准化。

随着人工智能技术的发展,在实现人机对话的基础上,各大厂商都在情感化语音交互的领域探索。为了让机器加入情感元素,小米AI实验室在“情感数据量有限”的前提下,通过不同声学模型、不同声码器组合最终上线自然、拟人效果的情感TTS,成为业内首 家情感化TTS大规模落地的企业。

通过小米AI实验室的不断深耕,此次小米小爱同学Art全面支持情感化语音交互,基于有限但类型不同的情感音频数据(如开心、关心、害羞、惊讶等),通过不同技术训练并迭代声学模型,最终支持情感TTS合成并实现“小爱同学”音感化、拟人化。

未来,小米语音将升级此技术——支持情感TTS实时合成。从下图中可以看出,在大数据集的预训练模型基础上,利用目标说话人的中性情感数据对网络进行微调,得到目标说话人的中性情感模型;在此基础上用带情感的小批量数据对模型进一步微调,最终得到不同情感的模型,最终实现情感合成。

在国内语音助手行业中,小米首 次实现情感化TTS的大规模落地,未来将打造情感更加丰富的“小爱同学”,为用户提供多元化的语音交互体验,为IoT设备增加更丰富更立体更逼真的语音交互体验。

语音支持全屋播放:立体声组合同步播放相同音频

小米小爱音箱Art,是首 款可以实现语音支持全屋播放的设备。用户直接对小爱同学说“全屋播放XX”,无需提前在App端进行手动设置,即可实现一句话语音交互,为用户提供了更便捷的使用方式。

要实现这一功能,音箱需要具备AIoT放音的技术。小米AIoT放音的自研技术在攻克无线网络抖动、晶振时钟漂移以及弱网下数据不可达等一系列技术难题后,将不同音箱播放声音的同步优化到微秒级别,同时还实现了在不同型号的音箱之间的数据同步,提供更细腻的音质和宽广的声像。

立体声支持APP创建组网,才能进行语音指令和APP操作播放,全屋播放同时支持语音指令和APP创建组网。

立体声功能同时支持语音指令和app操作播放,云端音频流下发至音箱A,音箱A将立体声分离为左右声道,音箱A自己播放左声道音频并将右声道音频流下发给音箱B,由B音箱播放右声道,精准的同步技术保证音箱A和B同时播放立体声的左右声道音频。全屋播放功能支持语音指令和app创建组网,音频流下发至音箱C,音箱C将音频流混合为单声道信号并下发给组内其他的音箱设备同时播放,不区分声道,可支持多个设备。

就近唤醒全面升级:实现跨设备关闭闹钟

早在2018年,小米音箱系列就上线了就近唤醒功能。值得一提的是,此次小米小爱音箱Art就近唤醒全新升级,可支持跨设备关闭闹钟。远处的音箱闹钟响了,唤醒近处的音箱可以直接关闭远处的闹钟。此功能在业内首 次上线,小米小爱音箱Art也是首 款支持该功能的产品。

说到就近唤醒,小米早在2018年就上线这一功能,截止2020年4月28日,分布式就近唤醒已为多设备用户累计避免约6.82亿次设备同时唤醒,准确率达到98%。近期首 发上线了端云多维度结合的就近唤醒综合决策策略,深入加强多设备状态信息联动,智能判决空间信息,进一步提升了家庭复杂网络环境的兼容性,同时做到了多设备响应的唯一执行,大幅提升用户体验。

未来,小米将专注于家居复杂场景应用、智能声学感知和多传感融合。在复杂的家庭结构环境中,保证算法的可用性,让每个设备主动感知所处的不同环境,根据环境完成算法自适应,将数据结果取长补短,相互融合,实现多维度智能感知。

两麦阵列唤醒:两麦盲源分离降噪前端,双级唤醒策略支撑

小米小爱音箱Art同步支持两麦阵列唤醒技术。在麦克风阵列方面,小米采用两麦盲源分离降噪前端,通过盲源分离、降噪、回声消除等技术,在多声源的嘈杂环境、音箱自身播放音乐时,都能结合语音增强技术,消除噪音的强干扰,获得干净、准确的人声音频。

在唤醒方面,为了兼顾低功耗与高性能,自研语音唤醒算法采用双级唤醒策略。低功耗待机唤醒词检测模型,利用子采样与共享隐含层等技术,减少模型资源消耗的同时保证召回率在一个较高的水平。高性能误唤醒检测模型,采用粗粒度建模单元,结合局部信息与长时上下文信息,高效抑制误唤醒。通过从海量数据中自动挖掘高区分度训练样本,再经过数据扩充技术,提高唤醒模型在低信噪比与小音量场景下的鲁棒性。

小米AI实验室语音产品负责人陈君宇表示,小米IoT平台连接的智能硬件数已达到2.5亿台,音箱出货量已经达到2200万台,在这么大的用户体量下,如何让基础体验持续提升,且提升产品在AI体验上的创新性,对自研AI团队来说是非常重要的使命。

小米一直致力于研发先进的AI技术,并将技术落地到产品及业务,为用户带来更好的产品体验,让全球每一个人都能享受科技带来的美好生活。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • TTS
    TTS
    +关注

    关注

    0

    文章

    62

    浏览量

    11455
  • 小米
    +关注

    关注

    70

    文章

    14509

    浏览量

    151201
  • 小爱音箱
    +关注

    关注

    0

    文章

    26

    浏览量

    4347
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    声智科技携手华为鸿蒙推动声学AI技术革新

    作为华为鸿蒙生态的重要合作伙伴,声智在声学 AI 技术与应用服务领域持续深耕,与鸿蒙生态保持着紧密协同,不断拓展更具创造力的用户体验。声智 App 已率先登陆鸿蒙应用商店,全量适配鸿蒙版本,并凭借声学AI
    的头像 发表于 12-04 15:44 244次阅读

    重磅升级!迅为iTOP-Hi3403开发板SDK全面升级至Linux 6.6内核

    重磅升级!迅为iTOP-Hi3403开发板SDK全面升级至Linux 6.6内核】
    的头像 发表于 11-18 13:34 732次阅读
    <b class='flag-5'>重磅</b><b class='flag-5'>升级</b>!迅为iTOP-Hi3403开发板SDK全面<b class='flag-5'>升级</b>至Linux 6.6内核

    语音报警器:TTS语音播报,云平台逻辑自控

    TTS语音播报报警器是一种集成了传统报警器和TTS(文本转语音)技术的智能设备。清晰、准确地用人类语言播报报警原因、位置、状态等具体信息。 工作原理 文本语音:输入文字自动合成语音,支持
    的头像 发表于 10-29 16:31 458次阅读

    华秋PCB重磅升级——「罗杰斯」高频板震撼登场!

    今天,我们携重磅升级而来——华秋PCB现已正式支持罗杰斯(Rogers)板材啦!对于追求高性能、高频率、低损耗的电子设计,罗杰斯板材无疑是您的理想选择。罗杰斯板材以其稳定的介电常数、优异的热管理和低
    的头像 发表于 10-15 07:35 788次阅读
    华秋PCB<b class='flag-5'>重磅</b><b class='flag-5'>升级</b>——「罗杰斯」高频板震撼登场!

    RT-Thread BSP v1.10.0 重磅发布 | 开发环境全面升级

    RT-ThreadBSPv1.10.0带来三大重磅升级:多工具链支持、HPM5E00系列支持、独立导出功能,让先楫MCU开发更简单、更高效!核心亮点三大突破性功能多工具链
    的头像 发表于 08-29 12:21 790次阅读
    RT-Thread BSP v1.10.0 <b class='flag-5'>重磅</b>发布 | 开发环境全面<b class='flag-5'>升级</b>

    开源TTS应用:打破技术垄断,让语音合成成为每个人的创造力工具

    传统语音合成技术往往被巨头垄断,成本高且定制难。开源TTS应用的诞生,彻底改变游戏规则。其开放源代码让中小企业、个人开发者乃至普通用户都能低成本接入并改造语音技术,将TTS变为触手可及
    的头像 发表于 08-15 14:03 424次阅读
    开源<b class='flag-5'>TTS</b>应用:打破<b class='flag-5'>技术</b>垄断,让语音合成成为每个人的创造力工具

    芯元智重磅发布边缘计算战略

    近日,芯元智在2025世界人工智能大会上重磅发布边缘计算战略。展会现场汇聚了众多行业精英,共同见证了芯元智边缘计算与AI融合发展的新路径,为AI普惠美好生活擘画新的蓝图。
    的头像 发表于 08-01 10:45 1070次阅读

    芯元智携手灵境声学推出“芯元声”音频解决方案

    2025年7月26日-7月29日,WAIC 2025世界人工智能大会上,芯元智半导体股份有限公司(以下简称“芯元智”)联合上海灵境声学技术股份有限公司(以下简称“灵境
    的头像 发表于 08-01 10:43 4465次阅读

    声智科技与蚂蚁集团共探声学AI前沿技术

    声学AI遇上金融科技,会碰撞出怎样的火花?当声学AI模型赋能AI硬件产品,又将如何重塑人机交互的边界?近日,声智科技受邀参加蚂蚁集团《AI圆桌派》内部分享会,一场关于声学AI前沿技术
    的头像 发表于 07-24 10:18 803次阅读

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张 NVIDIA Ada Lovelace
    的头像 发表于 06-12 15:37 1306次阅读
    使用NVIDIA Triton和TensorRT-LLM部署<b class='flag-5'>TTS</b>应用的最佳实践

    Actran声学仿真解决方案:工业级声学预测与优化的专业技术平台

    问题?如何平衡计算精度与效率?Actran声学仿真软件作为专业的声学工程解决方案,针对这些挑战提供了系统性的技术应对策略。 Actran的核心技术架构 Actran基于先进的有限元/无
    的头像 发表于 06-06 09:45 676次阅读

    TTS语音播报控制器能做什么?

    TTS(Text-to-Speech)语音播报控制器,作为一种能够将文本信息转换为语音输出的技术设备,在现代社会的各个领域中展现出了广泛的应用前景。TTS技术的出现,丰富人机交互的方式
    的头像 发表于 02-20 18:18 1109次阅读

    TTS语音播报模块简介

    在现代科技日新月异的时代,语音技术作为人工智能领域的重要分支,正以前所未有的速度改变着我们的生活方式。其中,TTS(Text To Speech,文本转语音)语音播报模块作为连接数字世界与人类听觉
    的头像 发表于 02-18 16:16 1891次阅读

    TTS语音播报控制器应用场景

    TTS(Text-to-Speech)语音播报控制器,作为一种能够将文本信息转换为语音输出的技术设备,在现代社会的各个领域中都展现出了广泛的应用前景。 应用场景 教育领域:对于视力障碍的学生而言
    的头像 发表于 02-18 16:15 1287次阅读

    RT-Thread ART-Pi二代正式发布

    挑战的日益复杂,ART-Pi迎来了全新的迭代——基于STM32H7R的ART-Pi二代,现已正式发布! ART-Pi二代在继承一代优秀基因的基础上,进行了全面的技术
    的头像 发表于 02-18 14:31 1140次阅读