0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语音交互设备中的ASR和TTS技术

安富利 来源:安富利 作者:安富利 2022-06-16 17:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本期导读

-Hi Siri,今天天气怎么样?

-今天天气晴,18℃至27℃,空气质量指数36,优。

手机、手表、音箱等智能设备极大地便利了我们的生活,随着语音交互设备的发展,智能交互依然面临很多挑战。

我们每天要说成百上千句话,长短不一。即便是一些转瞬即逝的口头语,也可以成为传达自我意识的载体,向他人准确传达信息。可语言似乎是人类群体特有的专利,在过往的时间中,想借助语言与其他物种、物体建立清晰明确沟通关系的可能性无限趋近于零,直到智能语音技术的出现。

作为最早落地的人工智能技术之一,AI语音技术已经得到了长足的发展。如今,智能语音技术已经被广泛集成的就是家居产品之中。在即将到来的万物互联时代,以语音交互为主的智能设备无疑将极具竞争力与吸引力。仔细一想,一众充满科技感与未来感的智能设备,将天然具备人类最熟悉的“原始交互方式”,也颇有些化繁为简、返璞归真的意味。

语音交互设备的“助听器”——ASR

在复杂环境中,我们总是可以忽略或弱化无关噪声,集中注意力进行沟通,但语音交互设备在如此环境中只会无所适从,不免陷入“交互尚未开始,便已结束”的囧境。故此,设备拥有对各类“声学场景”的声源信号进行处理、优化功能的必要性不言而喻。而借助降噪NS、语音增强SE等技术,可以对声学场景中的非语音噪音信号进行抑制,从含有噪音的语音信号中提取纯净语音,提升语音识别效果,让语音交互设备可以分辨、倾听出目标声音,进而为后续的语音交互扫清障碍。

在语音识别技术(ASR)的加持下,语音交互设备能对声音信号进行特征提取,提取而出的“特征”会作为参数,为模型计算做准备。简单理解就是将语音信息数字化,再通过相应的模型对数字化信息进行计算。后续通过声学模型计算得出相应的音素(即把声音转成音素),其目的是根据音素来找到对应的汉字或者单词,最终转换成设备可以理解的文本。

语音交互设备的“声卡”——TTS

基于语音合成技术(TTS),语音交互设备可对文本逐句分析,进行词汇、语法的和语义的分析,以确定句子的低层结构和每个字的所对应的音素组成,包括文本的断句、字词切分、多音字处理以及数字处理等。

在内置芯片和神经网络技术的支持下,语音交互设备可把处理好的文本所对应的单字或短语从语音合成库中提取,使语言学描述转化成言语波形,即把文字智能地转化为自然语音流。至此,一次完整的语音交互便成功完成。当然,在特有的智能语音控制器作用下,文本输出的语音音律将会更加流畅,使得听者在听取信息时感觉自然、毫无机器语音输出的冷漠与生涩感。

写在最后

诚然,已普遍应用于智能家居设备中的语音交互技术仍面临诸多挑战,在设备唤醒率、识别率、误报率、环境降噪等方面仍有改进的空间。但毫无疑问,在未来语音作为人类最自然、最便捷的沟通方式,将会成为所有设备和产品至关重要的入口和人与机器之间的通信纽带,而强逻辑、无视觉或者弱视觉的智能语音技术也会找到更多用武之地。

原文标题:智能交互的尽头是聊天?

文章出处:【微信公众号:安富利】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ASR
    ASR
    +关注

    关注

    2

    文章

    45

    浏览量

    19465
  • TTS
    TTS
    +关注

    关注

    0

    文章

    66

    浏览量

    11620
  • 语音交互
    +关注

    关注

    3

    文章

    365

    浏览量

    29249

原文标题:智能交互的尽头是聊天?

文章出处:【微信号:AvnetAsia,微信公众号:安富利】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    TTS语音芯片究竟是什么?工作原理、应用及厂家选型全解析

    一、什么是TTS语音芯片?它是如何工作的?TTS语音芯片,全称“文本转语音芯片”(Text-to-Speech芯片),又称
    的头像 发表于 04-15 08:38 328次阅读
    <b class='flag-5'>TTS</b><b class='flag-5'>语音</b>芯片究竟是什么?工作原理、应用及厂家选型全解析

    声智科技语音交互插件上线ClawHub

    核心突破:填补生态空白近日,声智科技自主研发的语音交互插件,包含ASR(自动语音识别)与TTS(语音
    的头像 发表于 04-08 17:55 1256次阅读

    TTS语音合成芯片怎么选?2026年主流方案横向对比

    在嵌入式产品里加入语音播报功能,是越来越多工程师面临的需求。但一旦开始选型,就会发现市面上的"语音方案"五花八门:有录音芯片、有TTS芯片、有语音模块、甚至有人建议直接挂个MCU
    的头像 发表于 03-26 15:21 869次阅读
    <b class='flag-5'>TTS</b><b class='flag-5'>语音</b>合成芯片怎么选?2026年主流方案横向对比

    一文了解语音AI的运作方式

    语音 AI 是对话式 AI 的一个子集,包括可将人类语音转换为文本的自动语音识别 (ASR) 和文本转语音 (
    的头像 发表于 02-27 16:10 626次阅读
    一文了解<b class='flag-5'>语音</b>AI的运作方式

    WT3000TX语音合成芯片TTS:重新定义智能自行车码表的“声”动体验

    一、智能骑行时代的语音交互革命1.1从传统码表到智能终端的演进在智慧出行浪潮的推动下,自行车正经历着从传统代步工具向智能移动终端的深刻变革。作为骑行体验的核心交互设备,自行车码表亟需突破传统按键操作
    的头像 发表于 11-19 09:45 1009次阅读
    WT3000TX<b class='flag-5'>语音</b>合成芯片<b class='flag-5'>TTS</b>:重新定义智能自行车码表的“声”动体验

    语音报警器:TTS语音播报,云平台逻辑自控

    TTS语音播报报警器是一种集成了传统报警器和TTS(文本转语音)技术的智能设备。清晰、准确地用人
    的头像 发表于 10-29 16:31 1078次阅读

    “芯”声代,智未来—VS680本地语音交互系统 #语音交互 #芯片

    语音交互
    深蕾半导体
    发布于 :2025年09月17日 10:59:30

    语音机器人交互系统:核心技术与应用挑战

          语音机器人交互系统是融合多学科技术的复杂工程,其核心目标是实现人与机器间的自然、流畅语音对话。该系统已广泛应用于智能客服、智能家居、企业助手等场景,其
    的头像 发表于 09-02 11:08 1093次阅读

    基于开源鸿蒙的语音识别及语音合成应用开发样例

    本期内容由AI Model SIG提供,介绍了在开源鸿蒙,利用sherpa_onnx开源三方库进行ASR语音识别与TTS语音合成应用开发的
    的头像 发表于 08-25 14:26 4593次阅读
    基于开源鸿蒙的<b class='flag-5'>语音</b>识别及<b class='flag-5'>语音</b>合成应用开发样例

    TTS文字合成语音芯片的使用场景

    TTS文字合成语音播报芯片的使用场景非常广泛,可以适用于各行各业,主要应用于复杂的语音播报场景,下面小编带大家一起来了解一下。 传统的语音播报芯片,主要是先把
    的头像 发表于 08-22 17:11 1233次阅读

    一颗TTS语音芯给产品增加智能语音播报能力

    一颗TTS语音芯片给产品增加智能语音播报能力 传统语音播报芯片可以设置一些固定的语音片段或者内容,但是对于现在各种创新产品层出不穷的时代,传
    的头像 发表于 08-14 16:33 982次阅读

    从开发工程师视角看TTS语音合成芯片

    从开发工程师视角看TTS语音合成芯片 在语音交互领域,TTS 语音合成芯片作为关键角色,正不断革
    的头像 发表于 08-13 14:52 1022次阅读

    普强智能语音技术重新定义车载交互边界

    普强凭借自主研发的智能语音技术,为某国内头部车企提供的语音前处理、唤醒词、ASRTTS技术
    的头像 发表于 07-11 14:00 1400次阅读

    Air8000 TTS开源,语音合成从此“零距离”!

    文本转语音)——是一种将书面文本转换为人类可听语音技术,通过算法和模型模拟人类发声,实现机器“说话”。其核心目标是生成自然、流畅且富有表现力的语音。  
    的头像 发表于 07-03 16:33 774次阅读
    Air8000 <b class='flag-5'>TTS</b>开源,<b class='flag-5'>语音</b>合成从此“零距离”!

    从代码到声音,Air8000 TTS开源应用开启创作新纪元!

    语音)——是一种将书面文本转换为人类可听语音技术,通过算法和模型模拟人类发声,实现机器“说话”。其核心目标是生成自然、流畅且富有表现力的语音。  
    的头像 发表于 06-27 17:06 724次阅读
    从代码到声音,Air8000 <b class='flag-5'>TTS</b>开源应用开启创作新纪元!