0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

研究自然语音交互系统带来人机对话新体验

AliOS 来源:AliOS 作者:AliOS 2021-05-19 14:16 次阅读

不难发现,现在「车载语音交互」的体验越来越完善。它不仅能完成更多的指令,而且能和我们进行情感交互,甚至还懂得一些基本的伦理纲常。AI语音交互,同样正在占据我们生活应用中的每一个入口,现在,被视作“第三空间”的汽车场景,通过自然连续对话完成人车之间的主动交互,正在成为现实。

回顾发展之初,车载语音虽然能完整跑通 ASR、TTS 这些流程,能实现一些简单的 NLU/NLP 能力,但体验有很多漏洞,比如有可能识别失败,指令完成缓慢,交互逻辑不合常理等等。如今来看,这些基础能力正变得更强,基本可以称得上是一个「有价值的工具」。

另一方面,语音交互作为智能网联汽车的“灵魂”,一直是车联网公司和主机厂发力的重点领域。目前市面上常见的车载系统每次交互都得说出唤醒词,无法做到自然连续对话。相比市场同类车载系统,基于AliOS底层技术开发的斑马智行VENUS系统,在AI语音功能智能化程度上有了更高突破,不仅具备人类亲和力的特质和逻辑思维能力,同时,整个对话体验更加自然流畅,能带给用户更具情景化、更有温度的用车体验。

实际上,新斑马语音产品在快、准、自然的交互体验基础上,开创了全双工、全场景、全闭环的交互特色,并第一次在车内实现了个性化声音克隆的技术。

语音基础能力方面,新斑马语音背靠阿里巴巴达摩院,提供ECNR、VW、ASR、TTS等全链路语音基础能力,并且在汽车语义上投入重兵与达摩院合作共建,保障在核心能力上的领先性和特色。

语音交互特性方面,重点演进了全双工交互能力,并且开发了可见即可说、全时唤醒、灵动唤醒词、多TTS引擎、双模态交互、个性化声音克隆等交互特色。其中声音克隆技术可以将用户的声音复制到车内,提供更加个性化的趣味体验。

同时,在与车场景结合方面,斑马语音拥有全场景、全闭环的交互体验。在地图导航、多媒体、通讯、车控车设四大场景上进行了深度挖掘,与语音进行深度结合,实现动口不动手的语音交互体验。同时为支付宝车载小程序开放平台提供语音开放能力,让接入汽车的支付宝车载小程序都可以使用语音进行交互。

自然语音交互系统- 全双工交互技术

一次唤醒多次输入

更高效更接近人类交互习惯

基于场景的上下文预测

边说边听,边听边想

全双工交互具有一次唤醒多次输入、边说边听边听边想、基于场景进行上下文预测等能力。相比传统语音交互方式,全双工更接近人类习惯,是语音交互到自然交互的必备阶段。

实现全双工语音交互,面临着多项技术挑战:如何在机器说话的同时清楚地接收用户说话的信号?如何保证持续不断地接收用户完整的信息表达?如何在保证准确理解的前提下控制误触发?这些问题在汽车环境中会被不断放大,阻碍技术的落地应用。

斑马依托达摩院降噪、回声消除、流式ASR、流式NLU、专项NLU拒识模型等前沿技术,在大规模实车数据的训练下,实现了真正的全双工交互技术在车内的大规模使用。

自然语音交互系统- 声音克隆技术

基于深度神经网络

快速生成TTS声音模拟

个性化自然交互体验

让最熟悉的声音一路相伴

声音克隆技术只需要提取用户5-10分钟的声音片段,就可以提取出他的声音特征,进而训练出和他的声音相似的TTS声音。传统的TTS技术需要获得几十小时的数据才能够进行TTS的发音人训练。而基于深度神经网络,斑马声音克隆系统在5-10分钟的声音片段中,就可以通过声音特征提取训练、声音合成器训练和声码器训练完成TTS声音的模拟。

声音克隆技术在车内可以为你带来更加个性化的自然交互体验,你可以把车内的声音设置成自己的爱人、子女、父母等亲人的声音,为自己的行车生活增添更多的温暖。

有了声音及语意上的天然优势,再加之AI大数据的后端支持,斑马智行VENUS实现了“智商情商双进步,聊啥都懂”的突出能力。具体来看,斑马智行VENUS AI语音技能将覆盖500多个常用知识领域,无论是查天气、查股票,还是幽默段子,都能“随问随答”。

随着5G物联网自动驾驶等技术的成熟,车载语音助手必然会替代我们现有的人车交互方式,一款好的车机语音对汽车而言,显得尤为重要。在近日对外透露的斑马5计划中,「对话式导航」将成为下一项语音交互黑科技。不久的将来,影视剧中如霹雳游侠那般的人车对话也终将会实现。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2869

    文章

    41622

    浏览量

    358372
  • ASR
    ASR
    +关注

    关注

    2

    文章

    34

    浏览量

    18620
  • 5G
    5G
    +关注

    关注

    1340

    文章

    47807

    浏览量

    554269
  • 自动驾驶
    +关注

    关注

    773

    文章

    13032

    浏览量

    163214

原文标题:自然语音交互系统 带来人机对话新体验

文章出处:【微信号:AliOS,微信公众号:AliOS】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    人机交互的三个阶段 人机交互的常用方式

    交互经历的三个阶段:命令行界面交互阶段、图形用户界面交互阶段、自然和谐的人机交互阶段。
    的头像 发表于 03-13 17:25 803次阅读

    让设备更聪明 |启英泰伦离线自然说,开启智能语音交互新体验

    启英泰伦新推出「离线自然说」——一种轻量级的离线NLP技术。通过该技术,语音芯片可支持数万条离线词条,泛化能力强,几乎可涵盖用户日常所有说话习惯,可以为用户提供更自然、更丰富、更灵活的离线语音
    的头像 发表于 01-04 11:24 241次阅读
    让设备更聪明 |启英泰伦离线<b class='flag-5'>自然</b>说,开启智能<b class='flag-5'>语音</b><b class='flag-5'>交互</b><b class='flag-5'>新体验</b>!

    情感语音识别技术在人机交互中的应用与展望

    一、引言 随着人工智能技术的不断发展,人机交互已经渗透到日常生活的方方面面。情感语音识别作为人机交互中的关键技术之一,能够通过分析人类语音中的情感信息实现更加智能化和个性化的
    的头像 发表于 11-22 10:40 327次阅读

    情感语音识别在人机交互中的应用与挑战

    一、引言 情感语音识别是近年来人工智能领域的研究热点之一,它能够通过分析人类语音中的情感信息实现更加智能化和个性化的人机交互。本文将探讨情感
    的头像 发表于 11-15 15:42 229次阅读

    自然对话语音开启人机交互的未来之窗

    随着人工智能的快速发展,自然对话语音技术成为了人机交互的重要领域。这项技术让计算机能够理解、生成和回应人类的语言,使得交流变得更加便捷和自然。在过去几年里,
    的头像 发表于 11-09 15:52 152次阅读

    情感语音识别技术在人机交互中的应用与挑战

     一、引言 随着人工智能技术的不断发展,人机交互已经成为了研究的热点之一。情感语音识别技术作为人机交互中的重要组成部分,能够通过识别人的语音
    的头像 发表于 11-09 15:27 375次阅读

    自然对话语音数据:人机交互的新纪元与挑战

    自然对话语音数据是指以自然语言进行交流的语音数据,它代表着人机交互技术的巨大进步。随着人工智能和语音
    的头像 发表于 11-08 17:01 207次阅读

    AISpeech 思必驰 思必驰语音算法与芯片的完美结合 人机交互

    TH1520是深聪智能(思必驰旗下的芯片设计企业)根据语音交互市场及算法的需求及发展方向,自主定义开发的 “芯片+算法” 的人工智能人机语音交互
    的头像 发表于 10-18 14:43 1309次阅读
    AISpeech 思必驰 思必驰<b class='flag-5'>语音</b>算法与芯片的完美结合 <b class='flag-5'>人机交互</b>

    语音识别技术:未来人机交互的重要接口

    随着科技的快速发展,人类对机器的操控方式也在不断寻求创新。其中,语音识别技术作为人机交互的重要接口,正在越来越多地被应用于各个领域。本文将深入探讨语音识别技术的发展历程、技术原理以及未来的应用前景
    的头像 发表于 09-19 18:13 518次阅读

    人工智能人机对话

    能力,能够与人类进行真正的对话互动。 目前,人机对话广泛应用于多种场景,包括聊天机器人、客服机器人、智能音箱等。聊天机器人是最为普遍的人机对话应用之一。通过与用户进行文字或语音
    的头像 发表于 08-17 12:37 912次阅读

    人机交互的重要接口是什么 人机交互方式有哪五种

    。   3. 自然语言界面(NLI):自然语言界面允许用户使用自然语言与计算机进行交互。用户可以通过语音输入或文本输入方式提出问题、给出指
    的头像 发表于 08-15 14:16 6039次阅读

    X-CUBE-MCSDK:新功能的新体验

    电子发烧友网站提供《X-CUBE-MCSDK:新功能的新体验.pdf》资料免费下载
    发表于 08-01 09:41 2次下载
    X-CUBE-MCSDK:新功能的<b class='flag-5'>新体验</b>

    智能座舱的语音交互系统技术应用

    从用户发出语音指令到实现与智能设备的交互,其过程并不像其名词描述的那么简单,要实现通过语音来完成人机交互,要解决解决三个关键问题,如何让机器听清用户的
    发表于 07-28 10:17 343次阅读
    智能座舱的<b class='flag-5'>语音</b><b class='flag-5'>交互</b><b class='flag-5'>系统</b>技术应用

    语音识别唤醒词-开启智能化的语音交互时代

    语音识别唤醒词是指在语音交互系统中使用的特定词语或短语,用于唤醒系统并启动语音识别功能。这项技术
    的头像 发表于 07-09 00:53 938次阅读

    AI人工智能语音交互技术市场分析

    人工智能语音语言技术即实现人与机器以语言为纽带的信息处理技术,人机对话通过对声音信号的音频采集与信号处理将语音转化为文字供机器处理,在机器进行语音识别与语义理解后、再进行
    发表于 05-06 11:20 1105次阅读
    AI人工智能<b class='flag-5'>语音</b><b class='flag-5'>交互</b>技术市场分析