0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

揭秘语音交互:个性化AI打造“数字化的你”

章鹰观察 来源:高通 作者:侯纪磊博士 2018-07-18 15:42 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

从更精美的照片、更高的安全性到更自然的用户界面(UI),人工智能AI)正以无缝的方式更多地丰富我们的生活。高能效和个性化是Qualcomm AI Research的核心研究领域,因为它们对于下一代无处不在的智能用户体验而言不可或缺。终端侧AI正在支持虚拟助理的发展,而个性化正成为今天的虚拟助理和未来真正个人助理之间的主要差异。

AI驱动语音交互革命

语音是我们一直期盼的变革性交互方式,它可以提供用户与终端间的自然交互,而无需任何手部操作。先进的语音交互具有始终开启、对话式、个性化和私密的特征,可支持我们进行高效且自然的对话。从智能手机智能音箱到扩展现实(XR)设备和汽车,语音交互正在众多产品种类中日益发展和普及。

要实现端到端的语音交互体验,其中需要多个组件的支持(见图1)。语音交互的流程是这样的:首先麦克风采集语音信号,然后是语音预处理、语音激活、语音识别和自然语言理解,最终是终端通过语音合成的方式响应用户。由此可见,端到端的语音交互是个多步骤的复杂流程。

图1:语音交互的功能组件。

为什么今天语音交互变得如此普及?一个重要因素是,机器学习已经点燃了语音交互的革命。机器语音识别的准确率正不断逼近95%,达到与人类准确率相当的水平。当机器准确率不能达到人类的水平,整个语音交互过程就没法做到对话式的自然高效交流,因此用户体验会有显著下降。机器学习技术可应用于几乎所有的语音交互组件之上,从而提升各方面及整体的交互体验。

终端侧的语音交互至关重要

因计算、内存和功率的限制,主要语音交互组件(如自动语音识别和自然语言处理)传统上都由云端AI所支持。但是,终端侧处理具有众多独特的优势,包括更快的响应速度、更高的可靠性和更好的隐私保护。尤其是在私密性方面,今天的消费者渴望把数据掌握在自己手中,并且有权选择是否将数据发到云端进行处理或存储。因此,更多在终端上进行处理并为云端功能提供补充,这是目前行业的重要趋势之一。而其中的主要挑战在于,需要在移动终端的功耗和散热限制下运行并实现复杂的语音交互功能。

图2:语音交互的主要组件正向终端侧迁移。

Qualcomm正积极应对这项挑战,并把低功耗的终端侧AI应用于语音交互组件之上。以下是几个例子:

1、语音降噪将带噪语音处理成清晰语音并输出,这在嘈杂环境中尤其重要。Qualcomm AI Research正在开发一个降噪深度学习模型,该模型与传统方法相比有显著的性能提升,并具有较高效率可在助听器这样非常受限的处理能力、功耗和散热条件下运行。

2、 自动语音识别将语音转录为文本。测试表明,深度学习技术可在移动终端上实现顶级的语音识别准确率。Qualcomm AI Research已经完成了一个深度学习声学模型的训练并使其适应每个用户的口音和环境,从而提高个性化程度。

今天,终端侧的语音交互已经成为现实。Qualcomm AI Research已经可以在终端侧实现整体的端到端语音交互处理,并在2018年的CES大会上演示了智能家居中的端到端语音交互体验。在适应口音和环境后,这项演示对特定领域的指令集已经可以实现超过95%的意图理解准确率。

个性化成就真正的虚拟助理

真正的虚拟助理是在终端里面有一个“数字化的我”。因此,它需要分析个人信息并不断学习用户偏好,从而成为真正了解用户的数字助理。情境式智能是实现个性化的必备条件,而实现情景式智能需要融合多种终端侧传感器的数据(如麦克风、摄像头和陀螺仪)及其他终端侧和终端外数据(见图3)。

图3:情境式智能融合多种传感器和个人信息。

增强个性化的一大好处在于,它能够推动个人助理进一步发展并兼具响应性和主动性。真正的个人助理不仅能够在用户提问时提供个性化的答案,还能基于情境分析进行自主决策和无提示对话。

为进一步提升虚拟助理的个性化程度,Qualcomm AI Research正对终端侧的“AI agent”展开研究,它有望从所有传感器数据中不断学习个人信息,最终实现直观行动。AI agent的关键功能包括情境式融合及学习,这最终将支持个性化响应并丰富我们的生活。初步研究结果已展现出终端侧个性化的远大前景。个性化不仅将提升虚拟个人助理的用户体验,而且将丰富我们生活的方方面面。这项技术将变革众多行业,不断推动行业创新。

(本文内容来自Qualcomm高级总监兼AI研究项目负责人侯纪磊博士的署名博客)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 传感器
    +关注

    关注

    2573

    文章

    54363

    浏览量

    785798
  • AI
    AI
    +关注

    关注

    89

    文章

    38085

    浏览量

    296330
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136216
  • 语音交互
    +关注

    关注

    3

    文章

    339

    浏览量

    29059
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【内测活动同步开启】这么小?这么强?新一代大模型MCP开发板来啦!

    噪,无惧嘈杂环境 云端接入小聆AI,轻松实现个性化定制 搭载领先大模型全链路技术:小聆AI 智能语音交互方案 集成情绪感知与表达 :支持情感
    发表于 09-25 11:47

    利用小红书电商 API 接口,实现小红书店铺商品推荐个性化

    据、商品信息和交互行为。通过合理利用这些接口,店铺可以实现高度个性化的商品推荐系统,从而精准匹配用户需求。本文将逐步介绍如何基于小红书电商 API 实现这一目标,涵盖技术原理、实现步骤和实际应用,确保内容真实可靠。 1. 理解小红书电商 API 接口
    的头像 发表于 08-27 15:31 674次阅读
    利用小红书电商 API 接口,实现小红书店铺商品推荐<b class='flag-5'>个性化</b>

    唯创四大语音芯片方案,赋能电动车仪表智能语音播报、个性化音效定制、蓝牙音频连接等多模态交互,满足

    电动车准备上班,刚刚启动时仪表只是冷冰冰地显示着电量和时速数字。没有任何声音提醒,没有任何个性化体验,只会机械地工作着。当电量不足时,可能因为没注意到而半路抛锚
    的头像 发表于 08-22 11:54 565次阅读
    唯创四大<b class='flag-5'>语音</b>芯片方案,赋能电动车仪表智能<b class='flag-5'>语音</b>播报、<b class='flag-5'>个性化</b>音效定制、蓝牙音频连接等多模态<b class='flag-5'>交互</b>,满足

    企业如何用SD-WAN节省50%网络成本?揭秘数字化转型的网络新基建

    #企业如何用SD-WAN节省50%网络成本?揭秘数字化转型的网络新基建>一条软件定义的网络高速公路,正在为成千上万企业开辟数字化转型的快车道,同时将网络运营成本拦腰斩断。在数字化转型浪
    的头像 发表于 08-13 10:32 1460次阅读
    企业如何用SD-WAN节省50%网络成本?<b class='flag-5'>揭秘</b><b class='flag-5'>数字化</b>转型的网络新基建

    利用API提升电商用户体验:个性化推荐系统

      在当今竞争激烈的电商环境中,个性化推荐系统已成为提升用户粘性和转化率的核心工具。通过API(Application Programming Interface)集成,电商平台能够高效接入先进
    的头像 发表于 07-14 14:45 376次阅读
    利用API提升电商用户体验:<b class='flag-5'>个性化</b>推荐系统

    2025年电商API发展趋势:智能个性化

    ​ 引言 随着数字经济的深化,电商API(应用程序接口)已成为连接平台、商家与用户的核心枢纽。2025年,在人工智能与大数据驱动下,电商API将加速向 智能决策 与 个性化服务 演进,重构用户
    的头像 发表于 07-11 14:26 441次阅读
    2025年电商API发展趋势:智能<b class='flag-5'>化</b>与<b class='flag-5'>个性化</b>

    声纹解锁个性化!启明云端硅思物语AI平台让设备“认准的声音”

    启明云端依托旗下硅思物语AI平台,通过声纹采集技术,在ESP32-S3潮玩手办伴侣上构建的个性化智能助手的真实落地应用场景。声纹采集:的声音就是“生物密码”什么是声纹?声纹如同指
    的头像 发表于 06-17 18:02 1143次阅读
    声纹解锁<b class='flag-5'>个性化</b>!启明云端硅思物语<b class='flag-5'>AI</b>平台让设备“认准<b class='flag-5'>你</b>的声音”

    EM储能网关 ZWS智慧储能云应用(13) — 企业个性化配置

    储能公有云平台,企业用户如何自主个性化配置?ZWS智慧储能云通过灵活的多级配置功能,实现个性化系统配置,帮助强化储能企业独特性。简介储能企业在使用智慧储能云平台时,常面临企业个性化和品牌展示
    的头像 发表于 05-23 11:39 469次阅读
    EM储能网关 ZWS智慧储能云应用(13) — 企业<b class='flag-5'>个性化</b>配置

    个性化医疗的挑战,微流液体监测

    现代医学已能够极大改善全球人口的生活质量。脊髓灰质炎、梅毒、肺结核或鼠疫等疾病几乎已经根除,并且可以成功治疗或治愈。下一个里程碑则是个性化医疗。这门新颖的学科针对的并非广泛人群,而是专注于个体患者
    的头像 发表于 05-19 13:25 389次阅读
    <b class='flag-5'>个性化</b>医疗的挑战,微流液体监测

    AI赋能,健康无界:WT2605C语音芯片智能血压计的个性化设计方案

    :数据如何解读?异常如何干预?风险如何预防?WT2605C芯片方案的诞生,通过“AI对话+云端互联+个性化服务”三重技术突破,重新定义了血压计的价值边界——它不仅是一
    的头像 发表于 04-16 08:57 526次阅读
    <b class='flag-5'>AI</b>赋能,健康无界:WT2605C<b class='flag-5'>语音</b>芯片智能血压计的<b class='flag-5'>个性化</b>设计方案

    华为云 Flexus 数字人创新技术,赋能中小企业打造个性化营销体验

    等等,不仅提高了服务效率,还为用户提供了更加个性化的体验。但中小企业受数字人制作成本和技术门槛的限制,在数字化的竞争中并不占优势。 直到华为云 Flexus 数字人的出现,才为中小企业
    的头像 发表于 03-10 10:38 2825次阅读
    华为云 Flexus <b class='flag-5'>数字</b>人创新技术,赋能中小企业<b class='flag-5'>打造</b><b class='flag-5'>个性化</b>营销体验

    Melexis LED驱动方案助力汽车制造商打造个性化车内空间

    汽车内饰氛围灯,早已不再是简单的照明工具,更是提升驾乘体验、展现个性化风格的重要元素。从静态的色彩点缀到动态的灯光秀,车内灯光正变得越来越智能、复杂。面对这一趋势,Melexis提供一系列高性能LED驱动方案,以卓越的性能、灵活的扩展性和强大的通讯能力,为汽车制造商打造
    的头像 发表于 02-21 17:04 2019次阅读

    三星发布Vision AI打造个性化AI屏幕体验

    近日,在2025年国际消费电子展(CES 2025)“First Look”活动上,三星震撼发布了其最新的科技成果——三星Vision AI。这一创新技术旨在通过个性化AI屏幕体验,为用户带来
    的头像 发表于 01-14 14:58 1118次阅读

    解锁个性化语音交互新时代:九芯智能语音云平台,让创意声音触手可及!

    九芯智能语音云平台提供全面高效安全的智能语音服务,支持自定义语音内容,简化烧录流程,依托AI技术,助力各行业智能升级,引领
    的头像 发表于 01-02 16:51 1419次阅读
    解锁<b class='flag-5'>个性化</b><b class='flag-5'>语音</b><b class='flag-5'>交互</b>新时代:九芯智能<b class='flag-5'>语音</b>云平台,让创意声音触手可及!

    语音芯片赋能可穿戴设备:开启个性化音频新体验

    语音芯片与可穿戴设备合作,带来定制音效、智能降噪、个性化推荐、语音交互及跨设备共享等,引领个性化
    的头像 发表于 12-14 15:44 1280次阅读