0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

多语种语音助手 构建本地语音交互内容生态

传音控股 来源:传音控股 2023-09-15 10:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

伴随着5G人工智能技术的发展,智能语音已经随着各种智能终端产品渗透到人们的日常生活中,带来了更多便捷和可能性。作为新兴市场智能终端产品和移动互联服务提供商,传音聚焦人工智能领域持续创新,不断推进AI语音技术的研究和应用,挖掘更多本地化用户场景要求,为新兴市场用户带来全场景智能交互体验。

目前,传音已经在语音识别、语义理解、语音合成、自然语言处理、知识图谱等方面形成了的自身的AI语音底层技术能力,构建起小语种语音数据优势,并在多语种语音助手、数字人、语音伪造检测技术方面取得了重大突破。今年以来,传音AI技术部成果不断,接连在ICASSP 2023 SLU口语理解挑战赛、IJCAI 2023 ADD 语音深度伪造检测国际挑战赛夺得佳绩,并在国际多媒体旗舰学术会议ICME 2023上发表数字人多模态交互的相关学术论文。

多语种语音助手

构建本地语音交互内容生态

语音助手是智能手机的标配应用之一,其核心技术为语音交互和自然语言理解,旨在帮助用户更快捷、高效地执行目标任务。面对新兴市场本地语音交互的需求,传音长期深耕多语种语音助手技术,着力洞察本地用户需求,形成技术解决方案,在探索和研发过程中沉淀了深厚的技术能力和实践经验。

在语音技术领域国际顶级会议ICASSP(IEEE International Conference on Acoustics, Speech and Signal Processing)组织的2023口语理解挑战赛SLU(Spoken Language Understanding)中,传音AI技术部凭借在语音识别和语义理解方面的突出表现,以71.97%的准确率获斩获离线语音助手子赛道第一名。参赛论文“A Two-Stage System for Spoken Language Understanding”被IEEE电气与电子工程师协会(Institute of Electrical and Electronics Engineers)收录。

当前,语音助手主要面向主流语言,而对小众语言、特定人群等细分领域覆盖较少。传音针对非洲、南亚等新兴市场用户的本地口音和小语种,依托海量手机用户资源,建设了一套本地化低成本、高质量的语料数据生产体系,解决小语种语料匮乏、数据稀缺的问题。在此基础上,传音开发能适应新兴市场本地用户语言文化特点的多语种语音助手,帮助当地用户更加便捷地使用本地语言与手机进行语音交互。目前,传音的多语种语音助手技术已支持英语、法语、豪萨语、阿拉伯语、斯瓦西里语等语言的语音交互和自然语言理解能力,覆盖联系人通话、APP快速启动、音乐播放、WhatsApp消息、闲聊等100多种使用场景。

面向本地用户生活服务的诉求,传音的多语种AI语音助手技术将不断接入更多生活、出行、学习、工作等场景的生态服务,构建多领域跨语言的AI内容服务生态,让智能化语音服务渗透到本地生活的方方面面,让更多小语种的使用人群受益。

AI+数字人技术

赋能传音多场景业务

随着交互智能技术的加速发展,数字人正在从技术创新走向产业应用,在娱乐、教育、医疗等多个领域发挥作用。传音积极拥抱AI发展机遇,提前布局数字人技术,建立了完备的全链路技术和工程化的自研能力。传音数字人系统,包含2D真人和3D写实数字人,拥有基于多语种的语音识别、语音合成、语音唤醒、自然语言理解和数字人等能力的数据资源,在多语种语音对话、人设和外观、智能化场景交互等领域形成了自身的本地化特色和行业领先性。今年1月,传音数字人系统获得由中国信通院所颁发的数字人领域权威标准认证。这也是当前唯一通过中国信通院评测,以“交互对话”为核心的中国手机厂商数字人系统。

为了提高虚拟形象的仿真效果、合成出逼真且富有表现力的数字人视频,传音AI技术部自研端到端技术,在优化数字人视频生成质量的过程中,基于Unet网络提出了一种新的技术框架densely-connected Unet结构,同时引入了CLIP的encoder结构,利用文本语义信息提升数字人嘴部动画效果。同时该技术提出人脸关键点技术的概率密度图,增加了模型网络的模态信息,提升了模型生成的质量。这一技术突破能够让数字人的面部形象更加真实、细腻,同时提升语音和唇形的一致性,其生成效果达到了学术上的领先水平。相关学术论文“CPNet: Exploiting CLIP-based Attention Condenser and Probability Map Guidance for High-fidelity Talking Face Generation”被国际多媒体旗舰学术会议ICME 2023(IEEE International Conference on Multimedia and Expo)成功录用。

3be92740-536c-11ee-a25d-92fbcf53809c.png

目前,传音数字人系统已经深度应用于多业务场景,不仅落地海外手机门店,担任智能导购员为用户购买手机提供参考,还作为智能语音助手赋能多类智能终端产品,提升用户体验。下一步传音将通过“AI+数字人”技术赋能多场景业务,积极探索数字人版语音助手和客服系统等新业务形态,为用户带来全新的智能交互体验。

持续构建AI语音底层技术能力

在AI技术快速发展的现今,算法生成音频和音频伪造已经可以做到以假乱真,对于普通用户来说辨别音频真假非常困难。为了维护信息的可信性、保障社会安全,语音伪造检测技术变得至关重要,已经成为人工智能领域的一个较新的研究方向。传音围绕智能终端产品业务场景,以本地用户需求为导向,不断延伸AI语音底层技术能力,布局新技术领域,在语音伪造检测技术上取得了重大突破。

传音AI技术部在国际人工智能联合会议IJCAI 2023(The 32nd International Joint Conference on Artificial Intelligence)组织的第二届语音深度伪造检测国际挑战赛ADD(The Second Audio Deepfake Detection Challenge)“篡改区域定位”(Manipulation Region Location)分赛道上夺得第二名。在比赛中,传音AI技术部自研创新的AI模型算法和技术,能够准确识别并定位音频中语音的篡改行为,从而有效保障数字音频的原始性和真实性,为AI应用及信息安全建设提供新思路。相关学术论文已成功发表在本届IJCAI 2023 Workshop on Deepfake Audio Detection and Analysis (DADA 2023)会议上。

下一步,传音AI技术部将继续探索语音深度伪造检测技术在传音智能终端产品上的应用,如通话诈骗检查保护用户隐私安全等,不断提升用户使用体验。

未来,传音将继续在AI语音多模态技术领域发力,围绕“手机+移动互联网服务+家电、数码配件”核心业务需求,结合对新兴市场和本地消费者的深刻洞察,为用户提供适切其需求的智能生活体验,形成本地化的AI内容服务生态,持续满足多语种、多场景、个性化、智能化的应用需求。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能手机
    +关注

    关注

    66

    文章

    18672

    浏览量

    185573
  • 人工智能技术

    关注

    2

    文章

    222

    浏览量

    10942
  • AI芯片
    +关注

    关注

    17

    文章

    2072

    浏览量

    36581
  • 自然语言处理

    关注

    1

    文章

    629

    浏览量

    14565

原文标题:传音持续深耕AI语音多模态技术,打造本地化智能交互体验

文章出处:【微信号:TranssionHoldings,微信公众号:传音控股】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    给智能门锁“装个移动硬盘”:广州唯创电子WTV语音芯片外置SPI Flash方案破解多语种语音存储困局

    厂家,以其创新的WTV系列语音芯片外置SPIFlash方案,如同给门锁配备了一个“海量移动硬盘”,彻底破解了智能门锁的多语种语音存储困局。一、行业痛点:智能门锁的“
    的头像 发表于 11-17 07:43 492次阅读
    给智能门锁“装个移动硬盘”:广州唯创电子WTV<b class='flag-5'>语音</b>芯片外置SPI Flash方案破解<b class='flag-5'>多语种</b><b class='flag-5'>语音</b>存储困局

    “芯”声代,智未来—VS680本地语音交互系统 #语音交互 #芯片

    语音交互
    深蕾半导体
    发布于 :2025年09月17日 10:59:30

    云知声多项业务营收大涨

    依托山海大模型,云知声不断开拓阵地,开发了面向东盟等海外市场和国内方言市场的语音大模型,模型显著提升了在多语种、多方言环境下的语音识别、语义理解和高质量语音生成能力,改善了
    的头像 发表于 09-10 15:44 474次阅读

    声智科技出席2025年北京市多语种AI语音翻译大赛

    8月20日,由北京市科委、中关村管委会主办,北京语言大学、北京第二外国语学院、北京市翻译协会、中国人工智能百人会共同承办的“2025年北京市多语种AI语音翻译大赛”在中关村展示中心顺利启幕。声智作为
    的头像 发表于 08-25 17:18 1034次阅读

    广和通发布自研端侧语音识别大模型FiboASR

    、高效会议记录、多语种即时翻译等核心领域实现重大技术突破,致力于为终端用户带来更自然、高效、私密的语音交互体验。
    的头像 发表于 08-04 11:43 1381次阅读

    智能提示器:WT4101雷达感应+WT2605C在线语音合成技术,重塑场景化交互新体验

    提示器真正的智能提示器是怎么样的?集远距离感应、多语种实时合成、低功耗运行和场景化智能响应于一体!想象一下,当你匆忙赶到公司时,墙上的提示器却因为感应范围有限而"视
    的头像 发表于 08-02 18:02 499次阅读
    智能提示器:WT4101雷达感应+WT2605C在线<b class='flag-5'>语音</b>合成技术,重塑场景化<b class='flag-5'>交互</b>新体验

    普强智能语音技术重新定义车载交互边界

    普强凭借自主研发的智能语音技术,为某国内头部车企提供的语音前处理、唤醒词、ASR、TTS等技术模块,构建覆盖泰语、俄语、韩语、日语等多语种语音
    的头像 发表于 07-11 14:00 986次阅读

    智能语音交互别再瞎选语音芯片了!NRK3502 才是你的最优解!

    在科技飞速发展的当下,智能产品如潮水般涌入我们的生活,从智能家居到智能医疗,从智能玩具到工业控制,语音交互技术已成为提升产品竞争力的关键因素。但在众多语音芯片中徘徊不定?担心选错芯片导致产品
    的头像 发表于 07-10 07:03 441次阅读
    智能<b class='flag-5'>语音</b><b class='flag-5'>交互</b>别再瞎选<b class='flag-5'>语音</b>芯片了!NRK3502 才是你的最优解!

    语音助手只能聊天?启明云端AI语音交互方案偷偷修炼了音乐才艺!

    语音助手只能聊天?太out了!”语音交互的新乐章已经奏响!启明云端基于乐鑫科技芯片的AI语音方案正式解锁音乐技能树,只需一句指令,智能设备
    的头像 发表于 06-27 18:03 725次阅读
    <b class='flag-5'>语音</b><b class='flag-5'>助手</b>只能聊天?启明云端AI<b class='flag-5'>语音</b><b class='flag-5'>交互</b>方案偷偷修炼了音乐才艺!

    芯资讯|广州唯创电子WTK6900P语音识别芯片:离线语音交互的革新者

    在智能设备全面普及的浪潮中,语音交互技术正逐步从“云端依赖”向“本地化高效处理”演进。广州唯创电子推出的WTK6900P语音识别芯片,凭借其本地
    的头像 发表于 05-22 09:22 590次阅读
    芯资讯|广州唯创电子WTK6900P<b class='flag-5'>语音</b>识别芯片:离线<b class='flag-5'>语音</b><b class='flag-5'>交互</b>的革新者

    广州唯创电子WT3000A离在线TTS语音提示器芯片IC设计方案深度解析

    引言:语音交互的智能化跃迁在全球化与智能化深度融合的今天,语音交互设备的应用场景已从单一提示功能向多语言支持、情感化表达及AI深度
    的头像 发表于 04-25 09:13 612次阅读
    广州唯创电子WT3000A离在线TTS<b class='flag-5'>语音</b>提示器芯片IC设计方案深度解析

    智能座舱:车载语音交互测试内容

    随着汽车智能化的飞速发展,车载语音交互系统已从早期的辅助功能逐渐演变为智能座舱的核心交互方式之一。驾驶者通过语音指令即可轻松完成导航设置、音乐播放、电话拨打,甚至车辆部分功能的控制,这
    的头像 发表于 04-24 15:29 1790次阅读
    智能座舱:车载<b class='flag-5'>语音</b><b class='flag-5'>交互</b>测试<b class='flag-5'>内容</b>

    智能收银语音交互新标杆—WT3000T8语音合成芯片TTS技术应用解析

    一、行业应用背景在零售业态智能化转型的浪潮中,收银设备正经历从功能型向服务型转变的关键阶段。WT3000T8语音合成芯片应运而生,专为满足新零售场景下智能收银终端的语音交互需求而设计。该芯片通过创新
    的头像 发表于 04-24 08:45 633次阅读
    智能收银<b class='flag-5'>语音</b><b class='flag-5'>交互</b>新标杆—WT3000T8<b class='flag-5'>语音</b>合成芯片TTS技术应用解析

    普强信息入选2024语音识别技术公司TOP30榜单

    企业数字化升级,这一荣誉不仅体现了普强在语音交互、语义理解、多语种识别等核心技术上的领先优势,更是对普强自主研发的端到端语音识别系统在高噪声环境、复杂口音等极端场景下仍能保持95%以上
    的头像 发表于 04-18 17:25 1010次阅读

    解锁个性化语音交互新时代:九芯智能语音云平台,让创意声音触手可及!

    九芯智能语音云平台提供全面高效安全的智能语音服务,支持自定义语音内容,简化烧录流程,依托AI技术,助力各行业智能化升级,引领语音
    的头像 发表于 01-02 16:51 1450次阅读
    解锁个性化<b class='flag-5'>语音</b><b class='flag-5'>交互</b>新时代:九芯智能<b class='flag-5'>语音</b>云平台,让创意声音触手可及!