0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

爱芯元智边缘AI芯片AX8850完成CosyVoice2大模型适配

爱芯元智AXERA 来源:爱芯元智AXERA 2025-12-11 10:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

0 TL;DR

已适配 CosyVoice2 到 AX8850 开发板和 M.2 算力卡,可以协助树莓派5实现本地语音克隆;

预编译示例已开源(GitHub & HuggingFace),附带简易 Gradio 演示界面;

RTF 1.5 左右(M.2 算力卡 RTF 2.5左右),适合对实时性要求不高的离线场景;

想要RTF <0.1 的 TTS,对音色效果要求不高的场景,可以参考我们才适配好的 Kokoro:

https://huggingface.co/AXERA-TECH/kokoro.axera

背景

今年下半年,随着业务推广需求增加,我们的大模型适配工作也有了新方向:不再只追求前沿模型的快速适配,而是更聚焦为销售团队提供“能打”的实战“弹药”——也就是贴近客户刚需的、可快速落地的大模型解决方案。

因此,接下来的技术分享会更聚焦在基于我司边缘 AI 芯片 AX8850 的实际应用落地,帮助客户实现从 Demo 到量产的跨越。

其中一个重点场景就是:离线语音智能助手

目前实现方式大致分两种:

组合式方案:ASR → LLM → TTS(或 Audio-LLM → TTS)

端到端方案:用一个全能大模型(如Qwen3-omni)直接处理语音输入输出

我们更倾向组合式方案,因为:

模块灵活,可单独升级替换

成本低,ROI 高

更容易适配不同客户场景

而在组合方案中,TTS 是关键一环。我们希望它能支持语音克隆,让助手更有“人味”。

目前主流的开源语音克隆TTS模型有:CosyVoice 2、IndexTTS2、VoxCPM 等。本文先带大家快速看看 CosyVoice 2 在 AX8850 芯片上的部署进展,希望能为想在边缘侧做语音克隆的开发者提供一个新选择。

CosyVoice2

CosyVoice 2 是阿里巴巴通义实验室推出的一个开源多语言语音生成大模型,主要用于文本转语音(TTS)应用的开发。该模型在前代 CosyVoice 的基础上,通过系统性优化,实现了在流式(实时)模式下与人类语音媲美且近乎无损的合成质量,同时显著降低了响应延迟。

Huggingface 链接

https://huggingface.co/FunAudioLLM/CosyVoice2-0.5B

GitHub 链接

https://GitHub.com/FunAudioLLM/CosyVoice

Paper 链接:

https://arxiv.org/pdf/2412.10117

Demos:

https://funaudiollm.GitHub.io/cosyvoice2/

架构特点:

CosyVoice 2 的架构延续了将语音信号的语义信息(说什么)和声学信息(怎么说)分离建模的设计理念,主要由三个关键组件构成:

监督式语义语音分词器 (Supervised Semantic Speech Tokenizer):

这是一个基于 SenseVoice-Large ASR 模型改造的模块。

它使用有限标量量化 (Finite Scalar Quantization, FSQ) 技术,将连续的语音信号离散化为语义语音标记(speech tokens)。

FSQ 的引入替代了传统的向量量化(VQ),显著提高了码本利用率,能更有效地捕捉和保留语音中的信息。

统一的文本-语音语言模型 (Unified Text-Speech Language Model):

这是 CosyVoice 2 的核心创新之一,实现了流式与非流式合成的统一。

该模型直接采用一个预训练的大型语言模型(Qwen2.5-0.5B)作为骨干网络,去除了前代模型中的文本编码器和说话人嵌入,简化了架构并增强了上下文理解能力。

流式模式:输入文本以连续流的方式接收。模型通过将 N 个文本标记与 M 个语音标记按特定比例(如 5:15)混合的方式进行训练。当模型预测到“填充标记”时,系统便知道需要继续接收下一个文本块,从而实现边接收文本边生成语音标记的流式处理。

非流式模式:完整的输入文本和语音标记被直接拼接,模型进行一次性生成。

通过在同一模型上同时训练这两种模式,CosyVoice 2 实现了“一个模型,两种模式”,并且流式合成的质量与非流式模式几乎无损。

块感知因果流匹配模型 (Chunk-Aware Causal Flow Matching Model):

该模块负责将语言模型生成的语义语音标记转换为包含音色、韵律等细节的梅尔频谱图(Mel spectrum)。

它基于流匹配 (Flow Matching) 技术,是一种非自回归(NAR)的生成模型。

为了支持流式合成,模型设计了因果卷积 Transformer UNet 结构,并引入了四种不同的注意力掩码:

- 非因果掩码:用于离线模式,性能最佳。

- 全因果掩码:仅允许访问过去的信息,延迟最低。

- Chunk-M/Chunk-2M 掩码:权衡延迟与性能,允许访问有限的未来信息。

在训练时,随机从这四种掩码中选择一种,使得单一模型能够适应不同的合成场景(低延迟流式、高质量离线等),极大地简化了部署。

f496ce50-d033-11f0-8c8f-92fbcf53809c.png

f4fa6d20-d033-11f0-8c8f-92fbcf53809c.png

f5575364-d033-11f0-8c8f-92fbcf53809c.png

Benchmark

f5b360c8-d033-11f0-8c8f-92fbcf53809c.png

总结来说,CosyVoice 2 的架构通过 FSQ 提升信息编码效率,利用统一的 LLM 架构实现流式与非流式的无缝切换,并采用块感知的因果流匹配模型来支持灵活的流式声学合成,最终构建了一个高质量、低延迟、部署灵活的先进语音合成系统。

部署示例

为了更好的进行开发者社区技术推广,因此我们将借助国内外非常成熟的树莓派生态产品:树莓派 5+AXCL 算力卡的形态进行说明。基于 AX8850 的社区开发板同样也支持部署该实例,本文就不单独说明了。

默认本文的阅读者能自行解决访问 Huggingface 的办法。

硬件推荐

树莓派 5 + LLM8850-Card

f610b476-d033-11f0-8c8f-92fbcf53809c.png

树莓派 5 + Maix4-HAT

f66f7be6-d033-11f0-8c8f-92fbcf53809c.png

软件步骤

默认已按照硬件产品的指导文档完成了硬件及必要的软件驱动安装(例如 AXCL 驱动包)。

预编译好的模型和示例已经上传到 huggingface(或者 hf-mirror)。

https://huggingface.co/AXERA-TECH/CosyVoice2

如何将原始的模型转换成 axmodel 并部署,请参考我们的 GitHub 仓库。

https://github.com/AXERA-TECH/Cosyvoice2.Axera

(友情提示:除非对该模型有 finetuning 需求的同学,否则我建议一开始不要浪费时间来学习该模型的换行或者示例代码的编译,因为过程比较复杂┓( ´∀` )┏)

获取示例

//代码开始

pip install huggingface_hub
exportHF_ENDPOINT=HTTPS://hf-mirror.com
hf downloadAXERA-TECH/CosyVoice2--local-dirAXERA-TECH/CosyVoice2

//代码结束

安装依赖

//代码开始

cdAXERA-TECH/CosyVoice2
pip install -r scripts/requirements.txt
pip install modelscope
modelscope download --model pengzhendong/wetext --local_dir pengzhendong/wetext

//代码结束

运行示例

这里我们选择基于 Gradio WebGUI 的方案

运行 tokenizer 服务

//代码开始

cdscripts
Python cosyvoice2_tokenizer.py

//代码结束

运行 axcl api 程序

//代码开始

cponnxruntime-Linux-aarch64-1.23.0/lib/libonnxruntime.so.1.23.0libonnxruntime.so.1
run_axcl_aarch64.sh

//代码结束

运行 gradio 脚本

//代码开始

Python scripts/gradio_demo.py

//代码结束

通过 web 浏览器访问

f6d2c6b0-d033-11f0-8c8f-92fbcf53809c.jpg

补充知识

阿里巴巴通义实验室除了研发家喻户晓的通义千问大模型之外,其实还有很多其他有趣、有价值的项目。

FunAudioLLM

f72bb356-d033-11f0-8c8f-92fbcf53809c.png

是阿里巴巴通义实验室推出的一个面向语音生成的开源大模型项目,旨在通过大语言模型(LLM)技术,实现更自然、更智能的语音合成与对话能力。

FunAudioLLM 并不是一个单一模型,而是一个包含语音识别(SenseVoice)和语音合成(CosyVoice)的开源语音生成大模型套件。它代表了阿里在语音技术领域的前沿探索,致力于打造能理解情感、自然交流的下一代人机语音交互体验。

FunAudioLLM 的整体目标是构建一个端到端的语音生成系统,将先进的语音识别(SenseVoice)与高质量的语音合成(CosyVoice)能力深度结合,实现从“听懂人话”到“说出人话”的完整、智能闭环。它特别适用于:

智能客服与虚拟助手:不仅能理解用户语音并识别其情绪,还能用自然、富有情感的语音进行回应。

有声书与内容创作:用指定音色朗读文本。

多语言内容生成与实时翻译:支持跨语言的语音转写与合成。

会议记录与无障碍阅读:实时转录并可选语音播报。

在后续的文章中,我们会针对 SenceVoice 模型单独说明。

感谢

@M5Stack @矽速科技 提供适用于树莓派 5 的 M.2 2242 算力卡 和 Maix4-HAT 算力模组

@某营销部同学贡献声源片段数据辅助 CosyVoice 2 生成《赠汪伦》

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开发板
    +关注

    关注

    25

    文章

    6139

    浏览量

    113590
  • 树莓派
    +关注

    关注

    122

    文章

    2070

    浏览量

    109783
  • AI芯片
    +关注

    关注

    17

    文章

    2072

    浏览量

    36583

原文标题:爱芯分享 | AX8850社区开发板完成CosyVoice2适配

文章出处:【微信号:爱芯元智AXERA,微信公众号:爱芯元智AXERA】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    边缘AI芯片AX8850完成Qwen3-VL多模态大模型适配

    适配 Qwen3-VL-2B/4B/8B 到 AX8850 开发板和 M.2 算力卡,可在本地完成图片内容理解和视频概要生成,可配合“树莓
    的头像 发表于 11-26 13:57 2050次阅读
    <b class='flag-5'>爱</b><b class='flag-5'>芯</b><b class='flag-5'>元</b>智<b class='flag-5'>边缘</b><b class='flag-5'>AI</b><b class='flag-5'>芯片</b><b class='flag-5'>AX8850</b><b class='flag-5'>完成</b>Qwen3-VL多模态大<b class='flag-5'>模型</b><b class='flag-5'>适配</b>

    AX8850:以边缘算力,让具身智能触手可及

    ”的创新IC新品推介。受主办方邀请,智半导体股份有限公司联合创始人、副总裁刘建伟带来了《AX8850:以边缘算力,让具身智能触手可及》
    的头像 发表于 05-13 18:16 7131次阅读
    <b class='flag-5'>爱</b><b class='flag-5'>芯</b><b class='flag-5'>元</b>智<b class='flag-5'>AX8850</b>:以<b class='flag-5'>边缘</b>算力,让具身智能触手可及

    派 Pro 开发板试用体验】部署派官方YOLOV5模型

    /install/ax650/ 路径下。 其中很多案例程序,因为智能教室需要清点人数,所以选择了YOLOV5和YOLOV7_TINY face两个demo。 三、下载模型
    发表于 12-12 22:58

    智旗下AI SoC芯片满足电池应用方案功耗需求

    智旗下AI SoC芯片——AX620A,兼具高算力、低功耗、高能效比、高算力利用率等多种优
    的头像 发表于 04-14 15:02 3756次阅读

    智推出首款旗舰芯片-AX630A

    智顺应科技潮流、精准洞察行业发展趋势,于公司成立第二年推出首款旗舰芯片——AX630A,此款产品既体现了
    的头像 发表于 04-27 17:20 4278次阅读

    智视觉芯片AX620A与百度飞桨完成I级兼容性测试

    近日,智半导体(上海)有限公司(以下简称“智”)旗下自研智能视觉
    的头像 发表于 10-24 17:29 2108次阅读

    AI芯片公司智荣获2023中国IC领袖峰会两项殊荣

    3月30日,由AspenCore主办的“2023中国IC领袖峰会暨中国IC成就奖颁奖典礼”在上海成功举办。凭借在AI芯片赛道的强大自研实力和突出落地成果,
    的头像 发表于 03-31 17:31 2925次阅读

    AX620E和AX650芯片获PSA一级安全认证

    据认证资料显示,AX620E系列是专为IPC及其他智能视觉应用而生的高性能AI视觉处理器,在高画质、智能处理和分析等方面均处于业界领
    的头像 发表于 04-23 17:04 1800次阅读

    智发布边缘智能芯片AX8850

    ”为主题,智联合创始人、副总裁刘建伟受邀出席,不仅带来最新算力产品AX8850,也对当下边缘计算需求对具身智能发展的推动给出了深层思考
    的头像 发表于 05-16 10:59 1254次阅读

    智携手灵境声学推出“声”音频解决方案

    Umix AI”全景声行业大模型的专属音频芯片方案——“声”。该方案搭载灵境声学自研的“灵
    的头像 发表于 08-01 10:43 4479次阅读

    智重磅发布边缘计算战略

    近日,智在2025世界人工智能大会上重磅发布边缘计算战略。展会现场汇聚了众多行业精英,共同见证了
    的头像 发表于 08-01 10:45 1075次阅读

    智亮相2025全球AI芯片峰会

    2025全球AI芯片峰会(GACS 2025)近日在上海召开,智联合创始人、副总裁刘建伟出席活动,并于“大
    的头像 发表于 09-26 15:49 687次阅读

    新品 | LLM-8850 Card, AX8850边缘设备AI加速卡

    LLM‑8850 Card是一款面向边缘设备的M.2M-KEY2242 AI加速卡,把42 mm的袖珍体积与AxeraAX8850 SoC的
    的头像 发表于 09-26 18:18 549次阅读
    新品 | LLM-<b class='flag-5'>8850</b> Card, <b class='flag-5'>AX8850</b><b class='flag-5'>边缘</b>设备<b class='flag-5'>AI</b>加速卡

    智携手合作伙伴M5Stack亮相YOLO Vision 2025

    近日,全球计算机视觉领域的权威盛会——YOLO Vision 2025,亚洲首秀在深圳举行。智携手合作伙伴M5Stack,以AX8850赋能M.
    的头像 发表于 11-02 09:20 506次阅读
    <b class='flag-5'>爱</b><b class='flag-5'>芯</b><b class='flag-5'>元</b>智携手合作伙伴M5Stack亮相YOLO Vision 2025

    Cadence与智深化合作以推动人形机器人发展

    近日,楷登电子 Cadence 与边缘 SoC 领军企业智共同宣布,
    的头像 发表于 12-11 10:16 300次阅读