爱芯元智边缘AI芯片AX8850完成CosyVoice2大模型适配-电子发烧友网

0 TL;DR

已适配 CosyVoice2 到 AX8850 开发板和 M.2 算力卡，可以协助树莓派5实现本地语音克隆；

预编译示例已开源（GitHub & HuggingFace），附带简易 Gradio 演示界面；

RTF 1.5 左右（M.2 算力卡 RTF 2.5左右），适合对实时性要求不高的离线场景；

想要RTF ＜0.1 的 TTS，对音色效果要求不高的场景，可以参考我们才适配好的 Kokoro：

https://huggingface.co/AXERA-TECH/kokoro.axera

背景

今年下半年，随着业务推广需求增加，我们的大模型适配工作也有了新方向：不再只追求前沿模型的快速适配，而是更聚焦为销售团队提供“能打”的实战“弹药”——也就是贴近客户刚需的、可快速落地的大模型解决方案。

因此，接下来的技术分享会更聚焦在基于我司边缘 AI 芯片 AX8850 的实际应用落地，帮助客户实现从 Demo 到量产的跨越。

其中一个重点场景就是：离线语音智能助手。

目前实现方式大致分两种：

组合式方案：ASR → LLM → TTS（或 Audio-LLM → TTS）

端到端方案：用一个全能大模型（如Qwen3-omni）直接处理语音输入输出

我们更倾向组合式方案，因为：

模块灵活，可单独升级替换

成本低，ROI 高

更容易适配不同客户场景

而在组合方案中，TTS 是关键一环。我们希望它能支持语音克隆，让助手更有“人味”。

目前主流的开源语音克隆TTS模型有：CosyVoice 2、IndexTTS2、VoxCPM 等。本文先带大家快速看看 CosyVoice 2 在 AX8850 芯片上的部署进展，希望能为想在边缘侧做语音克隆的开发者提供一个新选择。

CosyVoice2

CosyVoice 2 是阿里巴巴通义实验室推出的一个开源多语言语音生成大模型，主要用于文本转语音（TTS）应用的开发。该模型在前代 CosyVoice 的基础上，通过系统性优化，实现了在流式（实时）模式下与人类语音媲美且近乎无损的合成质量，同时显著降低了响应延迟。

Huggingface 链接：

https://huggingface.co/FunAudioLLM/CosyVoice2-0.5B

GitHub 链接：

https://GitHub.com/FunAudioLLM/CosyVoice

Paper 链接：

https://arxiv.org/pdf/2412.10117

Demos：

https://funaudiollm.GitHub.io/cosyvoice2/

架构特点：

CosyVoice 2 的架构延续了将语音信号的语义信息（说什么）和声学信息（怎么说）分离建模的设计理念，主要由三个关键组件构成：

监督式语义语音分词器 (Supervised Semantic Speech Tokenizer)：

这是一个基于 SenseVoice-Large ASR 模型改造的模块。

它使用有限标量量化 (Finite Scalar Quantization, FSQ) 技术，将连续的语音信号离散化为语义语音标记（speech tokens）。

FSQ 的引入替代了传统的向量量化（VQ），显著提高了码本利用率，能更有效地捕捉和保留语音中的信息。

统一的文本-语音语言模型 (Unified Text-Speech Language Model)：

这是 CosyVoice 2 的核心创新之一，实现了流式与非流式合成的统一。

该模型直接采用一个预训练的大型语言模型（Qwen2.5-0.5B）作为骨干网络，去除了前代模型中的文本编码器和说话人嵌入，简化了架构并增强了上下文理解能力。

流式模式：输入文本以连续流的方式接收。模型通过将 N 个文本标记与 M 个语音标记按特定比例（如 5:15）混合的方式进行训练。当模型预测到“填充标记”时，系统便知道需要继续接收下一个文本块，从而实现边接收文本边生成语音标记的流式处理。

非流式模式：完整的输入文本和语音标记被直接拼接，模型进行一次性生成。

通过在同一模型上同时训练这两种模式，CosyVoice 2 实现了“一个模型，两种模式”，并且流式合成的质量与非流式模式几乎无损。

块感知因果流匹配模型 (Chunk-Aware Causal Flow Matching Model)：

该模块负责将语言模型生成的语义语音标记转换为包含音色、韵律等细节的梅尔频谱图（Mel spectrum）。

它基于流匹配 (Flow Matching) 技术，是一种非自回归（NAR）的生成模型。

为了支持流式合成，模型设计了因果卷积 Transformer UNet 结构，并引入了四种不同的注意力掩码：

- 非因果掩码：用于离线模式，性能最佳。

- 全因果掩码：仅允许访问过去的信息，延迟最低。

- Chunk-M/Chunk-2M 掩码：权衡延迟与性能，允许访问有限的未来信息。

在训练时，随机从这四种掩码中选择一种，使得单一模型能够适应不同的合成场景（低延迟流式、高质量离线等），极大地简化了部署。

Benchmark

总结来说，CosyVoice 2 的架构通过 FSQ 提升信息编码效率，利用统一的 LLM 架构实现流式与非流式的无缝切换，并采用块感知的因果流匹配模型来支持灵活的流式声学合成，最终构建了一个高质量、低延迟、部署灵活的先进语音合成系统。

部署示例

为了更好的进行开发者社区技术推广，因此我们将借助国内外非常成熟的树莓派生态产品：树莓派 5+AXCL 算力卡的形态进行说明。基于 AX8850 的社区开发板同样也支持部署该实例，本文就不单独说明了。

默认本文的阅读者能自行解决访问 Huggingface 的办法。

硬件推荐

树莓派 5 + LLM8850-Card

树莓派 5 + Maix4-HAT

软件步骤

默认已按照硬件产品的指导文档完成了硬件及必要的软件驱动安装（例如 AXCL 驱动包）。

预编译好的模型和示例已经上传到 huggingface（或者 hf-mirror）。

https://huggingface.co/AXERA-TECH/CosyVoice2

如何将原始的模型转换成 axmodel 并部署，请参考我们的 GitHub 仓库。

https://github.com/AXERA-TECH/Cosyvoice2.Axera

（友情提示：除非对该模型有 finetuning 需求的同学，否则我建议一开始不要浪费时间来学习该模型的换行或者示例代码的编译，因为过程比较复杂┓( ´∀` )┏）

获取示例

//代码开始

pip install huggingface_hub
exportHF_ENDPOINT=HTTPS://hf-mirror.com
hf downloadAXERA-TECH/CosyVoice2--local-dirAXERA-TECH/CosyVoice2

//代码结束

安装依赖

//代码开始

cdAXERA-TECH/CosyVoice2
pip install -r scripts/requirements.txt
pip install modelscope
modelscope download --model pengzhendong/wetext --local_dir pengzhendong/wetext

//代码结束

运行示例

这里我们选择基于 Gradio WebGUI 的方案

运行 tokenizer 服务

//代码开始

cdscripts
Python cosyvoice2_tokenizer.py

//代码结束

运行 axcl api 程序

//代码开始

cponnxruntime-Linux-aarch64-1.23.0/lib/libonnxruntime.so.1.23.0libonnxruntime.so.1
run_axcl_aarch64.sh

//代码结束

运行 gradio 脚本

//代码开始

Python scripts/gradio_demo.py

//代码结束

通过 web 浏览器访问

补充知识

阿里巴巴通义实验室除了研发家喻户晓的通义千问大模型之外，其实还有很多其他有趣、有价值的项目。

FunAudioLLM

是阿里巴巴通义实验室推出的一个面向语音生成的开源大模型项目，旨在通过大语言模型（LLM）技术，实现更自然、更智能的语音合成与对话能力。

FunAudioLLM 并不是一个单一模型，而是一个包含语音识别（SenseVoice）和语音合成（CosyVoice）的开源语音生成大模型套件。它代表了阿里在语音技术领域的前沿探索，致力于打造能理解情感、自然交流的下一代人机语音交互体验。

FunAudioLLM 的整体目标是构建一个端到端的语音生成系统，将先进的语音识别（SenseVoice）与高质量的语音合成（CosyVoice）能力深度结合，实现从“听懂人话”到“说出人话”的完整、智能闭环。它特别适用于：

智能客服与虚拟助手：不仅能理解用户语音并识别其情绪，还能用自然、富有情感的语音进行回应。

有声书与内容创作：用指定音色朗读文本。

多语言内容生成与实时翻译：支持跨语言的语音转写与合成。

会议记录与无障碍阅读：实时转录并可选语音播报。

在后续的文章中，我们会针对 SenceVoice 模型单独说明。

感谢

@M5Stack @矽速科技提供适用于树莓派 5 的 M.2 2242 算力卡和 Maix4-HAT 算力模组

@某营销部同学贡献声源片段数据辅助 CosyVoice 2 生成《赠汪伦》

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

开发板

开发板

+关注

关注
25

文章
6139

浏览量
113590
树莓派

树莓派

+关注

关注
122

文章
2070

浏览量
109783
AI芯片

AI芯片

+关注

关注
17

文章
2072

浏览量
36583

原文标题：爱芯分享 | AX8850社区开发板完成CosyVoice2适配

文章出处：【微信号：爱芯元智AXERA，微信公众号：爱芯元智AXERA】欢迎添加关注！文章转载请注明出处。

搜索历史

爱芯元智边缘AI芯片AX8850完成CosyVoice2大模型适配

评论