首页
技术

可编程逻辑

MEMS/传感技术

嵌入式技术

模拟技术

控制/MCU

处理器/DSP

存储技术

EMC/EMI设计

电源/新能源

测量仪表

制造/封装

RF/无线

接口/总线/驱动

EDA/IC设计

光电显示

连接器

PCB设计

LEDs

汽车电子

医疗电子

人工智能

可穿戴设备

军用/航空电子

工业控制

触控感测

智能电网

音视频及家电

通信网络

机器人

vr|ar|虚拟现实

安全设备/系统

移动通信

便携设备

物联网

区块链

HarmonyOS

RISC-V MCU

光伏

ChatGPT

IGBT

充电桩

氮化镓

BLDC

逆变器

5G

电机控制
资源

技术文库

新品速递

电路图

元器件知识

电子百科

最新技术文章

元器件搜索引擎
下载

在线工具

常用软件

电子书

datasheet
专栏

电子说

专栏
社区

论坛

问答

小组

技术专栏

社区之星

试用中心

HarmonyOS技术社区

2023电子工程师大会
研究院
活动

设计大赛

硬创大赛

社区活动

线下会议

在线研讨会

小测验
学院

直播

课程
视频
企业号
工具

datasheet查询

免费评测试用

技术子站

搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

VIP于到期续费

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

会员中心

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

AI耳机变身翻译官+会议总结大师？涂鸦AI音频开发方案，让耳机升级到下一个level

在接入 AI 能力后，耳机这种日常化的产品，能有多大的想象空间？它不仅能帮你轻松听懂全球外语和地方方言，还能将语音转化为文字、翻译成不同语言，甚至自动总结会议要点、生成思维导图，适配办公、学习、跨语言交流及日常生活等多类场景，妥妥的人类新型“智能听觉中枢”！

为了助力开发者/品牌商快速开发能听会说的 AI 音频类设备，涂鸦重磅发布 AI 音频转录总结方案，覆盖耳机、录音设备、眼镜、音箱等硬件形态。通过简单易用的涂鸦 API，开发者只需在涂鸦的面板小程序中少量配置，就能实现 App 收声，并支持语音识别、翻译、摘要、思维导图生成等功能；搭配强大的 AI 引擎，开发者开箱即用，开发门槛更低。

目前，开发者可通过涂鸦云接入 DeepSeek、豆包、通义千问、Kimi、元宝等国内模型，海外则兼容 ChatGPT、Claude、Gemini 等先进 AI 大模型。

一、落地应用案例

1、AI 耳机：录音翻译大师

涂鸦赋能 AI 耳机，支持将音频数据传输到 App 上，并通过 VAD（语音活动检测）+ ASR（语音转录文字）能力，实时处理数据。语音转录为文字后，就可将识别结果即时反馈给App。此外，依托 AI 大模型技术，涂鸦可进一步总结转换后的文字内容，并精准翻译，通过耳机语音播报给用户。这不仅提升了用户的使用体验，还能够满足线上或面对面的多语言交流需求。

2、AI 会议录音卡片：办公神助攻

涂鸦赋能AI 会议录音卡片，不仅是一个录音工具，更能够与会议纪要功能结合：它支持实时总结会议音频内容，并智能生成文字摘要和详细的会议纪要。这一解决方案有效地简化了会议记录+总结过程，高效率推动后续工作，帮助上班族节省时间与精力。

二、App 界面功能演示

下方是涂鸦赋能App 界面的展示，连接 AI 音频设备后（接下来将以涂鸦赋能 AI 耳机为例，进行具体介绍），即可拥有现场录音、同声传译和面对面翻译功能。功能将持续迭代，敬请期待！

1、音频实时转录成文字

用户在通话、会议讲座或收听广播场景下，AI 耳机都会实时采集语音。App 接收音频数据后，会及时转写成文字，非常适合语言学习者、听障人群或需要文字记录的场景。识别结果会同步展示在屏幕上，便于查看、复制与保存。

下面是该功能的动态示意图：

2、面对面翻译

在跨语言交流场景中，两人都佩戴 AI 耳机或一人一只耳机，就可实现“你说我译”的双向语音翻译功能。语音通过耳机传入 App，App 实时转写、翻译并播报结果，大幅降低语言沟通门槛，适用于出境旅行、商务接待、跨境会谈等多语种场景。

3、会议录音

在多人会议或访谈场景中，AI 耳机可用作便捷的拾音设备，实时采集多方语音内容。App 端实现同步语音转写，并可生成完整的会议纪要和思维导图，支持后续查询、存档处理，有效提升会议效率与内容管理能力。

三、涂鸦 AI 音频技术的独特之处

涂鸦 AI 音频开发方案，由三大核心模块构成，即：设备端、App 端、云端AI，整体架构图可参考下方示意图：

1、设备端

设备作为音频输入输出的载体，支持通过传统 BT 配对和 Bluetooth LE 的方式连接 App。相比普通蓝牙耳机，涂鸦赋能 AI Pro 耳机可以通过特定的 DP 点下发指令，实现更丰富的双向控制，如：

App 与 AI 耳机能够双向传输指令、同步状态

开始/暂停录音

控制单耳收音和播放

支持双耳一对一的同声翻译功能（即左右耳可同时播放不同内容，两个人分别佩戴一只耳机即可实现同声翻译）

（左右耳双道独立运行流程图）

2、App 端

App 主要承担 AI 音频的数据处理与业务逻辑运行：

业务功能：支持现场录音、同声传译、面对面翻译、电话录音等功能模块；

音频处理：本地进行 VAD、AEC、ANS、AGC、PLC、振幅处理、转码、信道管理等技术处理，能够让音质的输出清晰无杂音、更稳定，并保持音频连续性；

基础能力：支持 AI 基座协议、设备通信协议、大数据通道（蓝牙/Wi-Fi）。

3、云端 AI 能力

涂鸦在云端AI集成了多个模型与能力，包括：

ASR：搭载高精度的语音自动识别，让 AI 秒懂人类语言，准确无误地将音频中的语音内容转写为文本；

LLM-based MT：支持用大语言模型做翻译，语境理解能力更强，告别从前死记硬背的机械式翻译（涂鸦目前可支持 65+ 地区语言，并不断扩展中）；

TTS：支持文字转语音，能成熟模仿不同人物的音色，并搭配不同情绪的语气，让 AI 发音更拟人化（用户可自定义配置音色）；

其他拓展能力：涂鸦还支持语音分离、离线转录、会议总结、思维导图生成等功能。

通过统一协议协同处理，端云一体可实现低延迟、高效率、高智商的 AI 语音服务。

四、AI 音频技术的流程处理

涂鸦 AI 音频技术的流程处理，总共分为三个阶段：

拾音+3A处理+转码：即声音采集与预处理

VAD+音频切片：即有效语音检测与切片处理

ASR+翻译+TTS：即智能识别、翻译与语音合成

整体流程图可参考：

1、拾音+3A处理+转码

首先，由耳机或 App 采集原始语音，并降噪、消除回声后统一加工成 PCM 流后，交给 3A 模块进行预处理。处理后的音频会自动保存为 wav 文件，便于进行振幅计算（即计算声音强度）；为了后续高效处理，涂鸦将音频数据分割为 640b/帧的数据块。

2、VAD+音频切片

涂鸦会对连续 PCM 音频流进行精准的 VAD 语音识别检测，并整合出有效的语音片段，智能区分哪里是人在说话、哪里是静音或背景噪音。然后按规则（如 100ms/段）进行切片，缓存发送到待识别的 ASR（语音转换为文本）队列。

3、ASR+翻译+TTS

收到语音片段后，系统会自动发送到云端完成 ASR 识别

如果用户开启了翻译功能，就会在完成语音转文字后，同步调用大模型进行语言翻译；

翻译后的文字，可通过 TTS，合成目标语言播放给用户听；

最终，所有识别或翻译结果，都会通过 AI 基座与业务层进行通信，并回调至面板小程序中。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

音频

音频

+关注

关注
31

文章
3254

浏览量
86587
AI

AI

+关注

关注
91

文章
42235

浏览量
303262
涂鸦智能

涂鸦智能

+关注

关注
7

文章
330

浏览量
20794

评论

电子发烧友

My ElecFans

APP
网站地图

设计技术

可编程逻辑

电源/新能源

MEMS/传感技术

测量仪表

嵌入式技术

制造/封装

模拟技术

RF/无线

接口/总线/驱动

处理器/DSP

EDA/IC设计

存储技术

光电显示

EMC/EMI设计

连接器

行业应用

LEDs

汽车电子

音视频及家电

通信网络

医疗电子

人工智能

虚拟现实

可穿戴设备

机器人

安全设备/系统

军用/航空电子

移动通信

工业控制

便携设备

触控感测

物联网

智能电网

区块链

新科技

特色内容

专栏推荐

学院

设计资源

设计技术

电子百科

电子视频

元器件知识

工具箱

VIP会员

最新技术文章

产品地图

品牌地图

社区

小组

论坛

问答

评测试用

企业服务

产品

资料

文章

方案

企业

供应链服务

硬件开发

媒体服务

网站广告

在线研讨会

活动策划

新闻发布

新品发布

小测验

设计大赛

电子发烧友

关于我们

联系我们

举报投诉

社交网络

微博

移动端

发烧友APP

WAP

联系我们

广告合作

王婉珠：wangwanzhu@elecfans.com

内容合作

张迎辉：mikezhang@elecfans.com

关注我们的微信

下载发烧友APP

机器人发烧友

版权所有 © 长沙勒克斯教育咨询有限公司

湖南省长沙市开福区月湖街道匍园路20号聚恒科技园1栋2301-1房
电子发烧友 （电路图） 电信与信息服务业务经营许可证：湘B2-20260003 湘ICP备2023036445号-105-1