0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

瑞芯微(EASY EAI)RV1126B 语音识别

广州灵眸科技有限公司 2026-01-21 10:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1. 语音识别简介

语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

我们的语音算法是基于Whisper是OpenAI设计的。Whisper作为一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据来训练,能够在英语语音识别上达到接近人类水平的鲁棒性和准确性。Whisper还可以进行多语言语音识别、语音翻译和语言识别等任务。Whisper的架构是一个简单的端到端方法,采用了编码器-解码器的Transformer模型,将输入的音频转换为对应的文本序列,并根据特殊的标记来指定不同的任务。

基于EASY-EAI-Nano-TB(RV1126B)硬件主板的运行效率:

v2-595dc54f52ffc786654fd14d3ede5ab8_720w.webp

2. 快速上手

2.1 开发环境准备

如果您初次阅读此文档,请阅读《入门指南/开发环境准备/Easy-Eai编译环境准备与更新》,并按照其相关的操作,进行编译环境的部署

在PC端Ubuntu系统中执行run脚本,进入EASY-EAI编译环境,具体如下所示。

cd ~/develop_environment
./run.sh 2204
v2-e1127efd76bcca3331922be6d17e546f_720w.webp

2.2 源码下载

在EASY-EAI编译环境下创建存放源码仓库的管理目录:

cd /opt
mkdir EASY-EAI-Toolkit
cd EASY-EAI-Toolkit

通过git工具,在管理目录内克隆远程仓库

git clone https://github.com/EASY-EAI/EASY-EAI-Toolkit-1126B.git
v2-67d8e73ccfe13280db05364195d1679f_720w.webp

注:

* 此处可能会因网络原因造成卡顿,请耐心等待。

* 如果实在要在gitHub网页上下载,也要把整个仓库下载下来,不能单独下载本实例对应的目录。

2.3 模型部署

要完成算法Demo的执行,需要先下载语音算法模型。

百度网盘链接为: https://pan.baidu.com/s/18okeW8ZIJ6zapTvuxcFoRw?pwd=1234 (提取码:1234 )。

v2-298c4633a7e9acf80df25a6a795efb4d_720w.webp

同时需要把下载的语音识别算法模型复制粘贴到Release/目录:

v2-7ccd142109ead84cde8e386b5ae4f50d_720w.webp

2.4 例程编译

进入到对应的例程目录执行编译操作,具体命令如下所示:

cd EASY-EAI-Toolkit-1126B/Demos/algorithm-speech_recognition/
./build.sh cpres

注:

* 由于依赖库部署在板卡上,因此交叉编译过程中必须保持/mnt挂载。

* 若build.sh脚本带有cpres参数,则会把Release/目录下的所有资源都拷贝到开发板上。

v2-3c77c542c667b8a05364511ede82d874_720w.webp

2.5 例程运行及效果

通过串口调试或ssh调试,进入板卡后台,定位到例程部署的位置,如下所示:

cd /userdata/Demo/algorithm-speech_recognition/
v2-81d31547733c1f27f6819ed921f4e71c_720w.webp

运行例程命令如下所示:

sudo ./test-speech_recognition speech_encoder.model speech_decoder.model filters.txt CN.txt cn 1-10-1_CN.wav
v2-46eb8d4fcf8f7c8a298934b4359dd9b5_720w.webp

API的详细说明,以及API的调用(本例程源码),详细信息见下方说明。

3. 语音识别API说明

3.1 引用方式

为方便客户在本地工程中直接调用我们的EASY EAI api库,此处列出工程中需要链接的库以及头文件等,方便用户直接添加。

v2-51f9057bee402e3e3cc960980f2b71ae_720w.webp

3.2 语音识别检测初始化函数

设置语音识别初始化函数原型如下所示。

int speech_recognition_init(const char *p_encoder_path, const char *p_decoder_path, const char *p_filter_path, 
		const char *p_vocab_path, rknn_whisper_t *p_whisper);

具体介绍如下所示。

v2-cab1bb8251d37ad0363ce642bf206b83_720w.webp

3.3 语音识别运行函数

设置语音识别运行原型如下所示。

int speech_recognition_run(rknn_whisper_t *p_whisper, audio_buffer_t audio, int task_code, std::vector &recognized_text);

具体介绍如下所示。

v2-9a995d9672bd5c68801d9119167660e7_720w.webp

3.4 语音识别释放函数

设置语音识别释放原型如下所示。

int speech_recognition_release(rknn_whisper_t *p_whisper);

具体介绍如下所示。

v2-748001e3579a49116c31885d5f880bc9_720w.webp

4. 语音识别算法例程

例程目录为Demos/algorithm-speech_recognition/test-speech_recognition.cpp,操作流程如下所示:

v2-74d56eea17e649adf2bda1c002418e44_720w.webp
#include 
#include 
#include 
#include 
#include 
#include "sndfile.h"
#include "speech_recognition.h"
#include "audio_utils.h"


int main(int argc, char **argv)
{
	if (argc != 7){
		printf("%s  \n", argv[0]);
		printf("Example: %s speech_encoder.model speech_decoder.model filters.txt CN.txt cn 1-10-1_CN.wav\n", argv[0]);
		return -1;
	}
	const char *p_encoder_path = argv[1];	// 编码模型地址
	const char *p_decoder_path = argv[2];	// 解码模型地址
	const char *p_filter_path = argv[3];	// 滤波器频谱
	const char *p_vocab_path = argv[4];		// 词组文件
	const char *p_task = argv[5];			// 识别语种(cn/en)
	const char *p_audio_path = argv[6];		// 待识别音频
	int task_code = 0;
	std::vector recognized_text;

	// Tokenizer 预定义控制符号(切换语言或任务)
	if (strcmp(p_task, "en") == 0){
		task_code = 50259;
	}
	else if (strcmp(p_task, "cn") == 0){
		task_code = 50260;
	}
	else{
		printf("\n\033[1;33mCurrently only English or Chinese recognition tasks are supported. Please specify  as en or zh\033[0m\n");
		return -1;
	}
	
	// 读取音频,并对音频进行处理
	audio_buffer_t audio;
	int ret = read_audio(p_audio_path, &audio);
	if (ret != 0){
		printf("read audio fail! ret=%d audio_path=%s\n", ret, p_audio_path);
		return -1;
	}
	if (audio.num_channels == 2){
		ret = convert_channels(&audio);
	}
	if (audio.sample_rate != SAMPLE_RATE){
		ret = resample_audio(&audio, audio.sample_rate, SAMPLE_RATE);
	}

	// speech recognition初始化
	rknn_whisper_t whisper;
	ret = speech_recognition_init(p_encoder_path, p_decoder_path, p_filter_path, p_vocab_path, &whisper);

	int iter = 0;
	for (int i=0; i < 5; i++)
	{
		clock_t start = clock();

		recognized_text.clear();
		// speech recognition语音识别
		ret = speech_recognition_run(&whisper, audio, task_code, recognized_text);
		
		clock_t end = clock();  // 记录结束时间
		double infer_time = ((double)(end - start)) / CLOCKS_PER_SEC;  // 转换为秒

		// 结果输出
		std::cout << "\nspeech recognition output: ";
		for (const auto &str : recognized_text){
			std::cout << str;
		}
		std::cout << std::endl;

		float audio_length = audio.num_frames / (float)SAMPLE_RATE; // sec
		audio_length = audio_length > (float)CHUNK_LENGTH ? (float)CHUNK_LENGTH : audio_length;
		float rtf = infer_time / audio_length;
		printf("%d, Real Time Factor (RTF): %.3f / %.3f = %.3f\n", iter++, infer_time, audio_length, rtf);
	}

	// speech recognition释放 
	speech_recognition_release(&whisper);
	return 0;
}
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Linux
    +关注

    关注

    88

    文章

    11821

    浏览量

    219598
  • 瑞芯微
    +关注

    关注

    27

    文章

    861

    浏览量

    54678
  • EASY-EAI灵眸科技

    关注

    4

    文章

    109

    浏览量

    3729
  • RV1126B
    +关注

    关注

    0

    文章

    98

    浏览量

    253
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    (EASY EAI)RV1126B 音频输入

    1.声卡资源介绍EASY-EAI-Nano-TB仅有一块由RV1126B主控输出的声卡。通过串口调试或ssh调试,可以进入开发板终端。执行aplay命令查看声卡相关的详细信息,如下所示
    的头像 发表于 12-18 13:41 2610次阅读
    <b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b>(<b class='flag-5'>EASY</b> <b class='flag-5'>EAI</b>)<b class='flag-5'>RV1126B</b> 音频输入

    (EASY EAI)RV1126B PWM使用

    1.PWM简介1.1开发板PWM资源1.2查找PWM节点rv1126b的pwm资源表如下:【PWM1CH0】对应的是pwm1_4ch_0,寄存地址为20700000。【PWM1CH1】对应
    的头像 发表于 01-06 10:49 8483次阅读
    <b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b>(<b class='flag-5'>EASY</b> <b class='flag-5'>EAI</b>)<b class='flag-5'>RV1126B</b> PWM使用

    (EASY EAI)RV1126B 音频输出

    1.声卡资源介绍EASY-EAI-Nano-TB仅有一块由RV1126B主控输出的声卡。通过串口调试或ssh调试,可以进入开发板终端。执行aplay命令查看声卡相关的详细信息,如下所示
    的头像 发表于 04-01 17:13 8572次阅读
    <b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b>(<b class='flag-5'>EASY</b> <b class='flag-5'>EAI</b>)<b class='flag-5'>RV1126B</b> 音频输出

    EASY EAI Nano-TB(RV1126B)开发板试用】+初识篇

    Nano-TB是灵眸科技研发的一款应用于AIoT领域的开发板,它基于RV1126B处理器,集成了4个Cortex-A53及独立的NEON协处理器,它支持4K@30fps的H.
    发表于 10-25 22:06

    EASY EAI Nano-TB(RV1126B)开发板试用】命令行功能测试-shell脚本进行IO控制-灯闪

    接上文【EASY EAI Nano-TB(RV1126B)开发板试用】开箱测评 https://pan.baidu.com/s/15pnbJXPN5TrfV2KfsKaZyQ?pwd=1234 打开
    发表于 11-01 21:26

    EASY EAI Nano-TB(RV1126B)开发板试用】命令行功能测试-shell脚本进行IO控制-红绿灯项目

    接上文【EASY EAI Nano-TB(RV1126B)开发板试用】通过wifi连接,使用ssh登录EASY EAI Nano-TB(
    发表于 11-02 18:34

    EASY EAI Nano-TB(RV1126B)开发板试用】命令行功能测试-shell脚本进行IO控制-红绿灯按钮项目

    0接上文【EASY EAI Nano-TB(RV1126B)开发板试用】命令行功能测试-shell脚本进行IO控制-红绿灯项目-实现开机起动 EASYEAINano-TB(RV1126B
    发表于 11-03 10:00

    EASY EAI Nano-TB(RV1126B)开发板试用】+1、开箱上电

    ,避免因接触不良导致显示或采集异常。 2 硬件解析:强劲AI核心与丰富接口 2.1 核心处理器性能 EASY EAI Nano-TB开发板的核心基于
    发表于 11-19 21:39

    EASY EAI Nano-TB(RV1126B)开发板试用】介绍、系统安装

    ,并介绍了系统镜像安装部署的相关流程。 介绍 EASY-EAI-Nano-TB是灵眸科技研发的一款应用于AIoT领域的AIOT主板。 核心板基于
    发表于 12-23 18:05

    RV1126系列选型指南:从RV1126RV1126B,一文看懂升级差异

    2025年7月,正式发布新一代AI视觉芯片RV1126B。作为其金牌方案商,EASYEAI灵眸科技同步推出搭载该芯片的AIoT核心板EAI11
    的头像 发表于 09-04 10:50 5261次阅读
    <b class='flag-5'>RV1126</b>系列选型指南:从<b class='flag-5'>RV1126</b>到<b class='flag-5'>RV1126B</b>,一文看懂升级差异

    【免费试用】EASY EAI Nano-TB(RV1126B)开发套件评测

    EASY-EAI-Nano-TB是灵眸科技研发的一款应用于AIoT领域的AIOT主板。核心板基于RV1126B处理器设计,并引入了新
    的头像 发表于 09-23 08:09 1293次阅读
    【免费试用】<b class='flag-5'>EASY</b> <b class='flag-5'>EAI</b> Nano-TB(<b class='flag-5'>RV1126B</b>)开发套件评测

    RV1126B特性概述

    RV1126BRockchip在2025年第二季度全新推出的Arm架构AI视觉芯片,搭载4核Cortex-A53与自研3Tops算力NPU。全面替代上一代的
    的头像 发表于 10-09 11:22 2250次阅读
    <b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b><b class='flag-5'>RV1126B</b>特性概述

    替代升级实锤!实测RV1126B,CPU性能吊打RV1126

    AI智能芯片迭代提速,推出了全新的Arm架构AI视觉芯片RV1126B,是否替换RV1126,CPU性能是挤牙膏还是大突破。带着这些核
    的头像 发表于 12-11 17:13 2597次阅读
    替代升级实锤!实测<b class='flag-5'>RV1126B</b>,CPU性能吊打<b class='flag-5'>RV1126</b>

    (EASY EAI)RV1126B 人体关键点识别

    的特点。本人员检测算法在数据集表现如下所示:基于EASY-EAI-Nano-TB(RV1126B)硬件主板的运行效率:17个人体关键点索引定义:2.快速上手2.1开发
    的头像 发表于 01-23 10:13 3803次阅读
    <b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b>(<b class='flag-5'>EASY</b> <b class='flag-5'>EAI</b>)<b class='flag-5'>RV1126B</b> 人体关键点<b class='flag-5'>识别</b>

    (EASY EAI)RV1126B rknn-toolkit-lite2使用方法

    1.rknn-toolkit-lite2介绍RKNN-Toolkit-Lite2是(Rockchip)专为旗下RK系列芯片(如RV1126B、RK3576、RK3588等)打造的
    的头像 发表于 04-22 17:38 594次阅读
    <b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b>(<b class='flag-5'>EASY</b> <b class='flag-5'>EAI</b>)<b class='flag-5'>RV1126B</b> rknn-toolkit-lite2使用方法