Python在音频（Audio）领域中，如何进行数据扩充呢？-电子发烧友网

Python 音频的数据扩充

经典的深度学习网络AlexNet使用数据扩充（Data Augmentation）的方式扩大数据集，取得较好的分类效果。在深度学习的图像领域中，通过平移、翻转、加噪等方法进行数据扩充。但是，在音频（Audio）领域中，如何进行数据扩充呢？

音频的数据扩充，主要有以下四种方式：

音频剪裁（Clip）

音频旋转（Roll）

音频调音（Tune）

音频加噪（Noise）

音频解析基于librosa音频库；矩阵操作基于scipy和numpy科学计算库。

以下是Python的实现方式

音频剪裁

import librosa

from scipy.io import wavfile y, sr = librosa.load("../data/love_illusion.mp3")

# 读取音频print y.shape, sr wavfile.write("../data/love_illusion_20s.mp3", sr, y[20 * sr:40 * sr])

# 写入音频

音频旋转

import cv2

import librosa

from scipy.io import wavfile y, sr = librosa.load("../data/raw/love_illusion_20s.mp3")

# 读取音频ly = len(y) y_tune = cv2.resize(y, (1, int(len(y) * 1.2))).squeeze() lc = len(y_tune) - ly y_tune = y_tune[int(lc / 2):int(lc / 2) + ly]print y.shape, sr wavfile.write("../data/raw/xxx_tune.mp3", sr, y_tune)

# 写入音频

音频调音

import cv2

import librosa

from scipy.io import wavfile y, sr = librosa.load("../data/raw/love_illusion_20s.mp3")

# 写入音频

音频加噪

import librosa

from scipy.io import wavfile

import numpy as np

y, sr = librosa.load("../data/raw/love_illusion_20s.mp3")

# 读取音频wn = np.random.randn(len(y)) y = np.where(y != 0.0, y + 0.02 * wn, 0.0)

# 噪声不要添加到0上！print y.shape, sr wavfile.write("../data/raw/love_illusion_20s_w.mp3", sr, y)

# 写入音频

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

音频

音频

+关注

关注
31

文章
3227

浏览量
86339
python

python

+关注

关注
58

文章
4885

浏览量
90314

原文标题：Python音频的数据扩充

文章出处：【微信号：machinelearningai，微信公众号：机器学习算法与人工智能】欢迎添加关注！文章转载请注明出处。

搜索历史

Python在音频（Audio）领域中，如何进行数据扩充呢？

评论