语音信号(音频;声音)是模拟信号,现实生活中表现为连续的、平滑的波形,其横坐标为时间轴,纵坐标表示声音的强弱。

我们需要将其保存为数字信号再进行处理。

1. 声音三要素

1.1 音调

人耳对声音高低的感觉称为音调。音调主要与声波的频率有关。声波的频率高,则音调也高。

人耳听觉音频范围是20Hz-20000Hz

深度学习语音信号数学表示 语音信号怎么表示_python

1.2 音量

人耳对声音强弱的主观感觉称为响度。响度和声波的振幅有关。一般说来,声波振动幅度越大则响度也越大。

深度学习语音信号数学表示 语音信号怎么表示_采样率_02

1.3 音色

音色是人们区别具有同样响度、同样音调的两个声音之所以不同的特性,或者说是人耳对各种频率、各种强度的声波的综合反应。

音色与声波的振动波形有关,或者说与声音的频谱结构有关。

 

2.语音信号四个重要参数

2.1 声道数

为了播放声音时能够还原真实的声场,在录制声音时在前后左右几个不同的方位同时获取声音,每个方位的声音就是一个声道。

主要分为单声道、双声道

2.2 采样率(Sample rate)

每秒内对声音信号采样样本的总数目,一般采样率有8kHz、16kHz、32kHz、44.1kHz、48kHz等。 (8kHz=8k/s, 每秒采样8k个点)

采样频率越高,声音的还原就越真实越自然,当然数据量就越大。

2.3 量化位数(Bit depth)

也称为“位深”,每个采样点中信息的比特(bit)数。

2.4 码率

也叫比特率,是指每秒传送的bit数。单位为 bps(Bit Per Second),比特率越高,每秒传送数据就越多,音质就越好。

码率计算公式: 码率 = 采样率 * 采样大小 * 声道数

在对音频进行压缩时,比特率就成为了我们的一个要选的选项了,越高的比特率,其音质也就越好。

 

3. 冗余信息

冗余信息包括人类听觉范围之外的音频信号和被掩蔽掉的音频信号。

什么是被掩蔽的信号呢?信号的掩蔽分为频域掩蔽和时域掩蔽。

3.1 时域掩蔽效应

在时间上相邻的声音之间有掩蔽现象,称为时域掩蔽。

时域掩蔽又分为超前掩蔽和滞后掩蔽,如下图所示。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。

一般来说,超前掩蔽很短,只有大约5~20ms,而滞后掩蔽可以持续50~200ms。

深度学习语音信号数学表示 语音信号怎么表示_采样率_03

3.2 频域掩蔽效应

人类听觉范围是20-20000Hz,但这并不意味着只要是这个频率范围内的声音都可以听到,能否听到还与声音的分贝大小有关。

1)有个分贝临界值,高于临界值的声音才能听到,低于临界值的声音就听不到,在不同的频率下这个临界值是不一样的。

如下图所示,横坐标为频率,纵坐标为分贝值,图中的黑色曲线就是这个临界值曲线,所以位于曲线下方的声音是听不到的。

2)还有一种情况,比如2个音调(频率)差不多的人同时说话,一个声音很大,一个声音很小,声音小的会受到声音大的影响,导致声音小的无法被听到。

如下图所示,红色柱子是一个很大分贝的声音,它会产生掩蔽效应将与它频率相近的小分贝的声音掩蔽掉,红柱子两边的蓝色曲线就是它的掩蔽范围曲线,紫色柱子在它的掩蔽范围内,所以听不到的;而绿色柱子不在,所以可听到。

深度学习语音信号数学表示 语音信号怎么表示_信号处理_04

4. python读取音频文件的库

4.1 wave

import wave
import matplotlib.pyplot as plt
import numpy as np

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示符号


file='E:/MEAD/database/MEAD-W017/audio/angry/0.wav'

# 文件读取
wave_read = wave.open(file,mode="rb")

# 返回声音信号的参数(声道数、量化位数、采样频率、采样点数、压缩类型、压缩类型的描述)
params = wave_read.getparams()
nchannels, sampwidth, framerate, nframes = params[:4]

# 读取N个音频数据(以取样点为单位),返回字符串格式
str_data = wave_read.readframes(nframes)  #  ‘\x00\x00....’

# 关闭文件
wave_read.close()

# 将字符串转换为数组,得到一维的short类型的数组
# 如果声音文件是双声道的,则它由左右两个声道的取样交替构成:LR
wave_data = np.fromstring(str_data, dtype=np.short)  # len: 采样点数*2

# 赋值的归一化
wave_data = wave_data * 1.0 / (max(abs(wave_data)))

# 整合左声道和右声道的数据
wave_data = np.reshape(wave_data, [nframes, nchannels])

# 最后通过采样点数和取样频率计算出每个取样的时间
time = np.arange(0, nframes) * (1.0 / framerate)

plt.figure()
# 左声道波形
plt.subplot(2, 1, 1)
plt.plot(time, wave_data[:, 0])
plt.xlabel("时间/s",fontsize=14)
plt.ylabel("幅度",fontsize=14)
plt.title("左声道",fontsize=14)
plt.grid()  # 标尺

plt.subplot(2, 1, 2)
# 右声道波形
plt.plot(time, wave_data[:, 1], c="g")
plt.xlabel("时间/s",fontsize=14)
plt.ylabel("幅度",fontsize=14)
plt.title("右声道",fontsize=14)

plt.tight_layout()  # 紧密布局
plt.show()

4.2 scipy.io.wavfile

import numpy as np
import scipy.io.wavfile
from matplotlib import pyplot as plt


# 读取数据,返回采样率和audio数据,如果是多通道signal为多维向量
file='E:/MEAD/database/MEAD-W017/audio/angry/0.wav'
sample_rate, signal = scipy.io.wavfile.read(file) # len: 采样数
 
signal=signal[:,0]
original_signal = signal[0:int(1*sample_rate)]
sample_num = np.arange(len(original_signal))

# 绘图
plt.figure(figsize=(11,7), dpi=500)
plt.subplot(212)
plt.plot(sample_num/sample_rate, original_signal, color='blue')
plt.xlabel("Time (sec)")
plt.ylabel("Amplitude")
plt.title("1s signal of Voice ")
plt.savefig('audio.png')

4.3 librosa

import librosa

#返回audio data 和采样率; 返回结果是经过归一化处理的 
#如果sr 缺省,会默认以22050的采样率读取音频
y, sr = librosa.load(file, sr=None)  # len: 采样数 

# 可以读取双通道数据
# mono:该值为true时候是单通道、否则为双通道
y, sr = librosa.core.load(file, sr=None,mono=False) # y:[2,采样数]