✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。
🍎个人主页:Matlab科研工作室
🍊个人信条:格物致知。
⛄ 内容介绍
短时能量和过零率双门限语音端点检测是一种常见的语音处理方法,用于检测语音信号中的起始点和终止点。下面是基于短时能量和过零率的双门限语音端点检测的基本原理:
- 分帧:将输入的连续语音信号划分为一系列重叠的短时帧。每个帧通常持续几十毫秒至几百毫秒。
- 计算短时能量:对于每个帧,计算该帧内采样点的平方和,即短时能量。可以通过对每个采样点进行平方,并对得到的结果求和来计算短时能量。
- 计算短时过零率:对于每个帧,计算过零率,即负波形交叉的次数。过零率越高,表示波形变化越频繁。
- 设置能量和过零率阈值:根据实际需求,设置能量阈值和过零率阈值。这些阈值可根据数据集的特征进行调整。
- 端点检测:从第一个帧开始扫描每个帧,当满足以下条件时被视为语音段的起始点:
类似地,反向扫描,当满足以下条件时被视为语音段的终止点:
- 当前帧的能量超过能量阈值;
- 后一帧的能量未超过能量阈值;
- 当前帧的过零率超过过零率阈值。
- 当前帧的能量超过能量阈未超过能量阈值;
- 当前帧的过零率超过过零率阈值。
- 得到语音段:根据检测到的起始点和终止点,将对应的语音段提取出来作为最终的语音结果。
需要注意的是,能量和过零率的阈值设置会直接影响端点检测的准确性和灵敏度。若设定过高的阈值,则可能导致端点漏检;若设定过低的阈,则可能会产生误检。因此,在实际应用中,需要根据具体数据集和应用场景进行合适的参数调整。
⛄ 部分代码
function f=enframe(x,win,inc)%定义函数。
nx=length(x(:)); %x(:)的作用是把x给弄成一个向量,x为一行,则变成一列,如果为矩阵,则按每一列的顺序排成一列。得出的nx为序列的数据个数。
nwin=length(win);
if (nwin == 1)
len = win; %如果win中就一个数,则len就=该数,此例中为256个点。即每帧长
else
len = nwin; %如果有多个数,则len=个数。
end
if (nargin < 3) % nargin返回的是函数输入的个数,如果中间有变量,返回的是负值。
inc = len; %也就是说,如果函数enframe的输入只有两个的话,系统就自动赋inc
end
nf = fix((nx-len+inc)/inc);%这个比较关键,nf为分帧的组数,结合下边的可以分析这里
%各参数的意义,len为帧长,inc为未覆盖的数据,nx为整个数
% 据量。假设数据为1:30,len为10,未覆盖为5,则nf=5,5
% 组,第一组为1,2,……10,第二组为6,7,……15,依次列
%推,便可知其缘由,即(nx-len )/inc + 1;
f=zeros(nf,len); %构成以组数为行,帧长为列的矩阵。
indf= inc*(0:(nf-1)).'; %indf为一列nf个数据,即0到nf-1的inc倍,即分好了每幀起点。
inds = (1:len); %构成了长度为len的一行。
f(:) = x(indf(:,ones(1,len))+inds(ones(nf,1),:));
%上一条语句为整个算法的核心部分了,indf(:,ones(1,len))把indf的
% 第一列扩展了nf*len的矩阵。同理inds(ones(nf,1),:)把inds第一行扩
%展为nf*len的矩阵,相加得到
%inc+1 inc+2 inc+3 …… inc+len
%2*inc+1………… ……2*inc+len
%…………………………………]然后就按照这个矩阵从x中把数据给选出来,达到分帧的目的。
if (nwin > 1) %nwin大于1的情况就不说了。
w = win(:)';
f = f .* w(ones(nf,1),:);
end
⛄ 运行结果
⛄ 参考文献
[1] 韦向峰,袁毅,张全,等.基于端点检测的蒙藏维语音片段数据集[J].中国科学数据:中英文网络版, 2019, 4(4):11.DOI:10.11922/csdata.2019.0024.zh.
[2] 刘波,聂明新,向俊涛.基于短时能量和过零率分析的语音端点检测方法研究[J]. 2007.
[3] 卓嘎,边巴旺堆,姜军.基于短时平均能量和短时过零率的藏语语音端点检测研究[J].电脑知识与技术:学术版, 2014(11):4.DOI:CNKI:SUN:DNZS.0.2014-31-082.