Python 数据降噪处理的四种方法——均值滤波、小波变换、奇异值分解、改变binSize
github主页:https://github.com/Taot-chen
一、均值滤波
1)算法思想
给定均值滤波窗口长度,对窗口内数据求均值,作为窗口中心点的数据的值,之后窗口向后滑动1,相邻窗口之间有重叠;边界值不做处理,即两端wid_length//2长度的数据使用原始数据。
2)Python实现
'''
均值滤波降噪:
函数ava_filter用于单次计算给定窗口长度的均值滤波
函数denoise用于指定次数调用ava_filter函数,进行降噪处理
'''
def ava_filter(x, filt_length):
N = len(x)
res = []
for i in range(N):
if i <= filt_length // 2 or i >= N - (filt_length // 2):
temp = x[i]
else:
sum = 0
for j in range(filt_length):
sum += x[i - filt_length // 2 + j]
temp = sum * 1.0 / filt_length
res.append(temp)
return res
def denoise(t, x, n, filt_length):
for i in range(n):
res = ava_filter(x, filt_length)
x = res
return (t, res)
二、奇异值分解
1)算法思想
任意m ∗ n 的矩阵A可以分解为如下形式:
A=U·sigema·V(T)
其中U、V分别是左右奇异矩阵,sigema是对角矩阵,对角线上的元素是A的奇异值从大到小的排列。
奇异值表示的是原矩阵在其对应特征向量分量上的权重,奇异值越大,对应的特征向量在原矩阵中的权重越大。
如果前k(k<r,r是原矩阵的秩)个奇异值数值较大,说明前k个奇异值对应的信息是原矩阵的主成分。那么可以使前k个奇异值不变,其余奇异值设置成0,再重构原矩阵,实现降噪。
2)Python实现
import numpy as np
# import random
import matplotlib.pyplot as plt
import sys
import os
def denoise(t, x):
# 1、数据预处理
res = int(np.sqrt(len(x)))
xr = x[:res * res]
delay = t[:res * res]
# 2、一维数组转换为二维矩阵
x2list = []
for i in range(res):
x2list.append(xr[i * res:i * res + res])
x2array = np.array(x2list)
# 3、奇异值分解
U, S, V = np.linalg.svd(x2array)
S_list = list(S)
## 奇异值求和
S_sum = sum(S)
##奇异值序列归一化
S_normalization_list = [x / S_sum for x in S_list]
# 4、画图
X = []
for i in range(len(S_normalization_list)):
X.append(i + 1)
fig1 = plt.figure().add_subplot(111)
fig1.plot(X, S_normalization_list)
fig1.set_xticks(X)
fig1.set_xlabel('Rank', size=15)
fig1.set_ylabel('Normalize singular values', size=15)
plt.show()
# 5、数据重构
K = 2 ## 保留的奇异值阶数
for i in range(len(S_list) - K):
S_list[i + K] = 0.0
S_new = np.mat(np.diag(S_list))
reduceNoiseMat = np.array(U * S_new * V)
reduceNoiseList = []
for i in range(len(x2array)):
for j in range(len(x2array)):
reduceNoiseList.append(reduceNoiseMat[i][j])
# 6、返回结果
return (delay, reduceNoiseList)
三、小波变换
1)算法思想
将信号通过小波变换后,信号产生的小波系数含有信号的重要信息,将信号经小波分解后小波系数较大,噪声的小波系数较小,并且噪声的小波系数要小于信号的小波系数,通过选取一个合适的阀值,大于阀值的小波系数被认为是有信号产生的,应予以保留,小于阀值的则认为是噪声产生的,置为零从而达到去噪的目的。
2)Python实现
#模块调用
import numpy as np
import math
import pywt
#封装成函数
def sgn(num):
if (num > 0):
return 1.0
elif (num == 0):
return 0.0
else:
return -1.0
def wavelet_noising(new_df):
data = new_df
data = data.values.T.tolist() # 将np.ndarray()转为列表
w = pywt.Wavelet('sym8')
# [ca3, cd3, cd2, cd1] = pywt.wavedec(data, w, level=3) # 分解波
[ca5, cd5, cd4, cd3, cd2, cd1] = pywt.wavedec(data, w, level=5) # 分解波
length1 = len(cd1)
length0 = len(data)
Cd1 = np.array(cd1)
abs_cd1 = np.abs(Cd1)
median_cd1 = np.median(abs_cd1)
sigma = (1.0 / 0.6745) * median_cd1
lamda = sigma * math.sqrt(2.0 * math.log(float(length0), math.e))
usecoeffs = []
usecoeffs.append(ca5) # 向列表末尾添加对象
#软硬阈值折中的方法
a = 0.5
for k in range(length1):
if (abs(cd1[k]) >= lamda):
cd1[k] = sgn(cd1[k]) * (abs(cd1[k]) - a * lamda)
else:
cd1[k] = 0.0
length2 = len(cd2)
for k in range(length2):
if (abs(cd2[k]) >= lamda):
cd2[k] = sgn(cd2[k]) * (abs(cd2[k]) - a * lamda)
else:
cd2[k] = 0.0
length3 = len(cd3)
for k in range(length3):
if (abs(cd3[k]) >= lamda):
cd3[k] = sgn(cd3[k]) * (abs(cd3[k]) - a * lamda)
else:
cd3[k] = 0.0
length4 = len(cd4)
for k in range(length4):
if (abs(cd4[k]) >= lamda):
cd4[k] = sgn(cd4[k]) * (abs(cd4[k]) - a * lamda)
else:
cd4[k] = 0.0
length5 = len(cd5)
for k in range(length5):
if (abs(cd5[k]) >= lamda):
cd5[k] = sgn(cd5[k]) * (abs(cd5[k]) - a * lamda)
else:
cd5[k] = 0.0
usecoeffs.append(cd5)
usecoeffs.append(cd4)
usecoeffs.append(cd3)
usecoeffs.append(cd2)
usecoeffs.append(cd1)
recoeffs = pywt.waverec(usecoeffs, w)
return recoeffs
def denoise(x, data):
data_denoising = wavelet_noising(data) #调用小波去噪函数
return (x, data_denoising)
四、改变 bin size
1)算法思想
通过改变数据的 bin size,来达到降低噪声的目的。
改变 bin size 的时候,会导致数据长度减小,降低数据的分辨率。为了最大限度的较少原数据的有效信息的损失,在改变 bin size 的过程中,被抛弃的数据的信息也会保留在保留下来的数据中,具体实现思路是:在给定 bin size = n 的情况下,将 n 长度的数据取平均值作为该区域中心点的数据的值。之后窗口向后滑动 n ,相邻两个窗口之间不重叠。
2)Python实现
# 修改现有数据的bin:
# 即bin=3时:每三个数据,只取中间的一个数据,且这个数据的值为三个数据的平均值
# 在对纵轴进行如上处理的时候,横轴也进行相应的抽值处理:
# 第一个数据不要,第二个数据开始,每隔两个数据quyige
# 进行上述处理之前对数据进行截断处理,使数据长度为3的倍数+1,横轴数据和纵轴数据都进行截断处理
# bin=n的时候,前n//2个数据不要,后面每隔n-1个数据取一个数据,数据长度截断为n的倍数+n//2
def ch_bin(x, y, bin):
N = len(x)
relen = N // bin * bin
re_x = x[:relen]
re_y = y[:relen]
res_x = []
res_y = []
i = 0
while (True):
if i <= bin // 2:
i += 1
continue
else:
res_x.append(re_x[i])
i += bin
if i >= relen - 1:
break
num = relen // bin
for i in range(num):
sum = 0
for j in range(bin):
sum += re_y[j + i * bin]
res_y.append(sum * 1.0 / bin)
if bin == 3:
return (res_x, res_y[1:])
else:
return (res_x, res_y)