sklearn学习——特征处理
特征提取(feature extraction):
从文字,图像,声音等其他非结构化数据中提取新信息作为特征。比如说,从淘宝宝贝的名称中提取出产品类别,产品颜色,是否是网红产品等等。
特征创造(feature creation):
把现有特征进行组合,或互相计算,得到新的特征。比如说,我们有一列特征是速度,一列特征是距离,我们就可以通过让两列相处,创造新的特征:通过距离所花的时间。
特征选择(feature selection):
从所有的特征中,选择出有意义,对模型有帮助的特征,以避免必须将所有特征都导入模型去训练的情况。
代码:
#导入数据,让我们使用digit recognizor数据来一展身手
import pandas as pd
data = pd.read_csv(r"digit recognizor.csv")
X = data.iloc[:, 1:]
y = data.iloc[:, 0]
print(X.shape)
# 1 过滤法,主要对象是:需要遍历特征或升维的算法们,而过滤法的主要目的是:在维持算法表现的前提下,帮助算法们降低计算成本。
# 1.1方差过滤 VarianceThreshold
from sklearn.feature_selection import VarianceThreshold
selector = VarianceThreshold() # 实例化,不填参数默认方差为0
X_var0 = selector.fit_transform(X) # 获取删除不合格特征之后的新特征矩阵
# 也可以直接写成 X = VairanceThreshold().fit_transform(X)
print(X_var0.shape)
import numpy as np
X_fsvar = VarianceThreshold(np.median(X.var().values)).fit_transform(X)
# print(X.var().values)
np.median(X.var().values)
print(X_fsvar.shape)
# 1.2 相关性过滤
# 1.2.1 卡方过滤,
# 是专门针对离散型标签(即分类问题)的相关性过滤,
# 卡方检验的本质是推测两组数据之间的差异,其检验的原假设是”两组数据是相互独立的”。
# 卡方检验返回卡方值和P值两个统计量,其中卡方值很难界定有效的范围,而p值,我们一般使用0.01或0.05作为显著性水平,
from sklearn.ensemble import RandomForestClassifier as RFC
from sklearn.model_selection import cross_val_score
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
import matplotlib.pyplot as plt
#假设在这里我一直我需要300个特征
X_fschi = SelectKBest(chi2, k=300).fit_transform(X_fsvar, y)
print(X_fschi.shape)
'''
score = []
for i in range(390,200,-10):
X_fschi = SelectKBest(chi2, k=i).fit_transform(X_fsvar, y)
once = cross_val_score(RFC(n_estimators=10,random_state=0),X_fschi,y,cv=5).mean()
score.append(once)
plt.plot(range(350, 200, -10), score)
plt.show()
'''
chivalue, pvalues_chi = chi2(X_fsvar, y)
# k取多少?我们想要消除所有p值大于设定值,比如0.05或0.01的特征:
k = chivalue.shape[0] - (pvalues_chi > 0.05).sum()
#X_fschi = SelectKBest(chi2, k=填写具体的k).fit_transform(X_fsvar, y)
#cross_val_score(RFC(n_estimators=10,random_state=0),X_fschi,y,cv=5).mean()
# 1.2.2 F检验
# F检验,又称ANOVA,方差齐性检验,是用来捕捉每个特征与标签之间的线性关系的过滤方法。
# 它即可以做回归也可以做分类
# feature_selection.f_classif(F检验分类)
# feature_selection.f_regression(F检验回归)
# F检验的本质是寻找两组数据之间的线性关系
# 我们希望选取p值小于0.05或0.01的特征,这些特征与标签时显著线性相关的
from sklearn.feature_selection import f_classif
F, pvalues_f = f_classif(X_fsvar,y)
print(F)
print(pvalues_f)
k = F.shape[0] - (pvalues_f > 0.05).sum()
#X_fsF = SelectKBest(f_classif, k=填写具体的k).fit_transform(X_fsvar, y)
#cross_val_score(RFC(n_estimators=10,random_state=0),X_fsF,y,cv=5).mean()
# 1.2.3 互信息法
# 互信息法是用来捕捉每个特征与标签之间的任意关系(包括线性和非线性关系)的过滤方法。和F检验相似,它既可以做回归也可以做分类
# feature_selection.mutual_info_classif(互信息分类)
# feature_selection.mutual_info_regression(互信息回归)
# 互信息法不返回p值或F值类似的统计量,它返回“每个特征与目标之间的互信息量的估计”,
# 这个估计量在[0,1]之间取值,为0则表示两个变量独立,为1则表示两个变量完全相关
from sklearn.feature_selection import mutual_info_classif as MIC
result = MIC(X_fsvar, y)
k = result.shape[0] - sum(result <= 0)
#X_fsmic = SelectKBest(MIC, k=填写具体的k).fit_transform(X_fsvar, y)
#cross_val_score(RFC(n_estimators=10,random_state=0),X_fsmic,y,cv=5).mean()
# 2 Embedded嵌入法
# 嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行
# feature_selection.SelectFromModel
# class sklearn.feature_selection.SelectFromModel (estimator, threshold=None, prefit=False, norm_order=1,max_features=None)
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier as RFC
RFC_ = RFC(n_estimators =10, random_state=0)
X_embedded = SelectFromModel(RFC_, threshold=0.005).fit_transform(X, y) #在这里我只想取出来有限的特征。0.005这个阈值对于有780个特征的数据来说,是非常高的阈值,因为平均每个特征只能够分到大约0.001的feature_importances_
print(X_embedded.shape)
#模型的维度明显被降低了
#同样的,我们也可以画学习曲线来找最佳阈值
import numpy as np
import matplotlib.pyplot as plt
print(RFC_.fit(X,y).feature_importances_)
threshold = np.linspace(0,(RFC_.fit(X,y).feature_importances_).max(),20)
score = []
for i in threshold:
X_embedded = SelectFromModel(RFC_, threshold=i).fit_transform(X,y)
once = cross_val_score(RFC_, X_embedded, y, cv=5).mean()
score.append(once)
plt.plot(threshold, score)
plt.show()
# 3 Wrapper包装法
# class sklearn.feature_selection.RFE (estimator, n_features_to_select=None, step=1, verbose=0)
from sklearn.feature_selection import RFE
RFC_ = RFC(n_estimators =10,random_state=0)
selector = RFE(RFC_, n_features_to_select=340, step=50).fit(X, y)
selector.support_.sum()
print(selector.ranking_)
X_wrapper = selector.transform(X)
cross_val_score(RFC_, X_wrapper, y, cv=5).mean()
score = []
for i in range(1, 751, 50):
X_wrapper = RFE(RFC_, n_features_to_select=i, step=50).fit_transform(X, y)
once = cross_val_score(RFC_, X_wrapper, y, cv=5).mean()
score.append(once)
plt.figure(figsize=[20, 5])
plt.plot(range(1, 751, 50), score)
plt.xticks(range(1, 751, 50))
plt.show()