问题一:什么是归一化?

解答:

当数据(x)按照最小值中心化后,再按极差(最大值-最小值)缩放,数据移动了最小值个单位,并且会被收敛到[0,1]之间,而这个过程,就称作数据归一化(Normalization,又称Min-Max Scaling)。


在sklearn当中,我们使用preprocessing.MinMaxScaler来实现这个功能。

MinMaxScaler有一个重要参数,feature_range,控制我们希望把数据压缩到的范围,默认是[0,1]。

问题二:怎样实现归一化?

代码:

# 先切分整体的数据集, 利用mms,学习训练集的信息, 用他们来转换训练集,转换测试集
# 可以避免之前所描述的信息的泄露
X_train, X_test, y_train, y_test = train_test_split(X, # array或者是DF
y, # 标签
test_size=0.3, # 切分出来的测试集的占比
random_state=210# 随机数种子
)
# 实现归一化
from sklearn.preprocessing import MinMaxScaler, StandardScaler
# 实例化
mms = MinMaxScaler()
mms = mms.fit(X_train)
X_train_ = mms.transform(X_train)
X_test_ = mms.transform(X_test)
# 训练和导出结果一步达成
clf = KNeighborsClassifier(n_neighbors = 4)
clf.fit(X_train_, y_train)
clf.score(X_train_, y_train), clf.score(X_test_, y_test)