深度学习——特征工程小总结

原创

努力不躺平 2022-04-23 18:46:52 ©著作权

©著作权归作者所有：来自51CTO博客作者努力不躺平的原创作品，请联系作者获取转载授权，否则将追究法律责任

对于机器学习而言，一般步骤：

数据搜集—数据清洗—特征工程—数据建模

我们知道，特征工程包括特征构建，特征提取和特征选择。特征工程其实就是把原始数据转化为模型，以此来训练数据的过程。

特征构建

https://zhuanlan.zhihu.com/p/424518359 其他博主对于归一化的解释

在特征构建中，首先给我一堆数据，又多又乱，肯定要先给它数据规范化，让数据分布成我希望看到的样子。然后规范了之后，就需要数据预处理，特别是缺失值的处理、分类型特征处理、连续型特征的处理。

数据规范化：归一化处理：最大最小标准化、Z-Score标准化

那么他们两个最大的区别在哪呢？在于改不改变特征数据的分布。

最大最小标准化：会改变特征数据的分布

深度学习——特征工程小总结_PCA

Z-Score标准化：不改变特征数据分布

深度学习——特征工程小总结_归一化_02

最大最小标准化：

线性函数将原始数据线性化的方法转换到[0 1]的范围, 计算结果为归一化后的数据，X为原始数据
本归一化方法比较适用在数值比较集中的情况
缺陷：如果max和min不稳定，很容易使得归一化结果不稳定，使得后续使用效果也不稳定。实际使用中可以用经验常量来替代max和min
应用场景：在不涉及距离度量、协方差计算、数据不符合正太分布的时候，可以使用第一种方法或其他归一化方法（不包括Z-score方法）。比如图像处理中，将RGB图像转换为灰度图像后将其值限定在[0 255]的范围

Z-Score标准化：

其中，μ、σ分别为原始数据集的均值和方法。
将原始数据集归一化为均值为0、方差1的数据集
该种归一化方式要求原始数据的分布可以近似为高斯分布，否则归一化的效果会变得很糟糕。
应用场景：在分类、聚类算法中，需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候，Z-score standardization表现更好。

特征提取

那么在特征提取方法中，我们首先学到了数据划分：包括数据集是什么？给你一堆数据，你的拆分方法是什么？还有比较重要的降维方法：PCA，其实还有其他的方法，比如ICA，但是针对我的期末考试，就不重点记录了哈哈哈。

数据集：训练集、验证集、测试集