背景:数据挖掘的实验课上了一半了,自己对基本的数据挖掘流程印象薄弱,以此来建立初步体系概念
数据挖掘的步骤流程
1.问题定义:
需要解决什么问题? 分类问题 or 回归问题
怎么样才算达到目的? 量化
怎么才能达到目的?涉及到数据清洗、模型选择、调参等指标
2.数据获取:
工作中需要掌握LINUX和SQL的基本操作来获取数据。
平时留意这方面
3.数据清洗:
清除重复样本(属性),偏离整体样本的数据
4.缺失值处理:
(1).把是否缺失直接当做一种特征输入到模型中,比如说各种树模型。
(2).样本缺失较少,使用均值或众数填充;当样本数据与时间有关联,填充应参考相关的时间信息。
(3).缺失较多时,可以考虑直接清洗掉属性(样本)
5.特征选择:
避难维灾难,降低模型复杂度,使模型可解释化
(1).过滤式选择:计算每个特征与预测变量的相关性,过滤掉较低的特征。
Pandas中许多函数:describe, value_couns(),
pyplot 画图表示出来
(2).降维:使用相关算法(PCA)处理数据集,对特征的重要性进行排序
(3).嵌入式选择:将特征选择与学习器结合,让模型训练过程中自动进行特征选择,比如各种树模型
6.数据集划分:
训练集和测试集: 7:3 or 6:4
注意当数据与时间相关时,数据顺序不能打乱。
1.数据归一化:一般的模型都要归一化,将数据维度跳到某范围内。
7.模型建立
(1).模型选择:先用随机森铃试试,效果不会太差,可以以此来评估后续模型的好坏
(2).建模:调包,sklearn等
(3).调参:交叉验证!范围由大到小的调,直至找到相对较好的参数
8.反思总结
(1).总结这次的思路、方法、体会
(2).research,优化