背景:数据挖掘的实验课上了一半了,自己对基本的数据挖掘流程印象薄弱,以此来建立初步体系概念

数据挖掘的步骤流程

1.问题定义:

需要解决什么问题? 分类问题 or 回归问题
怎么样才算达到目的? 量化
怎么才能达到目的?涉及到数据清洗、模型选择、调参等指标

2.数据获取:

工作中需要掌握LINUX和SQL的基本操作来获取数据。

平时留意这方面

3.数据清洗:

清除重复样本(属性),偏离整体样本的数据

4.缺失值处理:

(1).把是否缺失直接当做一种特征输入到模型中,比如说各种树模型。

(2).样本缺失较少,使用均值或众数填充;当样本数据与时间有关联,填充应参考相关的时间信息。

(3).缺失较多时,可以考虑直接清洗掉属性(样本)

5.特征选择:

避难维灾难,降低模型复杂度,使模型可解释化

(1).过滤式选择:计算每个特征与预测变量的相关性,过滤掉较低的特征。
Pandas中许多函数:describe, value_couns(),
pyplot 画图表示出来

(2).降维:使用相关算法(PCA)处理数据集,对特征的重要性进行排序

(3).嵌入式选择:将特征选择与学习器结合,让模型训练过程中自动进行特征选择,比如各种树模型

6.数据集划分:

训练集和测试集: 7:3 or 6:4

注意当数据与时间相关时,数据顺序不能打乱。

1.数据归一化:一般的模型都要归一化,将数据维度跳到某范围内。

7.模型建立

(1).模型选择:先用随机森铃试试,效果不会太差,可以以此来评估后续模型的好坏

(2).建模:调包,sklearn等

(3).调参:交叉验证!范围由大到小的调,直至找到相对较好的参数

8.反思总结

(1).总结这次的思路、方法、体会

(2).research,优化