4.模型搭建和评估

经过前面的两章的知识点的学习,我们可以对数数据的本身进行处理,比如数据本身的增删查补,还可以做必要的清洗工作。那么下面我们就要开始使用我们前面处理好的数据了。这一章我们要做的就是使用数据,nv我们做数据分析的目的也就是,运用我们的数据以及结合我的业务来得到某些我们需要知道的结果。那么分析的第一步就是建模,搭建一个预测模型或者其他模型;我们从这个模型的到结果之后,我们要分析我的模型是不是足够的可靠,那我就需要评估这个模型。

(1)建模

①首先引入使用的库

数据分析及建模方法 20_10_数据分析建模_数据分析

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import Image

%matplotlib inline

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.rcParams['figure.figsize'] = (10, 6)  # 设置输出图片大小

②数据清洗(使用之前清洗过的数据clear_data.csv)

数据分析及建模方法 20_10_数据分析建模_数据分析及建模方法_02

数据分析及建模方法 20_10_数据分析建模_scikit-learn_03

一、为什么数据清洗?

数据清洗实质上是将实际业务问题中,脏数据清洗干净,转换为‘干净的数据’,所谓的脏,指数据可能存在以下几种问题(主要问题):

1.数据缺失(Incomplete):属性值为空;

2.数据噪声(Nosiy):数据值不合乎常理;

3.数据不一致(Inconsistent):前后存在矛盾;

4.数据冗余(Redundant):数据量或者数据数目超出数据分析需要的情况;

5.离群点/异常值(Outliers):偏离大部分值

6.数据重复:出现多次的数据;

二、数据清洗步骤

1.数据获取,使用read_csv或者read_excel;

2.数据探索,使用shape,describe或者info函数;

3.行列操作,使用loc或者iloc函数;

4.数据整合,对不同数据源进行整理;

5.数据类型转换,对不同字段数据类型进行转换;

6.分组汇总,对数据进行各个维度的计算;

7.处理重复值、缺失值和异常值以及数据离散化;

③模型搭建

  • 处理完前面的数据我们就得到建模数据,下一步是选择合适模型
  • 在进行模型选择之前我们需要先知道数据集最终是进行监督学习还是无监督学习
  • 模型的选择一方面是通过我们的任务来决定的
  • 除了根据我们任务来选择模型外,还可以根据数据样本量以及特征的稀疏性来决定
  • 刚开始我们总是先尝试使用一个基本的模型来作为其baseline,进而再训练其他模型做对比,最终选择泛化能力或性能比较好的模型

我们这里使用一个机器学习最常用的一个库(sklearn)来完成我们的模型的搭建

数据分析及建模方法 20_10_数据分析建模_数据分析_04

 任务一:切割训练集和测试集¶

from sklearn.model_selection import train_test_split

# 一般先取出X和y后再切割,有些情况会使用到未切割的,这时候X和y就可以用,x是清洗好的数据,y是我们要预测的存活数据'Survived'
X = data
y = train['Survived']

# 对数据集进行切割
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)

# 查看数据形状
X_train.shape, X_test.shape

数据分析及建模方法 20_10_数据分析建模_scikit-learn_05

分层抽样优点:样本的代表性比较好,充分保证样本结构与总体的一致。

train_test_split 参数解析

 X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_state=0,stratify=y_train)


train_data:所要划分的样本特征集
train_target:所要划分的样本结果

test_size:测试集所占比例,用小于1的小数表示,0.4即表示测试集占40%

random_state随机数种子,其实就是该组随机数的编号,在需要重复试验的时候,保证                   

 得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一   样的。但填0或不填,每次都会不一样。


stratify为了保持split前类的分布。比如有100个数据,80个属于A类,20个属于B类。如果train_test_split(... test_size=0.25, stratify = y_all), 那么split之后数据如下: 
training: 75个数据,其中60个属于A类,15个属于B类。 
testing: 25个数据,其中20个属于A类,5个属于B类。 

用了stratify参数,training集和testing集的类的比例是 A:B= 4:1,等同于split前的比例(80:20)。通常在这种类分布不平衡的情况下会用到stratify。

(整理补充中)