随机森林拟合评估随机森林预测实例

转载

archangle 2024-04-06 11:28:11

文章标签 随机森林拟合评估随机森林 python 数据数据集 文章分类 机器学习人工智能

案例8：基于随机森林的otto产品预测

为什么写本博客

前人种树，后人乘凉。希望自己的学习笔记可以帮助到需要的人。

需要的基础

懂不懂原理不重要，本系列的目标是使用python实现机器学习。

必须会的东西：python基础、numpy、pandas、matplotlib和库的使用技巧。

说明

完整的代码在最后，另外之前案例中出现过的方法不会再讲解。

目录结构

文章目录

案例8：基于随机森林的otto产品预测

1. 涉及的新方法：
2. 数据集获取与介绍：
3. 数据加载与欠采样处理：
4. 标签值转为数字值：
5. 模型创建、训练：
6. 评估：
7. 总结：

1. 涉及的新方法：

RF模型

from sklearn.ensemble import RandomForestClassifier
# 创建模型
model = RandomForestClassifier()
'''
主要参数：
	n_estimators ： 指定森林里面树木数量
	max_depth ： 树的最大深度
	min_samples_leaf ： 叶子节点最小样本数
	oob_score：使用没有被选中的数据集来进行自我验证
'''

随机欠采样

注意这里需要重新安装模块imblearn。

from imblearn.under_sampling import RandomUnderSampler
# 创建对象：设置随机数种子可以使得实验可以重复
rus = RandomUnderSampler(random_state=0)
# 欠采样
X_resampled, y_resampled = rus.fit_resample(x, y)

标签值转为数字值

from sklearn.preprocessing import LabelEncoder
# 创建对象
le = LabelEncoder()
# 转换
y = le.fit_transform(label)

one-hot编码

from sklearn.preprocessing import OneHotEncoder
# 创建对象
one_hot = OneHotEncoder(sparse=False)
# 参数： sparse=False，直接返回array对象，否则还需要转为array对象
# 转换
y_test = one_hot.fit_transform(y_test)

logloss

# 多分类评估
from sklearn.metrics import log_loss
loss = log_loss(y_test, y_pre)

2. 数据集获取与介绍：

数据下载

本次的案例数据来自于kaggle比赛里面的数据，链接为： https://www.kaggle.com/competitions/otto-group-product-classification-challenge/data,可以下载相关数据集，也可以通过百度网盘获取：

链接：https://pan.baidu.com/s/1oVz8qyMajmWu53GAPnP_IQ 
提取码：6666

数据介绍

奥托集团是世界上最⼤的电⼦商务公司之⼀。案例要求对奥拓集团的产品进⾏正确的分类。

数据总共有2000000种产品（总共的，训练集有61878条），共93个特征，9个类别。

id feat_1 .... feat_93 target
产品id 93个特征 产品类别

3. 数据加载与欠采样处理：

数据加载

常规的加载csv数据，利用pandas库：

# 加载数据
train_data = pd.read_csv('./data/otto/train.csv')
print(train_data.head())
print(train_data.shape) # (61878, 95)

数据查看

我们可以使用matplotlib画一个条形图看看不同类别的数据量多少：

# 查看数据
plt.figure()
x = ['Class_1','Class_2','Class_3','Class_4','Class_5','Class_6','Class_7','Class_8','Class_9']
y = [(train_data.target == i).sum() for i in x] # 查找不同类别的个数
plt.bar(x,y)
plt.show()

画出的图为：

随机森林拟合评估随机森林预测实例_随机森林拟合评估

从这里可以看出，数据分布不均衡，这会对我们的模型造成很大的影响。

随机欠采样

处理类别不平衡的方法，这里采取随机欠采样，原理十分简单，就是对于多类别的样本随机抛去一些，使得所有类别样本量大致相同。

首先，把训练集的x和y提取出来：

y = train_data['target']
x = train_data.iloc[:,1:-1] # 除去id和target列的，所有列
print(x.shape) # (61878, 93)
print(y.shape) # (61878,)

然后根据随机欠采样的方法使用即可：

# 随机欠采样
rus = RandomUnderSampler(random_state=20)
new_x,new_y = rus.fit_resample(x,y)
print(new_x.shape) # (17361, 93)
print(new_y.shape) #  (17361,)

再次查看数据图：

# 查看数据图2
plt.figure()
x = ['Class_1','Class_2','Class_3','Class_4','Class_5','Class_6','Class_7','Class_8','Class_9']
y = [(new_y == i).sum() for i in x]
plt.bar(x,y)
plt.show()

结果如下图：

随机森林拟合评估随机森林预测实例_数据集_02

4. 标签值转为数字值：

首先，我们将数据的label由字符串转为数字0-8，可以手动转换，也可以使用自带的方法：

# 标签 -- 数字
encoder = LabelEncoder()
new_y = encoder.fit_transform(new_y)
print(new_y)

打印结果为：

[0 0 0 ... 8 8 8]

另外，由于数据本身比较大，我们可以在此基础上划分为训练集和测试集（当然，kaggle本身提供了测试集）

# 数据划分
x_train,x_test,y_train,y_test = train_test_split(new_x,new_y,test_size=0.2)

5. 模型创建、训练：

下面，进行模型的创建和训练：

# 创建模型
model = RandomForestClassifier(oob_score=True)
model.fit(x_train, y_train)

6. 评估：

这里我们使用**logloss（多分类对数损失）**进行评估，其公式为：

随机森林拟合评估随机森林预测实例_python_03

但是这里注意：logloss要求y必须为one-hot编码形式，因此需要做出一定的转换。

首先，得到预测值：

y_pred = model.predict(x_test)

然后，one-hot编码：

# one-hot
encoder_oneHot = OneHotEncoder(sparse=False)
y_test = encoder_oneHot.fit_transform(y_test.reshape(-1,1)) # 需要转为矩阵
y_pred = encoder_oneHot.fit_transform(y_pred.reshape(-1,1))

进行评估：

# logloss
print('log_loss:',log_loss(y_test,y_pred))

打印结果为：

log_loss: 7.677493629965759

7. 总结：

上面仅仅是初步实现了整体算法流程，但是关于如何提高准确率，如何选定参数并没有讨论，但是肯定也没有什么好的方法，只能大致迭代尝试。

另外，这里也给我了一个提醒，在前面实现决策树算法的时候，是不是因为对于数据没有处理好，导致结果并不理想，后面有机会尝试修改一下。

完整代码

# author: baiCai
# 导包
import pandas as pd
import numpy as np
import seaborn
from matplotlib import pyplot as plt
from imblearn.under_sampling import RandomUnderSampler
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import log_loss
from sklearn.ensemble import RandomForestClassifier

# 加载数据
train_data = pd.read_csv('./data/otto/train.csv')
# print(train_data.head())
# print(train_data.shape) # (61878, 95)
'''
# 查看数据图1
plt.figure()
x = ['Class_1','Class_2','Class_3','Class_4','Class_5','Class_6','Class_7','Class_8','Class_9']
y = [(train_data.target == i).sum() for i in x]
plt.bar(x,y)
plt.show()
'''
y = train_data['target']
x = train_data.iloc[:,1:-1]
# print(x.shape) # (61878, 93)
# print(y.shape) # (61878,)
# 随机欠采样
rus = RandomUnderSampler(random_state=20)
new_x,new_y = rus.fit_resample(x,y)
# print(new_x.shape) # (17361, 93)
# print(new_y.shape) #  (17361,)
'''
# 查看数据图2
plt.figure()
x = ['Class_1','Class_2','Class_3','Class_4','Class_5','Class_6','Class_7','Class_8','Class_9']
y = [(new_y == i).sum() for i in x]
plt.bar(x,y)
plt.show()
'''
# 标签 -- 数字
encoder = LabelEncoder()
new_y = encoder.fit_transform(new_y)
# print(new_y)
# 数据划分
x_train,x_test,y_train,y_test = train_test_split(new_x,new_y,test_size=0.2)
# 创建模型
model = RandomForestClassifier(n_estimators=175,max_features=15,max_depth=30,min_samples_leaf=1,oob_score=True)
model.fit(x_train, y_train)
# 评估1
print('准确率：',model.score(x_test,y_test))
# 评估2
y_pred = model.predict(x_test)
# one-hot
encoder_oneHot = OneHotEncoder(sparse=False)
y_test = encoder_oneHot.fit_transform(y_test.reshape(-1,1)) # 需要转为矩阵
y_pred = encoder_oneHot.fit_transform(y_pred.reshape(-1,1))
# logloss
print('log_loss:',log_loss(y_test,y_pred))

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。