,我们将了解什么是分类变量以及处理这类数据的三种方法。
、介绍
分类变量只接受有限数量的值。
考虑一项调查,询问你多久吃一次早餐,并提供四个选项:“从不”、“很少”、“大多数日子”或“每天”。
在本例中,数据是分类的,因为响应属于一组固定的类别。如果人们对他们所拥有的汽车品牌进行调查,他们的回答可以分为“本田”、“丰田”和“福特”。
在本例中,数据也是分类的。如果我们试图在没有预先处理这些变量的情况下将这些变量插入Python中的大多数机器学习模型中,那么我们将会得到一个错误。
2、三种方法的使用
1)、删除分类变量
处理分类变量最简单的方法是从数据集中删除它们。这种方法只有在列中不包含有用信息的情况下才能很好地工作。
2)、标签的编码
标签编码将每个惟一值分配给不同的整数。
这种方法假设类别的顺序为:“Never”(0)<“rare”(1)<“Most days”(2)<“Every day”(3)。
在本例中,这个假设是有意义的,因为对类别有一个无可争议的排名。
并不是所有的分类变量在值中都有一个明确的顺序,但是我们将那些有顺序的变量称为有序变量。
对于基于树的模型(如决策树和随机森林),可以期望标签编码能够很好地处理有序变量。
3)、独热编码
独热编码创建新列,指示原始数据中每个可能值的存在(或不存在)。
为了理解这一点,我们将通过一个例子:
在原始数据集中,“颜色”是一个类别变量,有三个类别:“红色”、“黄色”和“绿色”。
对应的独热编码包含每个可能值的一列,以及原始数据集中每行的一行。当原值为“红色”时,我们在“红色”列中加1;如果原值为“黄色”,我们在“黄色”列中加1,依此类推。
与标签编码不同,一个热编码不假定类别的顺序。
因此,如果分类数据中没有明确的顺序(例如,“红色”既不大于也不小于“黄色”),您可以期望这种方法特别有效。
我们把没有内在排序的分类变量称为名义变量。
如果类别变量具有大量值(即,通常不会将其用于超过15个不同值的变量),则一个热编码通常无法很好地执行。
3、举例说明
和上一次的学习一样,我们将使用墨尔本住房的数据集
import pandas as pd
from sklearn.model_selection import train_test_split
#读取数据
data = pd.read_csv('E:/data_handle/melb_data.csv')
#从预测器中分离目标
y =data.Price
X = data.drop(['Price'],axis=1)
#将数据划分为训练和验证子集
X_train_full, X_valid_full, y_train, y_valid = train_test_split(X, y, train_size=0.8,test_size=0.2,random_state=0)
#删除有缺少值得列
cols_with_missing = [col for col in X_train_full.columns
if X_train_full[col].isnull().any()]
X_train_full.drop(cols_with_missing, axis=1, inplace=True)
X_valid_full.drop(cols_with_missing, axis=1, inplace=True)
#“基数”是指列中唯一的数目
#选择技术相对较低的分类列(方便但随意)
low_cardinality_cols = [cname for cname in X_train_full.columns
if X_train_full[cname].dtype == 'object']
#选择数字列
numerical_cols = [cname for cname in X_train_full.columns if X_train_full[cname].dtype in ['int64', 'float64']]
#仅仅保留所选列
my_cols = low_cardinality_cols + numerical_cols
X_train = X_train_full[my_cols].copy()
X_valid = X_valid_full[my_cols].copy()
#打印前五行数据
print(X_train.head())
接下来,我们获得训练数据中所有分类变量的列表。
我们通过检查每个列的数据类型(或dtype)来做到这一点。
对象dtype表示列中有文本(理论上它还可以有其他内容,但这对我们的目的并不重要)。
对于这个数据集,带有文本的列表示分类变量。
#获取分类变量列表
s = (X_train.dtypes == 'object')
object_cols = list(s[s].index)
print("Categorical variables:")
print(object_cols)
4、定义功能来度量每种方法的质量
我们定义了一个函数score_dataset()来比较处理分类变量的三种不同方法。该函数报告随机森林模型的平均绝对误差(MAE)。一般来说,我们希望MAE尽可能低!
def score_dataset(X_train, X_valid, y_train, y_valid):
model = RandomForestRegressor(n_estimators=100, random_state=0)
model.fit(X_train,y_train)
preds = model.predict(X_valid)
return mean_absolute_error(y_valid,preds)
5、三种方法的MAE得分
1)、第一种方法
#方法一求取MAE的值
drop_X_train = X_train.select_dtypes(exclude=['object'])
drop_X_valid = X_valid.select_dtypes(exclude=['object'])
print("MAE from Approach 1 (Drop categorical variables):")
print(score_dataset(drop_X_train, drop_X_valid, y_train, y_valid))
2)、第二种方法
#复制以避免更改原始数据
label_X_train = X_train.copy()
label_X_valid = X_valid.copy()
#将标签编码器应用于每一列与分类数据
label_encoder = LabelEncoder()
for col in object_cols:
label_X_train[col] = label_encoder.fit_transform(X_train[col])
label_X_valid[col] = label_encoder.transform(X_valid[col])
print("MAE from Approach 2 (Label Encoding):")
print(score_dataset(label_X_train, label_X_valid, y_train, y_valid))
在上面的代码单元格中,对于每一列,我们将每个惟一的值随机分配给一个不同的整数。
这是一种比提供自定义标签更简单的常见方法;然而,如果我们为所有有序变量提供更好的信息标签,我们可以期望额外的性能提升。
但是第二种方法我出现了bug,暂时还未解决,解决ing
3)、第三种方法
独热编码:
我们使用来自scikit-learn的OneHotEncoder类来获得一次热编码。
有许多参数可用于自定义其行为。
当验证数据包含训练数据中没有表示的类时,我们设置handle_unknown='ignore'以避免错误,而设置sparse=False确保以numpy数组(而不是稀疏矩阵)的形式返回编码的列。
要使用编码器,我们只提供我们希望进行单热编码的分类列。
例如,为了编码训练数据,我们提供X_train[object_cols]。(下面代码单元格中的object_cols是包含分类数据的列名列表,因此X_train[object_cols]包含训练集中的所有分类数据。)
#方法三求取MAE的值
#对每个列应用独热编码器,其中包含分类数据
OH_encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)
OH_cols_train = pd.DataFrame(OH_encoder.fit_transform(X_train[object_cols]))
OH_cols_valid = pd.DataFrame(OH_encoder.transform(X_valid[object_cols]))
#独热编码删除索引;并放回原处
OH_cols_train.index = X_train.index
OH_cols_valid.index = X_valid.index
#删除分类列(将替换为独热编码)
num_X_train = X_train.drop(object_cols, axis=1)
num_X_valid = X_valid.drop(object_cols, axis=1)
#向数值特性添加独热编码列
OH_X_train = pd.concat([num_X_train, OH_cols_train], axis=1)
OH_X_valid = pd.concat([num_X_valid, OH_cols_valid], axis=1)
print("MAE from Approach 3 (One-Hot Encoding):")
print(score_dataset(OH_X_train, OH_X_valid, y_train, y_valid))
5、总结
哪种方法最好?
在本例中,删除分类列(方法1)的性能最差,因为它有最高的MAE得分。
至于另外两种方法,由于返回的MAE分数非常接近,因此其中一种方法对另一种方法似乎没有任何有意义的好处。
通常,独热编码(方法3)的性能最好,而删除分类列(方法1)的性能最差,但具体情况有所不同。
本次学习到此结束!!!!!