一、前言:什么是离散化
在通俗意义上:是在不改变数据相对大小的前提下,将数据进行相应缩小
二、目的:
小编先以简单、常见的例子来解释一下😃
例:[520,13,14]-- 离散化后的映射结果为 [3,1,2]
在机器学习中:
针对每一个数字离散化是不常见的。
因此我们希望,在面对庞大的数组中 --
能够针对相应特征(或属性)范围内进行离散化,实现每个值的特征简单化。
例:
在班级内调查每一个同学的成绩是否及格时:可以将60分作为划定及格和不及格的界限。
将60分以下离散化为0,将60分及以上离散化为1。
三、代码部分
1.你可以使用for循环语句
python_score = [64,58,59,75,95,46,49,52,23,76,84,65,27,79,100]
number = 1
for x in python_score:
if x >=60:
print(f"学号{number}同学成绩及格 -- 1")
else:
print(f"学号{number}同学成绩不及格 -- 0")
number += 1
>>> 运行结果
学号1同学成绩及格 -- 1
学号2同学成绩不及格 -- 0
学号3同学成绩不及格 -- 0
学号4同学成绩及格 -- 1
学号5同学成绩及格 -- 1
学号6同学成绩不及格 -- 0
学号7同学成绩不及格 -- 0
学号8同学成绩不及格 -- 0
学号9同学成绩不及格 -- 0
学号10同学成绩及格 -- 1
学号11同学成绩及格 -- 1
学号12同学成绩及格 -- 1
学号13同学成绩不及格 -- 0
学号14同学成绩及格 -- 1
学号15同学成绩及格 -- 1
2.使用numpy将特征离散化
import numpy as np
# 创建特征
python_score = np.array([64,58,59,75,95,46,49,52,23,76,84,65,27,79,100])
# 使用numpy中函数digitize将特征离散化
result = np.digitize(python_score,bins=[60])
print(result)
>>> 运行结果
[1 0 0 1 1 0 0 0 0 1 1 1 0 1 1]
参数解释:
python_score | 对象 |
bins | bins参数是一个数组,表示的是边界。 如我上述的值给定为60,那么它将以60的边界作为取离散值标准 <60离散值为0,>=60离散值为1 |
问题来了:如果我还想分类班内成绩80分及以上呢?😯
可以这样修改(主要修改bins参数)
import numpy as np
# 创建特征
python_score = np.array([64,58,59,75,95,46,49,52,23,76,84,65,27,79,100])
# 使用numpy中函数digitize将特征离散化
result = np.digitize(python_score,bins=[60,80])
print(result)
>>> 运行结果
[1 0 0 1 2 0 0 0 0 1 2 1 0 1 2]
注意:bins参数遵守的规则是"左闭右开"👈👈👈(看完下面这个例子有个保姆级可视化表格哦😋)
举一个非特殊化例子
import numpy as np
# 创建特征
python_score = np.array([20,60,80,100])
# 使用numpy中函数digitize将特征离散化
result = np.digitize(python_score,bins=[60,80])
print(result)
>>> 运行结果
[0 1 2 2]
取值范围 | 离散值 |
x < 60 | 0 |
60<= x <80 | 1 |
80 <= x | 2 |
如果想实现“左开右闭”可以使用参数right = True
import numpy as np
# 创建特征
python_score = np.array([20,60,80,100])
# 使用numpy中函数digitize将特征离散化
result = np.digitize(python_score,bins=[60,80],right=True)
print(result)
>>> 运行结果
[0 0 1 2]
取值范围(right = True) | 离散值 |
x <= 60 | 0 |
60< x <= 80 | 1 |
80 < x | 2 |
四、资料拓展
使用scikit-learn的Binarizer创建二值化器
import numpy as np
from sklearn.preprocessing import Binarizer
# 创建特征
python_score = np.array([[20],
[60],
[80],
[100]])
# 创建二值化器
binarizer = Binarizer(60)
# 转换特征
binarizer = binarizer.fit_transform(python_score)
print(binarizer)
>>> 运行结果
[[0]
[0]
[1]
[1]]
五、资料参考
《python机器学习手册 -- 从数据预处理到深度学习》 -- Chris Albon