1.2.1基本概念
- 训练集
- 测试集
- 特征值
- 监督学习
- 非监督学习
- 半监督学习
- 分类
- 回归
1.2.2例子1
- 针对例子1,我们可以把100天的数据(包括每天的温度X1,天气X2,风力X3,水温X4,湿度X5,预报X6和小明每天是否享受运动Y)作为训练集,产生模型,再用接下来的10天作为测试集检验生成的模型
- N(X1,X2,X3,X4,X5,X6)向量即为特征向量
- 温度X1,天气X2,风力X3,水温X4,湿度X5,预报X6即为6个属性
- 可以标记享受运动为正例,自然不享受即为反例
1.2.3例子2
- 不难发现例子1的输出结果为数值型(享受即为1,不享受记为0),例子2的结果为房价,是连续型的,所以例子1是分类问题,例子2是回归问题
1.2.4例子4
- 对于例子1和例子2都是有标记Y的训练集,所以是监督学习,对于例子3,肿瘤是否为良性或恶性可以不先标记出,而是先根据肿瘤大小和颜色分成两类,之后只需要知道任何一个样本(也叫特征向量)就可以知道所有标记
1.2.5机器学习一般步骤