什么是机器学习?
机器学习的一个重要的目标就是利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。
通常在一个数据表dataframe里面,一行表示一个样本𝑥𝑖,一列表示一个特征。
根据数据是否有因变量(响应变量,y,结果集),机器学习的任务可分为:有监督学习和无监督学习。
根据因变量的是否连续,有监督学习又分为回归和分类:
- 回归:因变量是连续型变量,如:房价,体重等。
- 分类:因变量是离散型变量,如:是否患癌症,西瓜是好瓜还是坏瓜等。
为了更好地叙述后面的内容,我们对数据的形式作出如下约定:
第i个样本:𝑥𝑖=(𝑥𝑖1,𝑥𝑖2,...,𝑥𝑖𝑝,𝑦𝑖)𝑇,𝑖=1,2,...,𝑁
因变量𝑦=(𝑦1,𝑦2,...,𝑦𝑁)𝑇
第k个特征:𝑥(𝑘)=(𝑥1𝑘,𝑥2𝑘,...,𝑥𝑁𝑘)𝑇
特征矩阵𝑋=(𝑥1,𝑥2,...,𝑥𝑁)𝑇
回归
klearn中所有内置数据集都封装在datasets对象内: 返回的对象有:
- data:特征X的矩阵(ndarray)
- target:因变量的向量(ndarray)
- feature_names:特征名称(ndarray)
%matplotlib inline的含义
用在Jupyter notebook中具体作用是当你调用matplotlib.pyplot的绘图函数plot()进行绘图的时候,或者生成一个figure画布的时候,可以直接在你的python console里面生成图像。
()
什么是Seaborn
Seaborn是基于matplotlib的图形可视化python包。它提供了一种高度交互式界面,便于用户能够做出各种有吸引力的统计图表。
import和from...import的区别
(https://jingyan.baidu.com/article/15622f242e15b6fdfcbea5b5.html)
import 语句:比如要引用模块 math,就可以在文件最开始的地方用 import math 来引入。在调用 math 模块中的函数时,必须这样引用:模块名.函数名
from…import 语句:
from fib import fibonacci
这个声明不会把整个 fib 模块导入到当前的命名空间中,它只会将 fib 里的 fibonacci 单个引入到执行这个声明的模块的全局符号表。
from…import*
把一个模块的所有内容全都导入到当前的命名空间。
np.unique( )的用法
该函数是去除数组中的重复数字,并进行排序之后输出。
Python enumerate() 函数
enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。Python 2.3. 以上版本可用,2.6 添加 start 参数。
sklearn的make_circles和make_moons生成数据
()
make_circles:生成环形数据
make_moons:生成半环形图
Pandas DataFrame的基本属性详解
()
import pandas as pd 导入库
df = pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
代码 功能
1 DataFrame() 创建一个DataFrame对象
2 df.values 返回ndarray类型的对象
3 df.index 获取行索引
4 df.columns 获取列索引
5 df.axes 获取行及列索引
6 df.T 行与列对调
7 df. info() 打印DataFrame对象的信息
8 df.head(i) 显示前 i 行数据
9 df.tail(i) 显示后 i 行数据
10 df.describe() 查看数据按列的统计信息
sklearn内置数据集Boston房价数据集:
各个特征的相关解释:
- CRIM:各城镇的人均犯罪率
- ZN:规划地段超过25,000平方英尺的住宅用地比例
- INDUS:城镇非零售商业用地比例
- CHAS:是否在查尔斯河边(=1是)
- NOX:一氧化氮浓度(/千万分之一)
- RM:每个住宅的平均房间数
- AGE:1940年以前建造的自住房屋的比例
- DIS:到波士顿五个就业中心的加权距离
- RAD:放射状公路的可达性指数
- TAX:全部价值的房产税率(每1万美元)
- PTRATIO:按城镇分配的学生与教师比例
- B:1000(Bk - 0.63)^2其中Bk是每个城镇的黑人比例
- LSTAT:较低地位人口
- Price:房价
iris数据集:
Iris 鸢尾花数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作示例。
数据集内包含 3 类共 150 条记录,每类各 50 个数据
每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度
- sepal length (cm):花萼长度(厘米)
- sepal width (cm):花萼宽度(厘米)
- petal length (cm):花瓣长度(厘米)
- petal width (cm):花瓣宽度(厘米)
可以通过这4个特征预测鸢尾花卉属于(iris-setosa, iris-versicolour, iris-virginica)中的哪一品种。