花书
- 第二章
- 第三章
- 第四章
- 第五章
- 第六章
第二章
张量:表示高维
矩阵相加:需要矩阵形状相同
矩阵乘法:需要矩阵A的列与矩阵B的行相等(矩阵乘法一般不满足交换律),也叫叉乘,外积
公式:C = AB A是mn,B是np, 则C是mp
可以看作是转置A矩阵后,再每俩列相乘。按照A行下标为行下标,B列下标为C列下标即可。就是所谓的A和B的顺序,若B在前则需按照B行下标是C的行下标。
矩阵元素对应乘积:C=A⊙B,也叫点乘,点积,内积
范数:一般用二范式计算距离
特征值特征向量:
公式:Aν=λν
λ是特征值,v是特征向量
一般考虑单位特征向量
奇异值分解(svd):
公式:A =UDVт
A是mn,U是mm,D是mn,V是nn,UV是正交矩阵,D是对角矩阵
拓展矩阵求逆到非方矩阵中
伪逆:?
迹运算:矩阵对角元素之和
主成分分析:利用线性代数证明
第三章
不确定性来源:
1.被建模系统内部随机性
2.不完全观测
3.不完全建模
随机变量:随机变量可以是离散的或者连续的
logistic sigmoid函数:
softplus函数:
一些常用性质:
贝叶斯规则:由条件概率推到得出
测度论:
提供集和特征,避免遇到计算概率时遇到悖论,如事件概率之和大于一
信息论:对一个信号包含多少信息的多少进行量化。
机器学习中主要通过信息论中一些关键思想来描述概率分布或者量化概率分布之间的相似性。
mm
结构化概率模型:
有向图和无向图表示概率的分解和联系
有向图例子:
无向图例子:
第四章
上溢:
近似无穷,超出计算机范围
下溢:
接近0的数字被四舍五入为0,导致错误
驻点:f’(x) =0的点,也叫临界点
三种情况:
梯度:高维方程中函数f的下降或上升最快的地方。是一个向量,l方向与梯度一致时,导数值最大。
牛顿法,泰勒展开:
使用牛顿法和一般梯度下降最小化函数值。
第五章
机器学习应用范围:
分类:分类
输入缺失分类:医学样本缺失
回归:预测
转录:识图得字
机器翻译:语言符号序列到语言符号序列
结构化输出:输出值内部联系紧密,如输出翻译的句子语句通顺
异常检测:垃圾邮件,信用卡异常信息识别
合成和采样:根据现有的东西,学习生成与之相似新的东西,类创造
缺失值填补:算法填补缺失值
去噪:使脏数据变为干净数据
密度估计或者概率质量函数估计:隐式的捕获概率分布的结构
性能度量P:对机器学习算法性能进行度量,测试集
无监督学习可以分解为n个监督学习问题
概率链式法则:P(X1, X2, … Xn) = P(X1 | X2, X3 … Xn) * P(X2 | X3, X4 … Xn) … P(Xn-1 | Xn) * P(Xn)
强化学习:有反馈的学习,试错学习
奥卡姆剃刀:在同样能够解释已知观测现象的假设中,我们因该挑选最简单的那个。
模型的表示容量:在降调整参数降低损失函数时,有多少优化函数可被挑选。
VC维:确定训练样本容量。注:容量确定在深度学习中有很少的使用和理论基础
最近邻回归:返回的预测值y为和训练集中xi距离最短对应的yi
贝叶斯误差:当前的数据在发挥了极致水平下的误差
贝叶斯概率公式:概率公式链式法则
非参数模型:训练样本数越大越好,最终达到或者接近贝叶斯
固定参数模型:小于最优容量,将接近贝叶斯误差
没有免费午餐定理:特定任务上用特定的算法,没有算法是最好的。
正则化:给目标函数增加正则项,惩罚,没有最优的正则项,只有最合适的
超参数:样本容量,权重衰减度,不适合在训练集上学习或者太难优化的参数
验证集:用来调整超参数
交叉验证:
偏差:偏差的实例
例:分析铁矿石中铁的质量分数,得到如下数据:37.45,37.20,37.50,37.30,37.25(%),计算测结果的平均值、平均偏差、相对平均偏差、标准偏差。
解:平均值:37.34(%)
各次测量的偏差分别是:0.11,-0.14,0.16,-0.04,-0.09
平均偏差:0.108
相对平均偏差:0.289(%)
标准偏差:0.13(%)
相对标准偏差:RSD=(0.13/37.34)×100%=0.4%
伯努利分布:又叫零一分布俩点分布
均值的高斯分布估计可以证明无偏差,高斯分布的方差估计有偏差和无偏差俩种
置信度0.95:对事件有0.95的可信度
均方误差:
方差:数据上任意采样可能导致的估计值和真实值之间的差
偏差:偏离真实函数或者参数的误差期望一致性:一致性保证了估计量的偏差会随数据样本的增多而减少
最大似然估计:即最大可能性估计,最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
求解:
最大似然估计是机器学习中首选的估计方法
贝叶斯统计:在做预测时考虑所有参数θ
先验概率:比如根据统计得到的概率
后验概率:在某件事发声后计算出的概率
最大后验估计:能够利用来自先验的信息,有助于减少方差,但增加了偏差
逻辑回归:用于分类而非回归
支持向量机SVM:一个模型不输出概率只输出类别wTx+b,可使用核技巧,许多其他线性模型也可使用核技巧
核技巧:观察到许多机器学习算法都可以写成样本间点积的形式,点积的替换被称为核函数。
1.使我们能够使用保证有效的凸优化技术来学习非线性模型
2.核函数的实现方法要比直接构造φ(x)再算点击高效的多
3.数据大的时候,使用核技巧的算法计算量很大
高斯核:对应于无线空间中的点积
k-最近邻算法:k-近邻算法(k-Nearest Neighbour algorithm)的工作原理:给定一个已知标签类别的训练数据集,输入没有标签的新数据后,在训练数据集中找到与新数据最邻近的 k 个实例,如果这 k 个实例的多数属于某个类别,那么新数据就属于这个类别。即由那些离新数据最近的 k 个实例来投票决定新数据归为哪一类。
决策树:树模拟将输入空间分成不同区域
无监督学习:找到最佳表示
主成分分析:pca将数据变换为元素之间彼此不相关
k-均值聚类:先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。
随机梯度下降SGD:随机选取一部分训练样本进行梯度的下降
维数灾难:数据维度很高,机器学习问题变地复杂
流形:数据呈流形
局部光滑原则
第六章
深度前馈网络:前馈神经网络,多层感知机
循环神经网络:将前馈和反馈连接起来
深度学习是通过将x映射于φ(x)而φ(x)本身不是线性的,再将φ(x)应用于线性模型,深度学习的φ(x)是通过学习得到的
XOR:变换特征空间解决
仿射变换:仿射变换,又称仿射映射,是指在几何中,一个向量空间进行一次线性变换并接上一个平移,变换为另一个向量空间
激活函数:为得到非线性变换需要经过仿射变换后使用激活函数达到,目的
计算机公共原理:可以从最小的组件构建复杂的系统
凸优化和非凸优化:凸优化问题是指是闭合的凸集且是上的凸函数的最优化问题,这两个条件任一不满足则该问题即为非凸的最优化问题。
不是闭合凸集:
不是凸函数:
交叉熵:交叉熵可在神经网络(机器学习)中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。
最大似然学习条件分布:使用最大似然导出代价函数,等同于交叉熵,减轻了设计代价函数的负担
泛函:简单的说, 泛函就是定义域是一个函数集,而值域是实数集或者实数集的一个子集,泛函就是函数的函数,比如全体实系数连续函数构成一个集合A,那么这个A中每一个元素就是一个函数,而泛函就是研究在类似于A这种集合到数之间的关系。
将学习看作选择一个函数,即是函数为自变量映射到实数的函数。
交叉熵代价函数比均方误差或者平均绝对误差更受欢迎
协方差:
使用softmax:那些不使用对数来抵消softmax中的指数的目标函数,当指数函数的变量取得非常·小的负值时会造成·梯度消失。当输入值之间的差异变地极端时,这些输出值可能饱和。
饱和:机器学习一般指梯度消失。