1.1 标量,向量,矩阵,张量之间的联系
- 标量(scalar)
一个标量表示一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。我们用斜体表示标量。标量通常被赋予小写的变量名称。 - 向量(vector)
一个向量表示一组有序排列的数。通过次序中的索引,我们可以确定每个单独的数。通常我们赋予向量粗体的小写变量名称,比如 xx 。向量中的元素可以通过带脚标的斜体表示。向量 的第一个元素是 ,第二个元素是 - 矩阵(matrix)
矩阵是具有相同特征和纬度的对象的集合,表现为一张二维数据表。其意义是一个对象表示为矩阵中的一行,一个特征表示为矩阵中的一列,每个特征都有数值型的取值。通常会赋予矩阵粗体的大写变量名称,比如 - 张量(tensor)
在某些情况下,我们会讨论坐标超过两维的数组,三维及其以上维度的矩阵。一般地,一个数组中的元素分布在若干维坐标的规则网格中,我们将其称之为张量。使用 来表示张量""。张量 中坐标为 的元素记作 - 四者之间关系
标量是 0 阶张量,向量是一阶张量。举例:
标量就是知道棍子的长度,但是你不会知道棍子指向哪儿。
向量就是不但知道棍子的长度,还知道棍子指向前面还是后面。
张量就是不但知道棍子的长度,也知道棍子指向前面还是后面,还能知道这棍子又向上/下和左/右偏转了多少。
维度越高,了解到的信息越全面;
1.2 张量与矩阵的区别?
- 从代数角度讲,矩阵它是向量的推广。向量可以看成一维的婊格"即分量按照顺序排成一排),矩阵是二维的"表格"(分量按照纵横位置排列),那么 维张量就是所谓的
- 从几何角度讲,矩阵是一个真正的几何量,也就是说,它是一个不随参照系的坐标变换而变化的东西。向量也具有这种特性。
- 张量可以用
- 表示标量的数和表示向量的三维数组地召分别看作
1.3 矩阵和向量相乘结果
行 列的矩阵和 行向量相乘 最有得到就是一个
在矩阵运算中,“叉乘”和“点乘”是两个不同的操作,但它们的具体定义和使用情境可能会让人混淆。以下是对这两种运算的详细介绍:
1.3.1 矩阵的点乘 (Element-wise Product)
- 定义
- 矩阵的点乘是指两个矩阵对应位置的元素逐个相乘,得到一个与输入矩阵相同形状的新矩阵。
- 点乘通常也被称为Hadamard积,记作
公式
如果 和 是两个形状相同的矩阵,那么它们的点乘 为:
条件
- 点乘要求两个矩阵的形状相同。
示例
假设:
点乘结果为:
应用场景
- 点乘广泛用于神经网络中,例如在加权输入时逐元素计算。
- 在图像处理和其他数据处理任务中,用于按元素加权操作。
1.3 2 矩阵的叉乘 (Cross Product)**
定义
- 严格来说,矩阵本身并没有直接定义“叉乘”,但我们通常使用“叉乘”来指向量的叉乘(Cross Product),这是线性代数中一个重要的操作,主要用于三维向量。
- 向量叉乘产生一个与输入向量都垂直的向量,满足右手法则。
向量叉乘的公式
假设有两个三维向量:
它们的叉乘 定义为:
- 条件
- 叉乘仅定义在三维向量中。对于矩阵,如果涉及叉乘,通常意味着需要逐行或逐列进行向量的叉乘。
示例
假设:
叉乘结果为:
- 向量叉乘在物理学和工程学中被广泛使用,例如计算力矩、角速度等。
- 用于计算平面法向量或垂直于两个向量的方向。
1.3.3 点乘与叉乘的区别
特性 | 点乘 (Element-wise Product) | 叉乘 (Cross Product) |
操作类型 | 元素逐个相乘 | 向量间的几何运算 |
输入维度要求 | 矩阵维度相同 | 通常只定义在三维向量中 |
输出结果 | 仍然是矩阵,形状不变 | 垂直于输入向量的三维向量 |
数学意义 | 用于逐元素的计算 | 用于计算垂直方向或力矩等物理量 |
应用场景 | 神经网络、逐像素计算 | 物理学、计算法向量或力矩等 |
1.3.4. 常见误解
- 矩阵乘法 ≠ 点乘或叉乘:
- 矩阵乘法(矩阵与矩阵的标准乘法)是一种线性代数操作,与点乘或叉乘不同。
- 矩阵乘法的核心是行列的点积运算。
- 点乘 ≠ 内积(Dot Product):
- 在一些文献中,点乘可能被误解为向量的内积(Dot Product)。需要区分两者,点乘是逐元素运算,而向量的内积是标量计算。
- 点乘:逐元素相乘,通常用于矩阵的逐元素操作。
- 叉乘:严格定义在向量(特别是三维向量)上,用于计算垂直于两个输入向量的向量。
- 两者在数学意义和应用场景上完全不同,但在实际问题中,根据上下文明确定义尤为重要。
1.4 向量和矩阵的范数归纳
1.4.1 向量的范数
定义一个向量为: 。任意一组向量设为
- 向量的1范数:向量的各个元素的绝对值之和,上述向量
- 向量的 2 范数:向量的每个元素的平方和再开平方根,上述
- 向量的负无穷范数:向量的所有元素的绝对值中最小的:上述向量
- 向量的正无穷范数:向量的所有元素的绝对值中最大的:上述向量 的正无穷范数结果就是:10。
- 向量的
1.4.2 矩阵的范数
定义一个矩阵 。任意矩阵定义为: ,其元素为
当向量取不同范数时, 相应得到了不同的矩阵范数。
- 矩阵的 1 范数(列范数):矩阵的每一列上的元素绝对值先求和,再从中取个最大的,(列和最大),上述矩阵 的 1 范数先得到
- 矩阵的 2 范数:矩阵 的最大特征值开平方根,上述矩阵
其中, 为
- 矩阵的无穷范数(行范数):矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最大),上述矩阵 的行范数先得到[
- 矩阵的核范数:矩阵的奇异值(将矩阵svd分解)之和,这个范数可以用来低秩表示(因为最小化核范数,相当于最小化矩阵的秩一一低秩),上述矩阵A最终结果就是:10.9287。
- 矩阵的 L0范数:矩阵的非 0 元素的个数,通常用它来表示稀疏,LO范数越小 0 元素越多,也就越稀疏,上述矩阵
- 矩阵的 L1范数:矩阵中的每个元素绝对值之和,它是 LO范数的最优凸近似,因此它也可以表示稀疏,上述矩阵
- 矩阵的
- 矩阵的L21范数:矩阵先以每一列为单位,求每一列的F范数(也可认为是向量的 2 范数),然后再将得到的结果求 L 1 范数(也可认为是向量的 1 范数),很容易看出它是介于 L 1 和 L 2 之间的一种范数,上述矩阵
- 矩阵的
1.5 如何判断一个矩阵为正定?
一个 的实矩阵
对称性:矩阵 必须是对称的,即 。
正定性:
对于所有非零向量
相关性质
-顺序主子式全大于0;
-存在可逆矩阵 使 等于该矩阵;
-正惯性指数等于 ;
-合同于单位矩阵 (即:规范形为 )
-标准形中主对角元素全为正;
-特征值全为正;
-是某基的度量矩阵。
1.6 导数偏导计算
导数定义:
导数代表了在自变量变化趋于无穷小的时候,函数值的变化与自变量的变化的比值。几何意义是这个点的切线。物理意义是该时刻的(瞬时)变化率。
注意:在一元函数中,只有一个自变量变动,也就是说只存在一个方向的变化率,这也就是为什么一元函数没有偏导数的原因。在物理学中有平均速度和瞬时速度之说。平均速度有
其中 表示平均速度, 表示路程,
其中 表示两点之间的距离,而 表示走过这段距离需要花费的时间。当 趋向于 时,也就是时间变得很短时,平均速度也就变成了在
实际上,上式表示的是路程 关于时间 的函数在 处的导数。一般的,这样定义导数:如果平均变化率的极限存在,即有
则称此极限为函数 在点 处的导数。记作 或 或 或
- 偏导数:
既然谈到偏导数,那就至少涉及到两个自变量。以两个自变量为例,
注意:直观地说,偏导数也就是函数在某一点上沿坐标轴正方向的的变化率。
设函数 在点 的领域内有定义,当 时, 可以看作关于 的一元函数 ,若该一元函数在
函数的极限 存在。那么称 为函数 在点 外辛自变康 的偏导数,记作 或 或 或 。
偏导数在求解时可以将另外一个变量看做常数,利用普通的求导方式求解,比如 关于 的偏导数就为 ,这个时候 相当于 的系数.
某点 处的偏导数的几何意义为曲面 与面 或面 交线在 或 处切线的斜率。
1.7 导数和偏导数有什么区别?
导数和偏导没有本质区别,如果极限存在,都是当自变量的变化量趋于 0 时,函数值的变化量与自变量变化量比值的极限。
- 一元函数,一个 对应一个
- 二元函数,一个 对应一个 和一个 ,有两个导数:一个是 对 的导数,一个是 对
- 求偏导时要注意,对一个变量求导,则视另一个变量为常数,只对改变量求导,从而将偏导的求解转化成了一元函数的求导。
1.8 特征值分解与特征向量
- 特征值分解可以得到特征值与特征向量;
- 特征值表示的是这个特征到底有多重要,而特征向量表示这个特征是什么。
如果说一个向量 是方阵
为特征向量
其中, 是这个矩阵 的特征向量组成的矩阵, 是一个对角矩阵,每一个对角线元素就是一个牛值,里面的特征值是由大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化方向要的变化到次要的变化排列)。也就是说矩阵
1.9 奇异值与特征值有什么关系?
那么奇异值和特征值是怎么对应起来的呢?我们将一个矩阵 的转置乘以 ,并对
这里
这里的 就是奇异值, 就是上面说的左奇异向量。【证明那个哥伊必侒给】奇异值 跟特征值类似,在矩阵 中也是从大到小排列,而且 的减少特别的快,在很多情况下,前 甚至 的奇异值的和就占了全部的奇异值之和的 以上了。也就是说,我们也可以用前( 远乎
右边的三个矩阵相乘的结果将会是一个接近 1 的矩阵,在这儿, 越接近于 ,则相乘的结果越接近于
1.10 机器学习为什么要使用概率?
- 事件的概率是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的,但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。
- 机器学习除了处理不确定量,也需处理随机量。不确定性和随机性可能来自多个方面,使用概率论来量化不确定性。
概率论在机器学习中扮演着一个核心角色,因为机器学习算法的设计通常依赖于对数据的概率假设。 - 例如在机器学习(Andrew Ng )的课中,会有一个朴素贝叶斯假设就是条件独立的一个例子。该学习算法对内容做出假设,用来分辨电子邮件是否为垃圾邮件。假设无论邮件是否为垃圾邮件,单词
1.11 变量与随机变量有什么区别?
随机变量(random variable)
表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)中各种结果的实值函数 (一切可能的样本点)。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数等,都是随机变量的实例。
随机变量与模糊变量的不确定性的本质差别在于,后者的测定结果仍具有不确定性,即模糊性。
变量与随机变量的区别:
当变量的取值的概率不是 1 时,变量就变成了随机变量;当随机变量取值的概率为 1 时,随机变量就变成了变量。
比如:
当变量 值为 100 的概率为 1 的话,那么 就是确定了的,不会再有变化,除非有进一步运算.当变量 的值为 100 的概率不为 1 ,比如为 50 的概率是 0.5 ,为 100 的概率是 0.5 ,那么这个变量就是会随不同条件而变化的,是随机变量,取到 50 或者 100 的概率都是 0.5 ,即
1.12 随机变量与概率分布的联系?
一个随机变量仅仅表示一个可能取得的状态,还必须给定与之相伴的概率分布来制定每个状态的可能性。用来描述随机变量或一簇随机变量的每一个可能的状态的可能性大小的方法,就是概率分布 (probability distribution).
随机变量可以分为离散型随机变量和连续型随机变量。
相应的描述其概率分布的函数是
- 概率质量函数(Probability Mass Function,PMF):描速禹散型随机变量的概率分布,通常用大写字母 表示。
- 概率密度函数(Probability Density Functiøn PDF):描述连续型随机变量的概率分布,通常用小写字母 表示。
1.12.1 离散型随机变量和概率质量函数
PMF 将随机变量能够取得的每不状态映射到随机变量取得该状态的概率。
- 一般而言, 表示时
- 有时候为了防止混淆,要明确写出随机变量的名称
- 有时候需要先定义一个随机变量,然后制定它遵循的概率分布 x 服从 PMF 可以同时作用于多个随机变量,即联合概率分布(joint probability distribution) *表示 和 同时发生的概率,也可以简写成
如果一个函数 是随机变量
- .
我们把这一条性质称之为归一化的(normalized)
1.12.2 连续型随机变量和概率密度函数
如果一个函数 是
1.13 常见概率分布
1.13.1 Bernoulli分布
Bernoulli分布是单个二值随机变量分布,单参数 控制,
其期望和方差为:
Multinoulli分布也叫范畴分布,是单个 值随机分布,经常用采表示对象分类的分布.其中 是有限值.Multinoulli分布由向量 参数化有个分量 表击第 个状态的概率,且
1.13.2 高斯分布
高斯也叫正态分布(NormalDistnibution),概率度函数如下:
其中, 和 分别是均值和方差,中心峰值×坐标由 给出,峰的宽度受 控制,最大点在 处取得,拐点为
正态分布中, 下的概率分别是 ,这3个数最好记住。此外,令
对概率密度函数高效求值:
其中, 通过参数
1.13.3 何时采用正态分布?
问:何时采用正态分布?答:缺乏实数上分布的先验知识,不知选择何种形式时,歇认选择正态分布总是不会错的,理由如下:
1.中心极限定理告诉我们,很多独立随机变量均近似服从正态分布,现实中很多复杂系统都可以被建模成正态分布的㰾声,即使该系统可以被结构化分解。
2.正态分布是具有相同方差的所有概率分布中,不确定性最大的分布,换句话说,正态分布是对模型加入先验知识最少的分布.
正态分布的推广:正态分布可以推广到 空间,此时称为冬位正态分布,其参数是一个正定对称矩阵
对多为正态分布榞率密度高效求值:
此处,是一个精度矩阵。
1.13.4指数分布
深度学习中,指数分布用来描述在
指数分布用指示函数 来使
1.13.5 Laplace 分布
一个联系紧密的概察分布是 Laplace 分布(Laplace distribution),它允许我们在任意一点 处设置概率质量的峰值
1.13.6 Dirac分布和经验分布
Dirac分布可保证榞率分布中所有质量都集中在一个点上.Diract分布的狄拉克
Dirac 分布经常作为 经验分布(empirical distribution)的一个组成部分出现
,其中, m 个点 是给定的数据集,经验分布将概率密度 淢给了这些点.
当我们在训练集上训练模型时,可以认为从这个训练集上得到的经验分布指明了采样来源.
适用范困:狄拉克
1.14 举例理解条件概率
条件概率公式如下:
说明:在同一个样本空间 中的事件或者子集 与 ,如果遮机从 中选出的一个元素属于 ,那么下一个随机选择的元素属于 的輯率就定义为在 的前提下 的条件概率。群到过)
穷举法:已知其中一个是女数,耶 2 样本空间为男女,女女,女男,则另外一个乃然是女生的概率就是 1/3。男,則 市女 为 女 男 ,所以最后 。
这里大家可能会误解,男女和女男是同一种情况,但实际上类似姐弟和兄妹是不同情况。
1.15 联合概率与边缘概率联系区别?
区别:
联合概率:联合概率指类似于 这样,包含多个条件,且所有条件同时成立的概率。联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。
边缘概率:边缘概率是某个事件发生的概率,而与其它事件无关。边缘概率指类似于 ,
联系:
联合分布可求边缘分布,但若只知道边缘分布,无法求得联合分布。
1.16 条件概率的链式法则
由条件概率的定义,可直接得出下面的乘法公式:
乘法公式 设 是两个事件,并且
推广
一般地,用归纳法可证:若
任何多维随机变量联合概率分布,都可以分解成只有一个变量的条件概率相乘形式。
1.17 独立性和条件独立性
独立性两个随机变量 和 ,概率分布表示成两个因子乘积形式,一个困子只包含 ,另一个因子只包含 ,两个随机变量相互独立(independent)。
条件有时为不独立的事件之间带来独立,有时也会把本来独立肠乎件,有为政条件的存在,而失去独立性。
举例: ,事件 和事件 独立。此时帛定
事件独立时,联合概率等于概率的乘积。这是一个非常好的数学性质,然而不幸的是,无条件的独立是十分稀少的,因为大部分情况下,事件之间都是相互影响的。
条件独立性
给定 的情况下, 和
和 的关系依顥于 ,而不是宜授产生。
举例定义如下事件:
:明天下雨;
:今天的地面是湿的;
:今天是否下雨;
事件的成立,对 和 均有影响,然而,在
1.18 期望,方差,协方差,相关系数总结
期望
在概率论和统计学中,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。
- 线性运算:
- 推广形式:
- 函数期望:设 为 的函数,则
- 离散函数:
- 连续函数:
注意: - 函数的期望大于等于朋望的函数(Jensen不等式),即
- 一般情况下,乘积的期望不等于期望的乘积。
- 如果 和 相互独立,则
方差
概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。方差是一种特殊的期望。定义为:
方差性质:
1)
2)常数的方差为 0 ;
3)方差不满足线性性质;
4)如果 和 相互独立,
协方差
协方差是衡量两个变量线性相关性强度及变量尺度。两个随机变量的协方差定义为:
1)独立变量的协方差为 0
2)协方差计算公式:
3)特殊情况:
相关系数
相关系数是研究变量之间线性相关程度的量。两个随机变量的相关系数定义为:
相关系数的性质:
1)有界性。相关系数的取值范围是[-1,1],可以看成无量纲的协方差。
2)值越接近 1 ,说明两个变量正相关性(线性)越强。越接近-1,说明负相关性越强,当为 0 时,表示两个变量没有相关性。