NumPy库入门教程:基础知识总结_python

视学算法 | 作者


numpy可以说是Python运用于人工智能和科学计算的一个重要基础,近段时间恰好学习了numpy,pandas,sklearn等一些Python机器学习和科学计算库,因此在此总结一下常用的用法。

1

numpy数组(array)的创建

通过array方式创建,向array中传入一个list实现

一维数组的创建:

NumPy库入门教程:基础知识总结_数据分析_02

二维数组的创建:传入一个嵌套的list即可,如下例:

NumPy库入门教程:基础知识总结_numpy_03

通过arange创建数组:下例中创建一个0~1间隔为0.1的行向量,从0开始,不包括1,第二个例子通过对齐广播方式生成一个多维的数组。

NumPy库入门教程:基础知识总结_numpy_04

NumPy库入门教程:基础知识总结_数据分析_05

通过linspace函数创建数组:下例中创建一个0~1间隔为1/9的行向量(按等差数列形式生成),从0开始,包括1.

NumPy库入门教程:基础知识总结_机器学习_06

通过logspace函数创建数组:下例中创建一个1~100,有20个元素的行向量(按等比数列形式生成),其中0表示10^0=1,2表示10^2=100,从1开始,包括100

NumPy库入门教程:基础知识总结_算法_07

生成特殊形式数组:

生成全0数组(zeros()函数),生成全1数组(ones()函数), 仅分配内存但不初始化的数组(empty()函数)。

注意要指定数组的规模(用一个元组指定),同时要指定元素的类型,否则会报错

NumPy库入门教程:基础知识总结_python_08

生成随机数组

NumPy库入门教程:基础知识总结_机器学习_09

通过frombuffer,fromstring,fromfile和fromfunction等函数从字节序列、文件等创建数组,下例中生成一个9*9乘法表

NumPy库入门教程:基础知识总结_算法_10

2

显示、创建、改变的数组元素

的属性、数组的尺寸(shape)等

NumPy库入门教程:基础知识总结_python_11

NumPy库入门教程:基础知识总结_算法_12

3

改变数组的尺寸(shape)

reshape方法,第一个例子是将43矩阵转为34矩阵,第二个例子是将行向量转为列向量。注意在numpy中,当某个轴的指定为-1时,此时numpy会根据实际的数组元素个数自动替换-1为具体的大小,如第二例,我们指明了c仅有一列,而b数组有12个元素,因此c被自动指定为12行1列的矩阵,即一个12维的列向量。

NumPy库入门教程:基础知识总结_机器学习_13

NumPy库入门教程:基础知识总结_python_14

4

元素索引和修改

简单的索引形式和切片:

NumPy库入门教程:基础知识总结_机器学习_15

NumPy库入门教程:基础知识总结_算法_16

当使用布尔数组b作为下标存取数组x中的元素时,将收集数组x中所有在数组b中对应下标为True的元素。使用布尔数组作为下标获得的数组不和原始数组共享数据空间,注意这种方式只对应于布尔数组(array),不能使用布尔列表(list)。(附注:当布尔数组的长度与被索引的数组的长度短时,不足的部分都当作False)

NumPy库入门教程:基础知识总结_数据分析_17

利用条件进行索引:利用不等式等进行索引

NumPy库入门教程:基础知识总结_numpy_18

多维数组的索引和切片(右边框图中的颜色和左边的指令的颜色相对应):

NumPy库入门教程:基础知识总结_numpy_19

同样的,可以采用bool型的方式对数组进行索引和切片操作

NumPy库入门教程:基础知识总结_机器学习_20

其实多维数组的索引还是很好理解的,例如下例中,我们可以看到对于一个张量,也就是b,对其索引是,[i,j,k]中的i表示选择第几个二维数组,然后j表示取二维数组中的第几个行向量,k表示取行向量中的第几个元素。

NumPy库入门教程:基础知识总结_数据分析_21

5

ufunc操作

ufunc是universal function的缩写,它是一种能对数组的每个元素进行操作的函数。numPy内置的许多ufunc函数都是在C语言级别实现的,因此它们的计算速度非常快。下面给一个计算sin函数(sin函数计算数组中全部元素的sin值)的小实例:

NumPy库入门教程:基础知识总结_机器学习_22

四则运算符可以直接用于数组(一维或多维)计算:

NumPy库入门教程:基础知识总结_机器学习_23

NumPy库入门教程:基础知识总结_算法_24

比较操作也可直接进行,如下,比较x1和x2各对应元素的大小,返回的是一个bool型数组。

可用的操作符有 ‘==’,‘!

=’,‘<’,‘>’,‘<=’,‘>=’等。另外可以使用数组的any()或all()方法。只要数组中有一个值为True,则any()返回True;而只有数组的全部元素都为True,all()才返回True。

NumPy库入门教程:基础知识总结_numpy_25

NumPy库入门教程:基础知识总结_数据分析_26

想要了解更多的numpy自带的ufunc函数,可以查看这篇博客:

自定义ufunc函数:frompyfunc(func,nin,nout) 函数可以将计算单个值的函数转换成一个可对数组中每个元素进行计算的ufunc函数。其中nin是输入func的参数的个数,nout是func返回值的个数。如下例。

NumPy库入门教程:基础知识总结_numpy_27

reduce方法(与Python的reduce函数类似,其沿着axis轴对array进行操作)

NumPy库入门教程:基础知识总结_数据分析_28

NumPy库入门教程:基础知识总结_算法_29

accumulate方法(其作用和reduce方法类似,但是会保存中间结果)

NumPy库入门教程:基础知识总结_机器学习_30

outer方法(对其两个参数数组的每两对元素的组合进行运算,计算外积):若数组a的维数为M,数组b的维数为N,则ufunc函数op的outer()方法对a、b数组计算所生成的数组c的维数为M+N,c的形状是a、b的形状的结合。例如a的形状为(2,3),b的形状为(4,5),则c的形状为(2,3,4,5)。

NumPy库入门教程:基础知识总结_数据分析_31

6

广播操作

广播是针对形状不同的数组的运算采取的操作。当我们使用ufunc函数对两个数组进行计算时,ufunc函数会对这两个数组的对应元素进行计算,因此它要求这两个数组有相同的大小(shape相同)。如果两个数组的shape不同的话(行列规模不等),会进行如下的广播(broadcasting)处理:

1)让所有输入数组都向其中shape最长的数组看齐,shape中不足的部分都通过在前面加1补齐。因此输出数组的shape是输入数组shape的各个轴上的最大值(往最大轴长上靠)。

2)如果输入数组的某个轴和输出数组的对应轴的长度相同或者其长度为1时,这个数组能够用来计算,否则出错。

3)当输入数组的某个轴的长度为1时,沿着此轴运算时都用此轴上的第一组值。

NumPy库入门教程:基础知识总结_数据分析_32

感觉说的不太明白,于是还是用实例说话好了。

7

矩阵运算

矩阵乘法(dot乘法,注意要符合矩阵乘法规则

NumPy库入门教程:基础知识总结_numpy_33

内积(inner,计算向量/矩阵内积):和dot乘积一样,对于两个一维数组,计算的是这两个数组对应下标元素的乘积和;对于多维数组a和b,它计算的结果数组中的每个元素都是数组a和b的最后一维的内积,因此数组a和b的最后一维的长度必须相同。

计算公式为:

inner(a, b)[i,j,k,m] = sum(a[i,j,:]*b[k,m,:])

NumPy库入门教程:基础知识总结_python_34

NumPy库入门教程:基础知识总结_机器学习_35

外积(outer,计算外积):只按照一维数组进行计算,如果传入参数是多维数组,则先将此数组展平为一维数组之后再进行运算。outer乘积计算的列向量和行向量的矩阵乘积。

NumPy库入门教程:基础知识总结_numpy_36

解线性方程组(solve):solve(a,b)有两个参数a和b。a是一个N*N的二维数组,而b是一个长度为N的一维数组,solve函数找到一个长度为N的一维数组x,使得a和x的矩阵乘积正好等于b,数组x就是多元一次方程组的解。

NumPy库入门教程:基础知识总结_numpy_37

8

文件存取

(假设有数组array为a,假定类型为int32)

a.tofile(file_name) ,保存a到file_name文件中,file_name为字符串类型,如‘a.txt’等;从文件中读回a数组时需要指明类型,如:b=np.fromfile(file_name,dtype=np.float)

时会报错,正确的使用方式是:

b=np.fromfile(file_name,dtype=np.int32)

save和load方法(写入文件和从文件读回都不需要指明类型,存储文件类型为npy格式文件):

np.save(“a.npy”, a)    # 将array a存入a.npy文件中c = np.load( “a.npy” ) # 从a.npy文件中读回array a

savetxt和loadtxt方法(保存为txt格式文件):

np.savetxt(“a.txt”, a)  # 将array a存入a.txt文件中np.loadtxt(“a.txt”)     # 从a.txt文件中读回array a
--end--