我们需要了解一下 numpy 的应用场景
NumPy提供了大量的数值编程工具,可以方便地处理向量、矩阵等运算,极大地便利了人们在科学计算方面的工作。另一方面,Python是免费,相比于花费高额的费用使用Matlab,NumPy的出现使Python得到了更多人的青睐
查看 numpy 版本
import numpy
numpy.version.full_version
数组
NumPy中的基本对象是同类型的多维数组(homogeneous multidimensional array),这和C++中的数组是一致的,例如字符型和数值型就不可共存于同一个数组中。先上例子
a = numpy.arange(20)
通过函数reshape
,我们可以重新构造一下这个数组,例如,我们可以构造一个4*5
的二维数组,其中reshape
的参数表示各维度的大小,且按各维顺序排列(两维时就是按行排列,这和R中按列是不同的):
a = a.reshape(4,5)
构造更高维的也没问题:
a = a.reshape(2,2,5)
既然a
是array
,我们还可以调用array
的函数进一步查看a
的相关属性:ndim
查看维度;shape
查看各维度的大小;size
查看全部的元素个数,等于各维度大小的乘积;dtype
可查看元素类型;dsize
查看元素占位(bytes)大小
创建数组
数组的创建可通过转换列表实现,高维数组可通过转换嵌套列表实现:
raw = [0,1,2,3,4]
a = numpy.array(raw)
raw = [[0,1,2,3,4], [5,6,7,8,9]]
b = numpy.array(raw)
一些特殊的数组有特别定制的命令生成,如4*5
的全零矩阵:
d = (4, 5)
numpy.zeros(d)
默认生成的类型是浮点型,可以通过指定类型改为整型:
d = (4, 5)
numpy.ones(d, dtype=int)
[0, 1)
区间的随机数数组:
numpy.random.rand(5)
数组操作
简单的四则运算已经重载过了,全部的+
,-
,*
,/
运算都是基于全部的数组元素的,以加法为例:
类似C++,+=
、-=
、*=
、/=
操作符在NumPy中同样支持:
开根号求指数也很容易:
需要知道二维数组的最大最小值怎么办?想计算全部元素的和、按行求和、按列求和怎么办?for
循环吗?不,NumPy的ndarray
类已经做好函数了:
数组元素访问
数组和矩阵元素的访问可通过下标进行,以下均以二维数组(或矩阵)为例:
可以通过下标访问来修改数组元素的值:
现在问题来了,明明改的是a[0][1]
,怎么连b[0][1]
也跟着变了?这个陷阱在Python编程中很容易碰上,其原因在于Python不是真正将a
复制一份给b
,而是将b
指到了a
对应数据的内存地址上。想要真正的复制一份a
给b
,可以使用copy
若对a
重新赋值,即将a
指到其他地址上,b
仍在原来的地址上:
利用:
可以访问到某一维的全部数据,例如取矩阵中的指定列:
数组操作
还是拿矩阵(或二维数组)作为例子,首先来看矩阵转置:
矩阵求逆:
求特征值和特征向量
按列拼接两个向量成一个矩阵:
在循环处理某些数据得到结果后,将结果拼接成一个矩阵是十分有用的,可以通过vstack
和hstack
完成:
缺失值
缺失值在分析中也是信息的一种,NumPy提供nan
作为缺失值的记录,通过isnan
判定。
nan_to_num
可用来将nan
替换成0,在后面会介绍到的更高级的模块pandas
时,我们将看到pandas
提供能指定nan
替换值的函数。
NumPy还有很多的函数,想详细了解可参考链接 http://wiki.scipy.org/Numpy_Example_List 和 http://docs.scipy.org/doc/numpy
最后献上NumPy SciPy Pandas Cheat Sheet