首先了解使用python进行数据处理常用的两个包:numpy和pandas。
numpy
最重要的特点就是n维数组对象ndarray是一个快速而灵活的大数据集容器,它是一个通用的同构数据多维容器,即所有的元素必须是相同的类型,每个数组有一个shape(表示维度大小的元组),一个dtype(说明数组数据类型的对象)。
1.创建数组常使用的函数有:array,arange
例如:
array函数:
arange函数:
注意:python里面左闭右开的原则
2.数据类型
numpy的数据类型有int/float/complex/bool/object/string数据类型转换使用函数:astype
另一种转换方式,在数组里面加逗号,后面输入dtpye=np.float64,如下:
3.切片一维数组切片,操作注意三点:中括号,左闭右开,冒号
二维数组切片:注意只有冒号表示选取整个轴
4.矢量化
不用编写程序即可对数据执行批量运算,大小相等的数组之间的任何算数运算(加减乘除幂)都可以将运算应用到元素级
例如:
5.随机数生成
numpy.random对python内置函数random进行了补充,增加了高效生成多种概率分布的样本值的函数:
常用的如:
normal 产生正态分布的样本值
rand 产生均匀分布的样本值
randint 给定上下限范围内随机选取整数
randn 产生标准正态分布的样本值
permutation 返回一个序列的随机排列
seed 确定随机数生成器的种子
帮助:
numpy.random.normal(loc=0,scale=1e-2,size=shape) ,意义如下:
参数loc(float):正态分布的均值,对应着这个分布的中心。loc=0说明这一个以Y轴为对称轴的正态分布,
参数scale(float):正态分布的标准差,对应分布的宽度,scale越大,正态分布的曲线越矮胖,scale越小,曲线越高瘦。
参数size(int 或者整数元组):输出的值赋在shape里,默认为None
6.数组转换和轴对换
reshape、T属性、transpose
以上是numpy的详细介绍,有关于pandas的详述,请留意我们明天更新的文章噢~