首先了解使用python进行数据处理常用的两个包:numpy和pandas。

numpy

最重要的特点就是n维数组对象ndarray是一个快速而灵活的大数据集容器,它是一个通用的同构数据多维容器,即所有的元素必须是相同的类型,每个数组有一个shape(表示维度大小的元组),一个dtype(说明数组数据类型的对象)。

1.创建数组常使用的函数有:array,arange

例如:

array函数:

python中文数据处理 python的数据处理_python中文数据处理


arange函数:

python中文数据处理 python的数据处理_数据库_02


注意:python里面左闭右开的原则

2.数据类型

python中文数据处理 python的数据处理_python_03


numpy的数据类型有int/float/complex/bool/object/string数据类型转换使用函数:astype

python中文数据处理 python的数据处理_python中文数据处理_04


另一种转换方式,在数组里面加逗号,后面输入dtpye=np.float64,如下:

python中文数据处理 python的数据处理_python中文数据处理_05


3.切片一维数组切片,操作注意三点:中括号,左闭右开,冒号

python中文数据处理 python的数据处理_python中文数据处理_06


python中文数据处理 python的数据处理_数据挖掘_07


二维数组切片:注意只有冒号表示选取整个轴

python中文数据处理 python的数据处理_数据挖掘_08


python中文数据处理 python的数据处理_数据库_09


4.矢量化

不用编写程序即可对数据执行批量运算,大小相等的数组之间的任何算数运算(加减乘除幂)都可以将运算应用到元素级

例如:

python中文数据处理 python的数据处理_python_10


python中文数据处理 python的数据处理_数据分析_11


5.随机数生成

numpy.random对python内置函数random进行了补充,增加了高效生成多种概率分布的样本值的函数:

常用的如:

normal 产生正态分布的样本值

rand 产生均匀分布的样本值

randint 给定上下限范围内随机选取整数

randn 产生标准正态分布的样本值

permutation 返回一个序列的随机排列

seed 确定随机数生成器的种子

python中文数据处理 python的数据处理_python_12


帮助:

numpy.random.normal(loc=0,scale=1e-2,size=shape) ,意义如下:

参数loc(float):正态分布的均值,对应着这个分布的中心。loc=0说明这一个以Y轴为对称轴的正态分布,

参数scale(float):正态分布的标准差,对应分布的宽度,scale越大,正态分布的曲线越矮胖,scale越小,曲线越高瘦。

参数size(int 或者整数元组):输出的值赋在shape里,默认为None

6.数组转换和轴对换

reshape、T属性、transpose

python中文数据处理 python的数据处理_python中文数据处理_13


python中文数据处理 python的数据处理_python_14


python中文数据处理 python的数据处理_python_15


python中文数据处理 python的数据处理_python_16


以上是numpy的详细介绍,有关于pandas的详述,请留意我们明天更新的文章噢~