本文主要对python中经典数据分析框架进行了总结分析与比较,并以此为参考选择更加合适的框架来进行数据分析

1、NumPy是python语言的一个扩充程序库,集成了基本的线性代数函数、高级的随机数功能以及傅里叶变换,在数组运算方面提供了很多函数库,并支持大规模数据的纬度以及矩阵运算。

2、Scipy是构建在NumPy的基础之上的,是实用性最强的库之一,不仅具有各种高层次的科学模块,还有许多工程模块,还包括统计,优化,整合以及线性代数模块、傅里叶变换、信号和图像图例、常微分方差的求解等。

3、Pandas是基于NumPy的一种专为解决数据分析方面问题而生的工具。Pandas里具有一些标准的数据模型,可以对结构化的数据进行控制和操作,能快速便捷地处理数据的函数和方法。

4、ScikitLearn机器学习库,这个库里有机器学习和统计模型,它包含各种分类算法,回归算法和聚类算法,如梯度提升、随机森林,K均值向量机等算法都包含在ScikitLearn机器学习库中。

5、Statsmodels用于统计建模,用于进行拟合多种统计模型,探索数据以及统计检验。

6、SymPy是一个科学计算库,其功能强大、用途广泛,能够用计算符号来完成如求极值、求积分、解方程、微分方程等计算问题。

7、Matplotlib是一个python的2D绘图库,可以绘制各式各样的图表,如直方图、热图以及线图。

8、Seaborn是python中的一个图形库,可以用它来绘制包含大量信息的图形,Seaborn是对matplotlib的扩展,包含了很多高级的封装API,应用起来更加灵活便捷。

9、Bokeh用于创建仪表盘、交互式图以及现代web浏览器上的数据应用,Bokeh能够允许用户生成d3.js类型的图形。除此之外,在数据集很大的情况下还具有高性能的交互能力。