本篇将为大家重点介绍python数据分析方面常用的扩展库:NumPy、SciPy、Matplotlib、Pandas、StatsModels、Scikit-learn、Keras、Gensim。
- NumPy
NumPy 提供了真正的数组功能以及对数据进行快速处理的函数,是Python中相当成熟和常用的库,更多的使用可以参考官方文档如下所示👇🏻:
参考链接:http://www.numpy.org
# 安装
pip install numpy
NumPy操作数组实例
# _*_ coding: utf-8 -*
# 作用:代码中可以出现中文
# Numpy
import numpy as np
# 创建数组
na = np.array([20,21,12,1,2])
# 输出数组
print(na) # [20 21 12 1 2]
# 切片(取出前三个数字)
print(na[:3]) # [20 21 12]
# 输出na中的最小值
print(na.min()) # 1
# 从小到大排序
na.sort()
print(na) # [ 1 2 12 20 21]
# 创建二维数组
na2 = np.array([[1,2,3],[4,5,6]])
# 二维数组平方
na3 = na2 * na2
print(na3)
"""
[[ 1 4 9]
[16 25 36]]
"""
- Pandas
Pandas 是Python下最强大的数据分析和探索工具,包含高级的数据结构和精巧的工具,支持类似SQL的数据增、删、查、改,并有丰富的数据处理函数;支持时间序列分析功能;灵活处理缺失数据等。
更多的使用可以参考官方文档如下所示👇🏻:
参考链接:https://pandas.pydata.org/pandas-docs/stable/
# 安装
pip install pandas
Pandas操作案例
import numpy as np
import pandas as pd
#使用 Series 生产序列,Pandas默认生成整数索引
res = pd.Series([1,3,4, np.nan, 6,8])
print(res)
运行结果:
# 使用含日期时间索引和标签的Numpy数组生成DateFrame
dates = pd.date_range('20200703', periods = 6)
print(dates)
df = pd.DataFrame(np.random.randn(6,5),index = dates, columns = list('ABCDE'))
print(df)
运行结果:
- SciPy
SciPy依赖于NumPy,因此安装前需先安装NumPy。SciPy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微积分求解等其他科学与过程中常用的计算。
更多的使用可以参考官方文档如下所示👇🏻:
参考链接:http://www.scipy.org
# 安装
pip install scipy
SciPy求解非线性方程
from scipy.optimize import fsolve
# 例子:求解非线性方程组 2x1 - x2^2 = 1 , x1^2 - x2 = 2
# 定义求解的方程组
def f(x):
x1 = x[0]
x2 = x[1]
return [2*x1-x2**2-1,x1**2-x2-2]
# 初始值,并求解
print(fsolve(f,[1,1]))
# 输出
[1.91963957 1.68501606]
SciPy操作数值积分
# 数值积分
from scipy import integrate
def g(x):
return (1-x**2)**0.5
pi_2, err = integrate.quad(g,-1,1)
# 积分结果 和 误差
print(pi_2*2,err) # 积分结果为π的一半
# 输出
3.1415926535897967
1.0002354500215915e-09
- Matplotlib
Matplotlib是最著名的绘图库,主要用于二维绘图,以及简单的三维绘图。它提供了一整套丰富的命令,让我们可以非常快捷地用Python可视化数据,而且允许输出达到出版质量的多种图像格式。
更多的使用可以参考官方文档如下所示👇🏻:
# 安装
pip install matplotlib
Matplotlib雷达图案例
# 在jupyter notebook运行需要加上下面这句
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
# 创建figure
fig = plt.figure(dpi=120)
# 准备好极坐标系的数据
# 半径为[0,1]
r = np.arange(0, 1, 0.001)
theta = 2 * 2*np.pi * r
# 极坐标下绘制
line, = plt.polar(theta, r, color='#ee8d18', lw=3)
plt.show()
运行结果
值得注意的是:中文乱码问题,如果图表中有中文,请在开头加入下面代码
#window版 解决中文显示问题
plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
#mac版 解决中文显示问题
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
plt.rcParams['axes.unicode_minus'] = False
- StatsModels
StatsModels 注重数据的统计建模分析,使得Python有了R语言的味道。与Pandas 结合成为Python下强大的数据挖掘组合。
更多的使用可以参考官方文档如下所示👇🏻:
参考链接:https://www.statsmodels.org/stable/index.html
# 安装
pip install statsModels
StatsModels操作回归模型
import statsmodels.api as sm
import numpy as np
# 举例:回归公式
# Y=1+10⋅X
nsample = 100
# 虚构一组数据
x = np.linspace (0, 10, nsample)
# 加入一列常项 1
X = sm.add_constant (x)
beta = np.array ([1, 10])
# 生成一个长度为 k 的正态分布样本
e = np.random.normal (size=nsample)
y = np.dot (X, beta) + e
# 反应变量和回归变量上使用 OLS () 函数
model = sm.OLS (y,X)
# 拟合结果
results = model.fit ()
# 计算出的回归系数
print (results.params)
# 输出
[ 0.9661724 10.0264137]
### 和实际的回归系数非常接近(Y=1+10⋅X)
- Scikit-learn
Scikit-learn 是一个与机器学习相关的库,它提供了完善的机器学习工具箱,包括数据预处理、分类、回归、聚类、预测、模型分析等。
更多的使用可以参考官方文档如下所示👇🏻:
参考链接:https://scikit-learn.org/stable/
# 安装
pip install scikit-learn
Scikit-learn 线性分类SVM模型
from sklearn import datasets, svm
# 加载数据集
iris = datasets.load_iris()
# 查看数据集大小 (150, 4)
print(iris.data.shape)
# 建立线性SVM分类器
clf = svm.LinearSVC()
# 训练模型
clf.fit(iris.data, iris.target)
# 预测
print(clf.predict([[5.0, 3.6, 1.3, 0.25]]))
输出:[0]
- Keras
Keras 并非简单的神经网络库,而是一个基于Theano 的强大的深度学习库,不仅可以搭建简单普通的神经网络,还可以搭建各种深度学习模型,如自编码器、循环神经网络、递归神经网络、卷积神经网络等。
使用Keras搭建神经网络模型的过程相当简单,也相当直观,就想搭积木一样,通过几十行代码,就可以搭建起一个非常强大的神经网络模型,甚至是深度学习模型。
举例:简单搭建一个MLP(多层感知器)
更多的使用可以参考官方文档如下所示👇🏻:
参考链接:https://keras.io/
# 安装
pip install keras
- Gensim
Gensim 用来处理语言方面的任务,如文本相似度计算、LDA、Word2Vec等。
据说Gensim的作者对Word2Vec的代码进行了优化,所以它在Gensim下的表现据说比原生的Word2Vec还要快。
更多的使用可以参考官方文档如下所示👇🏻:
参考链接:https://radimrehurek.com/gensim/
# 安装
pip install gensim
Gensim使用Word2Vec案例
from gensim.models import Word2Vec
# 定义训练数据
sentences = [['this', 'is', 'the', 'first', 'sentence', 'for', 'word2vec'],
['this', 'is', 'the', 'second', 'sentence'],
['yet', 'another', 'sentence'],
['one', 'more', 'sentence'],
['and', 'the', 'final', 'sentence']]
# 训练模型
model = Word2Vec(sentences, min_count=1)
# 模型参数
print(model)
# 词汇
words = list(model.wv.key_to_index)
print(words)
# 一个词的访问向量
print(model.wv['sentence'])
# 保存模型
model.save('model.bin')
# 加载模型
new_model = Word2Vec.load('model.bin')
print(new_model)
运行结果: