分类与预测


主要分类与预测算法



回归分析 确定预测值与其他变量关系。线性、非线性、Logistic、岭回归、主成分回归等


决策树 自顶向下分类


人工神经网络 用神经网络表示输入与输出之间的关系


贝叶斯网络 又称信度网络,是不确定知识表达和推理领域最有效的理论模型之一


支持向量机 将低维非线性可分转化为高维线性可分进行分析




主要回归模型分类



线性回归 因/自变量是线性关系 对一个或多个自/因变量线性建模,用最小二乘法求系数


非线性回归 因/自变量是非线性 非线性建模


Logistic回归 因变量为0或1 广义线性回归特例,利用Logistic函数将因变量控制0-1内表示取值为1的概率


岭回归 参与建模的自变量间具有多重共线性 改进的最小二乘法


主成分回归 同上 根据PCA提出,是参数估计的一种有偏估计




逻辑回归——Scikit-Learn


决策树——sklearn.tree;输出一个tree.dot文件,许安装Graphviz进行可视化


人工神经网络——keras



BP神经网络 信息正传播,误差逆传播


LM神经网络 给予梯度下降法和牛顿法的多层前馈神经网络,迭代次数少,收敛块,精度高


RBF径向基神经网络 能以任意精度逼近任意连续函数,输入层-隐含层是非线性,隐含层-输出成是线性,特别适合解决分类问题


FNN模糊神经网络 具有模糊权系数或输入信号是模糊两的神经网络,汇聚NN和模糊系统的有点


GMDH神经网络 也称多项式网络,网络结构在训练中变化


ANFIS自适应神经网络 NN镶嵌在一个全模糊的结构中,自动产生、修正、高度概括出最佳隶属函数和模糊规则



SVM——sklearn.svm


随机森林——sklearn.ensemble


朴素贝叶斯——sklearn.naive_bayes


建模的第一步都是建立一个空白的对象,然后设置模型参数,利用fit进行巡林啊,最后用predict方法预测结果,之后进行一些评估如score等



误差评价:绝对误差、相对误差、平均绝对误差、均方误差、均方根误差、平均绝对百分误差、Kappa统计、识别准确度、识别精确率、反馈率、ROC曲线、混淆矩阵



聚类分析


常用方法:划分方法、层次分析方法、基于密度的方法、基于网格的方法、给予模型的方法


常用算法:K-Means、K-中心点、系统聚类(多层次聚类)


评价方法:purity评价法(正确的比例)、RI评价法、F值评价法


聚类可视化工具——TSNE



关联规则:也称为购物篮分析,目标是找出各项之间的关系


常用算法:Apriori、FP-Tree、Eclat算法、灰色关联法



时序模式:给定一个已被观测的时间序列,预测该序列的未来值


常用模型:平滑法、趋势你合法、组合模型、AR模型、MA模型、ARMA模型、ARIMA、ARCH、GARCH模型及衍生


python主要时序算法函数:acf自相关,plot_acf画自相关系数图、pacf计算偏相关系数、plot_pacf画偏相关系数图、adfuller对观测值序列进行单位根检验、diff差分计算、ARIMA创建ARIMA时序模型、summary或summaty2给出ARIMA模型报告、aic/bic/hqic计算ARIMA模型的指标值、forecast预测、acorr_ljungbox检验白噪声



离群点检测


成因:数据源不同、自然变异、测量和收集误差


类型:全局离群点和局部离群点;数值型离群点和分类型离群点;一维离群点和多维离群点


检测方法:基于统计、基于邻近度、基于密度、基于聚类