数学建模标准流程包括商业理解、数据理解、数据清洗、建立模型、部署应用留个流程,具体如下:

数据分析 建模 数据分析建模过程_字段

我们将数据建模标准流程转化为可执行可实施部分,那就是以下几个步骤:


商业理解

即对建模的项目需求和目标进行综合分析,对项目的可行性和数据条件进行评估,对业务进行梳理和深入了解,根据实际情况评估模型建立的价值。

以下主要介绍用KNIME(国外比较流行的数据挖掘建模工具,类似于SPSS Modelar工具)工具建立模型的操作步骤:

1.数据源导入

可以将不同格式的数据源导入建模,常见的有excel,CSV,TXT,file,zip等格式或直接连接SQL数据库,这几种方式都能将数据导入建模工具,并且导入的数据量级可以达到10万以上,100万也木有问题,基本能满足所有建模数据要求。

导入数据操作步骤:

1)打开  KNIME ,点击顶部file—new新建一个作业,点击左侧IO->XLS Reader(或其他数据源图标),将图标拖拽至建模区,如图所示:

数据分析 建模 数据分析建模过程_机器学习_02

2)右键双击XLS Reader图标,Browse本地数据源,点击确定。

数据分析 建模 数据分析建模过程_数据_03

execute运行之后,数据就成功导入KNIME系统,这时候可以通过Hilite table 节点查看导入的数据,如图所示:

数据分析 建模 数据分析建模过程_建模_04

2.数据处理

数据处理包括数据填充,数据标准化,数据转化和数据编码,即对原始数据进行数据噪音去除,字段类型转化,字段赋值和过滤等,主要目的是为最后的建模提供优质可信的训练数据集,尽量排除个别数据对整体模型结果的影响。也是数学建模过程中最重要的步骤之一,此部分占据整个模型工作量的60%以上。


数据分析 建模 数据分析建模过程_字段_05

数据分析 建模 数据分析建模过程_机器学习_06

数据分析 建模 数据分析建模过程_数据_07

数据分析 建模 数据分析建模过程_建模_08

数据分析 建模 数据分析建模过程_字段_09

数据分析 建模 数据分析建模过程_建模_10


(2)One to Many:  将一列中所有值的类别转换成好几列新值。如果对应这列单元格有指定的值则为1,否则为0,简单来说就是将一行数据转化为值为1或0的矩阵。

数据分析 建模 数据分析建模过程_机器学习_11

(3)String Manipulation: 字符串操作,删除一列的前导和尾随空格,或者一列衍生新值。


数据分析 建模 数据分析建模过程_字段_12

数据分析 建模 数据分析建模过程_机器学习_13

数据分析 建模 数据分析建模过程_机器学习_14


(5)Color Manager:给指定字段标识颜色,一般是目标字段标颜色,便于查看结果。

数据分析 建模 数据分析建模过程_建模_15

(6)Domain Calculator:更新数据的域值,通过限制数据于值的百分比来删除离散数据(最大值域或最小值域)。

数据分析 建模 数据分析建模过程_建模_16

通过以上节点可以处理基本的数据清洗和整理工作,可以建立简单的模型了,更高级的数据处理节点以后介绍。

3.数据建模

模型选择和模型评估

(1)数据分区

将数据分为训练数据和测试数据两个部分,选择节点Partitioning,可以对分区方式进行设置,示例:相对50%分区,使用随机种子。



数据分析 建模 数据分析建模过程_数据分析 建模_17

数据分析 建模 数据分析建模过程_数据分析 建模_18

数据分析 建模 数据分析建模过程_建模_19


算法参考:

(2)Naive Bayes

(3)kNN

(4)Logistic

参考文档:

(5)Decision Tree

(6)Neural Network

未完待续(明天)

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。


4模型优化和改进

未完待续(明天)

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。