数学建模标准流程包括商业理解、数据理解、数据清洗、建立模型、部署应用留个流程,具体如下:
我们将数据建模标准流程转化为可执行可实施部分,那就是以下几个步骤:
商业理解
即对建模的项目需求和目标进行综合分析,对项目的可行性和数据条件进行评估,对业务进行梳理和深入了解,根据实际情况评估模型建立的价值。
以下主要介绍用KNIME(国外比较流行的数据挖掘建模工具,类似于SPSS Modelar工具)工具建立模型的操作步骤:
1.数据源导入
可以将不同格式的数据源导入建模,常见的有excel,CSV,TXT,file,zip等格式或直接连接SQL数据库,这几种方式都能将数据导入建模工具,并且导入的数据量级可以达到10万以上,100万也木有问题,基本能满足所有建模数据要求。
导入数据操作步骤:
1)打开 KNIME ,点击顶部file—new新建一个作业,点击左侧IO->XLS Reader(或其他数据源图标),将图标拖拽至建模区,如图所示:
2)右键双击XLS Reader图标,Browse本地数据源,点击确定。
execute运行之后,数据就成功导入KNIME系统,这时候可以通过Hilite table 节点查看导入的数据,如图所示:
2.数据处理
数据处理包括数据填充,数据标准化,数据转化和数据编码,即对原始数据进行数据噪音去除,字段类型转化,字段赋值和过滤等,主要目的是为最后的建模提供优质可信的训练数据集,尽量排除个别数据对整体模型结果的影响。也是数学建模过程中最重要的步骤之一,此部分占据整个模型工作量的60%以上。
(2)One to Many: 将一列中所有值的类别转换成好几列新值。如果对应这列单元格有指定的值则为1,否则为0,简单来说就是将一行数据转化为值为1或0的矩阵。
(3)String Manipulation: 字符串操作,删除一列的前导和尾随空格,或者一列衍生新值。
(5)Color Manager:给指定字段标识颜色,一般是目标字段标颜色,便于查看结果。
(6)Domain Calculator:更新数据的域值,通过限制数据于值的百分比来删除离散数据(最大值域或最小值域)。
通过以上节点可以处理基本的数据清洗和整理工作,可以建立简单的模型了,更高级的数据处理节点以后介绍。
3.数据建模
模型选择和模型评估
(1)数据分区
将数据分为训练数据和测试数据两个部分,选择节点Partitioning,可以对分区方式进行设置,示例:相对50%分区,使用随机种子。
算法参考:
(2)Naive Bayes
(3)kNN
(4)Logistic
参考文档:
(5)Decision Tree
(6)Neural Network
未完待续(明天)
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
4模型优化和改进
未完待续(明天)
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。