学习重在与理论在实践中的运用,数据分析更为如此。而我们所知的数据分析包括很多的理论知识,简单的有统计学中的参数与非参,复杂的有机器学习中的神经网络和支持向量机。在学习的过程中我们不可能在一开始就把这些理论全部弄清楚,需要理论与实践反反复复的去磨,才能把这些融汇贯通。

比如说学习一些统计学理论,我们从刚开始的数据分类开始学,一章一章的学到多元线性回归,这算基础统计学的理论学习完成了。但是我们真的会进行简单的数据分析吗?恐怕不可能吧?给你一个调查问卷,你能分析出它们变量的类型吗?如何确定它们是否是随机的?如何确定该连续性变量是正态分布?如何去除缺失值和异常值?这些都是我们在理论书上我们无法学习到的,只能通过实践去解决。

对于实践,我个人认为用你最熟悉的统计软件去实现统计理论较好,如果没有最熟悉的,可以用最简单的统计软件。原因是你不需要花很多时间去学习软件的操作,我就是通过SPSS去学习的,SPSS够简单,熟悉EXCEL的人对SPSS没有排斥。

在实践的过程中,你会发现有很多地方你毫无思路,说明你的理论知识有欠缺,比如在你想构建一个多元线性回归的模型,但你毫无头绪,不知道从何开始,这时候你就得去翻翻理论书,书上一般都会把多元线性回归的步骤和注意事项明确的写出来,你只要多去看看,多去想想就能理解了。

其实,在学习过程中,最忌只沉浸在理论或实践中,闭门造车了。只学数据分析的理论,你不可能去学会真正的分析;而只知道去操作,不去学数据分析理论,你根本无法提高自己的高度。

总结一下,学习的过程:理论的大概了解——最简单的软件去实现——出现问题,回看理论书籍——去实现。结果是:你统计理论掌握了,这个软件也掌握了,然后你用你掌握的统计理论知识,去学习新的统计软件就简单了。