好久没有更新读书系列的文章了,今天推荐的这本《深入浅出数据分析》是一本非常适合数据分析行业入门的读物,以章回小说的方式由浅入深地讲述数据分析从业人员要用到的方法,从实际案例出发,告别晦涩难懂的概念。文章末尾有关于这本书的知识图谱总结。
深入浅出系列,同系列的还有《深入浅出统计学》、《深入浅出Python》、《深入浅出SQL》等,当然这本书读完以后强烈建议接着读《深入浅出统计学》,加深对数据分析和统计学的理解和巩固。
作者:[美] Michael Milton
豆瓣评分:7.5
出版日期:2012年
推荐指数:5颗星
数据分析的流程
第一章讲述了数据分析的流程,从提出问题到做出决策,中间的过程具体到每一步,和我们现在一直在强调的流程其实大差不差,数据是无处不在的,如何将原始数据转变成推进工作的妙策,这是数据分析师们努力的目标。
实验:检验你的理论
这一章以一个咖啡店销量下降为引子,找出原因并给出提高销量的方法。这里用到了统计与分析最基本的比较法和观察法,分析出引起销量下降的原因,同时对各种策略进行实验,找出最有效的策略。
最优化:寻找最大值
很多时候我们想要最大限度地达到目标,就需要最优化的思路,这一章通篇都在讲述如何实现最优化问题,通过构建目标函数,并绘制图形,得到可行区域,其实就是高中数学的知识点,只不过这本书里将它讲的更加细化,它是假设读者几乎没有什么数学基础来写的这本书,所以在读的过程中,你会发现其实一个很明了的数学公式他都要讲半天,这样的好处是,当初可能我只是死记硬背了公式,但现在我可以看到它背后的原理。
假设检验、贝叶斯统计、主观概率
当我们需要用复杂多变的数据来预测未来时,不能只着眼于眼前表面的数据,而要通过仔细推理,评估大量备选答案,假设检验最核心的还是证伪法,通过数据分析的整理,评估备选答案,整合信息。这本书里关于假设检验的讲解比较浅白了,目的是让大家理解假设检验在实际案例中的应用,如果想要更深入地理解,还是要阅读《深入浅出统计学》这本书。
贝叶斯规则是利用基础概率和波动数据解决直接概率问题的方法,这里也引申出了一个强相关的知识点:条件概率,概率的问题从我们上学起就一直在学,但它真的运用到实际生活中到底是怎样的呢?这本书里举的人们患某种流感的阴性、阳性、假阴性、假阳性的概率的例子就很通俗易懂,也很符合当下实际。
下一章主观概率(信念数字化),看标题也很好理解了,主观概率就是将严谨融入直觉的简便方法,其实这一章主要讲的是如何利用标准偏差评估数据分布,以及如何修正主观概率。
直方图、回归、误差、关系型数据库
后面几章开始讲解直方图的制作、通过回归分析法预测某些结果值、指出预测的误差范围以及关系型数据库的基本概念。其中一个预测加薪幅度的例子简明扼要地讲解了相关性、散点图、回归线、外插法、残差、回归线的均方根误差等概念,最后做出了一个比较完美的加薪模型。
这本书里用到的工具主要是Excel和R,这本书很厚,有48万字,但可读性很强,因为都是以实际案例开头,讲述一个概念,个人觉得挺适合想要转行的文科生阅读的,我也做了一个本书知识点的总结的思维导图,如下图所示:
@ 作者:可乐
@ 公众号/知乎专栏/头条/简书:可乐的数据分析之路