上一篇文章给出了数据的收集过程描述,主要给出了互联网领域下对于数据收集应该看重的侧重点。这章主要描述数据的展示:面对杂乱无章的数据,如何给出一个合理的展示,采用直观有效的方法对数据进行描述。是后续各项统计分析工作的一个必备工具。
针对同样一份数据,描述方式主要有3种:文字、表、图。
基本术语
- 列联表【contingency table】
- 由两个或两个以上的变量交叉分类的频数分布表
- 交叉表【cross table】
- 二维的列联表
- 累计频数【cumulative frequencies】
- 将各有序类别或组的频数逐次累加起来得到的频数
- 频数分布【frequency distribution】
- 把各个类别以及落在其中的相应频数全部计算并列出,并用表格形式表现出来。
- CDF【cumulative distribution function】
- 累计分布函数
工具选择
- Excel、SPSS、matlab(一直很纠结的问题)
- 从数据到最终图形展示,实际上会经历如下过程:原始数据-->数据filter-->数据compute->数据show。中间两个步骤对于外部来说,应该是透明的。因此,需要一个能够支持自动化的数据展示。
- 自动化的优劣性
- Excel:适合PM使用,RD将生成的结果给PM,PM可以使用最大众化的工具Excel来生成各种图形,参与到自动化过程比较复杂;
- SPSS: 对于图形展示可以说SPSS已经做的相当不错,能帮助你做出很多分析,但是实现自动化却不是很好的方式,虽然也的确找到了可以集成的方式:SPSS- python integration package。
- matlab:当然在统计分析时有其巨大的优势性,但是如何想和matlab结合的话,只能变相的通过替代品来实现,如scipy、matplotlib、numpy。
- R:R为第三方提供了python使用接口,利用R可以较好的集成上述工作,并且能够对于数据挖掘有很好的支持。值得尝试。
- 综上所述,使用python和R的结合来实现自动化,是一个不错的选择!
体会
- 对于数据分析来说,我们通常会得到一串格式化后的数据,具体表征就是基于用户的在产品结构、类别体系、指标体系三者上的一种组合关系。
- 产品结构
- 这是对互联网业务的深层次了解,通过思考可以较好的定位产品的侧重点
- 类别体系
- 也就是基于产品和用户的类别划分。从产品的角度,主要是看产品的外在特征和关注点;从用户的角度,主要是看用户属性与用户满意度。这些类别体系是分析的核心和关键
- 指标体系
- 任何一套指标体系,都可以最终归结到“频数”和“比率”的基本词汇上。在这个基本词汇上去关注页面的点击和展现,进行用户行为参与上的指标划分。
- 图表选择原则
- 面 对着那么多图的展现方式,如何去选择呢?本章主要是根据数据在不同计量尺度分类下的图的使用方式给出了描述。个人最喜欢的就是箱线图,能够将数据的基本情 况给出一个大体的描述。还是那句话,这章描述的方法还是一个最底层被使用的组件库,在具体自动化使用时,只是作为决策树中的一个判断条件的输出,不会过分 追求基于这层的太多细节,目的只有一个:只要说明问题解释到位就OK!