这是一套完整的数据分析流程,感兴趣的伙伴一定要看到最后。
数据分析流程
数据分析的流程和思路主要分为五部分,分别是 提出问题、收集数据、数据处理和清洗、数据分析以及可视化。
那我们先从提出问题和数据收集开始,一般想收集数据主要有四种来源:观测、统计、问卷、调研、数据库以及网络爬虫。
三、数据清洗
1数据预处理
#导入数据分析包
import pandas as pd
import numpy as np
▲理解这份数据集
▲结合代码来看数据.
2调整数据类型
3修改列名
4选择部分子集
5逻辑问题需要筛选
6格式一致化
▲大小写/去除空格
▲去除字符串符号 去乱码
▲空格分割
7处理缺失值
四、数据分析
那么下面就跟大家介绍一下Pandas和Numpy两个数据分析包。
Python这种编程语言在数据处理的许多方面都有非常多成熟的已经编写好的模块,只要几行代码就能解决一个复杂的操作,可以说是站在前人的肩膀上起飞。
在python中Numpy、pandas这两个就是前人的肩膀。Numpy作为一个科学计算模块,提供了一个叫做n维数组的数据类型,可以实现复杂的数据批量计算,而且内置大量函数,让计算更加高效科学,甚至支持线性代数、特征向量、广义逆矩阵、超几何分布。
另一个强大的模块是pandas,它提供了series和Data Frame这两种数据类型,和一大堆用于操作大型数据集的内置函数,为你的数据分析插上了想象的翅膀。例如从几万行混合脏数据的视频会员订单数据中挖掘用户购买规律,制定简单的量化交易策略,衡量股票投资收益,甚至设立入门的数据挖掘和数据预测等领域,获得深入洞察,而这些都依赖于Numpy和Pandas的数据类型。
五、数据可视化
大部分人对形状、颜色的敏感度要高于数字,所以数据可视化能让人快速的理解数据,发现问题或规律,找到数据背后隐藏的价值,从数据中发现关系、规律和趋势。
Python中常用的可视化工具matplotlib和它的子模块pyplot可视化图表有很多种,比如日常工作中常见的折线图、柱狀图、散点图等。根据数据之间的关系和想要展示的目的可以將图表归纳为5大类:趋势、分布、构成、比较和联系。
Matplotlib学习方式:从examples入门学习Python的2D绘图库,仅需要几行代码,便可以生成绘图,直方图,功率谱,条形图,散点图等。而且代码官网都已经写好给我们啦!只要复制粘贴改数据就可以咯~
plotly-Python数据可视化开发库,它提供了完善的交互能力和灵活的绘制选项,官网有很全面的代码教学。