数据分析的步骤:
- 第一步:明确问题
(1)在哪些城市找到数据分析师的机会比较大
(2)数据分析师的薪水如何
(3)根据工作经验不同,数据分析师的薪酬是怎么变化的
2. 第二步:理解数据
列名(字段):
在excel表格中,可以看到有些列名是互相遮挡住,所以我们要让列名都显示出来,方便后续分析。
怎么操作呢?
(1)全选表格
(2)开始-自动换行(可以显示超长文本,以便看到所有内容)
(3)选中一列,右击,设置列宽
EXCEL的数据类型:
(1)任意单元格上,单基鼠标右键,设置单元格格式 (2)数字 - 查看数据类型
如若显示[常规],指的是EXCEL会根据数据类型,自动转换成对应的格式。指的是所有的数据类型。
所以显示常规,是没办法判断是哪个数据类型。
通常情况,字符串类型- 左对齐;数字类型-右对齐
总的来说就是3种类型:字符串(文本类型)、数值、逻辑
- 这三种类型中,字符串类型是不能用于计算的。所以后面分析,可以将字符串处理成数值,方便分析。
3. 第三步:数据清洗
数据清洗的目的,是为了把数据改变成我们喜欢的样子,以便于后续探索、分析。
- 选择子集
隐藏一列
取消隐藏列
- 列名重命名
双击列名修改
- 删除重复值
删除重复项
- 处理缺失值
查找缺失值
定位缺失值
定位出缺失值后,可手动补全,这适用于缺失值比较少的情况。
若缺失值较多,可按以下这样处理
补全缺失值
- 一致化处理
因为分列,会多出来一列,所以可以先复制到最后一列处理
分列过程
分列效果
EXCEL的常用函数:
要变成上图效果,要先使用分列功能,变成2列。再使用替换功能,将k替换成空白,也就是删除k。
用函数求平均值:
选中要插入函数的单元格
小技巧:双击十字架,会自动填充整列的平均值
查找和字符串截取函数:
Find函数
如上图,FIND函数,找到第一个k的索引值。
截取字符串:LEFT、RIGHT、MID
截取字符串
- 数据排序
- 异常值处理
这一步要用到数据透视表
插入数据透视表
将数据排序
将数据降序排序,发现数据分析师的数量最多。不是数据分析师的,都归为异常值
用函数判断是否为数据分析职位
筛选出“是”的部份,新建表格
4. 第四步:数据分析或者构建模型
某一类问题
(1)分析一:去哪个城市工作
不同城市-不同年限 招聘数目
降序排列
按百分比显示
(2)分析2:对薪水进行描述统计分析
此时需要安装excel的数据分析功能
安装步骤如下:
数据分析-描述统计:计算平均薪水的描述统计
用数据透视表看不同城市的 平均薪水比较
5. 第五步: 数据可视化
致谢:
怎样用 Excel 做数据分析?www.zhihu.com