EXCEL与数据分析
1.EXCEL数据获取
①数据导入
录入方式 | |
从文件导入 | 支持txt,xml,csv等文本文件;数据对齐或者拥有分隔符,均能很好的导入 |
从数据库 | 支持自家公司的Access数据库,SQL Server数据库 |
从网页加载 | 可获取大多数网站网页数据,需进一步进行数据清洗 |
②数据快速录入
- 用于快速填充的自定义列表
- 填充柄快速填充+[ 右键菜单辅助]
- CTRL + ENTER 多表格快速录入
- 针对重复文本录入:右键菜单: ‘从下拉列表选择’
- 录入区域构建数据验证:序列
- 自定义数据格式:以简代繁,ex. [=1]“男”;[=0]“女” 以0,1代替实现快速录入
- 以宏VBA来替换重复性动作
2.EXCEL数据清洗
数据清洗 | |
定位条件 | 定位:空值,公式,差异值,条件格式,数据验证等,快速定位空值,异常值,进行处理 |
查找替换 | 定向替换数据 ,使用时需确认是否需要 ‘单元格匹配’ |
选择性粘贴 | 可选择性粘贴数据;粘贴过程进行运算;跳过空值,行列转置 |
数据分列 | 通过步长,分隔符进行分列 |
数据类型转换 | 主要是文本与数值型转换,日期格式标准化 |
文本转换为数值常用方式:
- = A1 * 1
- = A1 / 1
- = A1 + 0
- = A1 - 0
- = – A1
- =VALUE(A1)
3.EXCEL数据分析
分析方式 | |
合并计算 | 多工作表字段一致时,可以进行合并计算进行汇总 |
组合功能键 | ALT+=: 汇总数据;CTAL+SHIFT+方向键 : 快速选中数据; SHIFT+F8: 开启‘添加选定模式’ |
函数公式 | 数学函数,统计函数,日期函数,文本函数,逻辑函数,查询函数 |
数组,数组公式 | 基于数组的快速运算Ctrl+Shift+Enter |
常用函数:
统计函数 | 数学函数 | 日期函数 | 文本函数 | 逻辑函数 | 查询函数 |
max,min,average,sum | abs(number)取绝对值 | now()当前日期时间 | text(format,“your format”)格式化 | if(logical_test,true,false) | column()列号 |
count(value1,value2…)计数 | int(number)取整 | today()当前日期 | len(text)字符个数 | and(logical1,logical2…) | row()行号 |
counta(value1,value2…)计数非空 | mod(number,divisor) 取模 | year(serial_number)取年 | rept(text,num_times)重复文本 | or(logical1,logical2…) | index(range,row,column)返回单元格内容 |
countif(criteria_range,criteria)条件计数 | rand()随机数0~1 | month(serial_number)取月 | find(find_text,within_text,start_num)查询字符位置 | not(logical) | offset(基点,行偏,列偏,行高,列高)范围取值 |
countifs(criteria_range1,criteria1,criteria_range2,criteria2…)多条件计数 | randbetween(m,n)随机数m~n | day(serial_number)取日 | choose(index,value1,value2…)根据index返回value | indirect(‘str’)字串引用 | |
sumif(range,criteria,sum_range)条件求和 | round(number,num_digits)四舍五入 | date(year,month,day)合成日期序列 | left(text,num_chars)左取字符 | sumproduct(array1,array2…)数组乘积和 | |
sumifs(sum_range,criteria_range1,criteria1,criteria_range2,criteria2…)多条件求和 | roundup((number,num_digits))向上舍入 | edate(start_date,months) | right(text,num_chars)右取字符 | lookup(1,0/(array1*array2…),array) | |
frequency(data_arry,bins_arry)分段求频率 | rounddown(number,num_digits)向下舍入 | eomonth(start_date,months)月最后一日 | mid(text,start_num,num_chars)取字符 | vlookup(str,array,n,0/1)列查询 | |
rank(number,ref,order)排名 | datedif(start_date,end_date,unit)计算日期差 | replace(old_text,start_num,num_chars,new_text)替换 | hlookup(str,array,n,0/1)行查询 | ||
large(array,k)第k大的数 | substitute(text,old_text,new_text,instance_num)替换指定字符 | match(str,range,0/1)返回目标位置 | |||
small(array,k)第k小的数 |
常用计算函数:
LN(number) | 计算自然对数 |
MDETERM(array) | 计算方阵行列式 |
MINVERSE(array) | 矩阵求逆 |
MMULT(array,array) | 矩阵积 |
MULTINOMIAL(number1,number2,…) | 多项式回归 |
MUNUIT(dimension) | 生成指定维度单位矩阵 |
SQRT(number) | 平方根 |
统计专用函数 |
快捷功能:
Excel提供的快捷排序,筛选。数据透视表功能。
4.EXCEL数据挖掘
1.数据概括性度量:
集中趋势:
众数: Mo = mode(array) 计算一组数值型数据的众数。
中位数和分位数:Me = median(array) 计算一组数值型数据的中位数。
四分位数 QL = quartile(array, quart) 计算一组数值型数据的众数。(0,1,2,3,4)
平均数:平方平均数≥算术平均数(简单平均,加权平均)≥几何平均数≥调和平均数
5.EXCEL数据展示
excel通过:数据透视表+图表进行可视化展示,通过增加切片器使展示实现动态化。
分类数据图示:
条形图(纵置也称柱形图):适用于数据对比
帕累托图:柱形各类占比,折线累积百分比。 市场占有率较为适用。
饼图(复式饼图):分类对比
环形图(多环):饼图升级版,同时展示不同feature的分类占比
数值型数据图示:
茎叶图:用于反映原始数据分布的图形,适用小量数据观察 (Excel不支持,SPSS可绘制)
箱线图:用于观察数据分布,及异常值筛查 (Excel不支持,SPSS可绘制)
直方图:主要用于展示分组数据,用面积来表示频率分布
线图:时间序列数据,常用,反映现象随时间的变化的特征
散点图:展示数据2个特征数据
气泡图:展示数据3个特征数据,(加上颜色可展示4个特征)
雷达图(蜘蛛图):展示数据n个特征数据