在对读入的数据进行必要的行列修剪以及整体描述后,接下来我再进一步,对数据进行一些简单的行列计算。今天就讲一讲简单的行列计算方法。
首先还是把数据读进来,并做适当的修剪:
import pandas as pddata=pd.read_excel('D:/temp/员工综合绩效分析.xlsx',sheet_name='综合绩效分析')data1=data[['班组','姓名','性别','平均处理时长','月度接听量','质检成绩']]
然后我们在数据集的最右侧增加一列,数据来自已有数据的列计算:
data1['月度有效工时']=data1['平均处理时长']*data1['月度接听量']
这句命令会在数据的最右侧增加一列名为“月度有效工时”的数据列,其数值则是“平均处理时长”与“月度接听量”对应想乘的值。结果如下:
那么我们如何想要把计算列插入到指定位置而不是最后面应该如何操作呢?这就用到了Pandas的insert插入命令。先看代码:
data1.insert(1,column='月度有效工时',value=data1['平均处理时长'] * data1['月度接听量'])
第一个参数1指定新数据列插入在列索引1的位置,也就是第二列的位置,因为Python中的索引都是从0开始的。后面两个参数大家应该很容易看懂,就不解释了。结果如下:
那么行计算呢?对于纵向每行数据的计算(其实本质上还是列计算),Pandas也有着一系列简单直白的命令。先把代码放在这里:
data1.mean()data1.平均处理时长.mean()data1.平均处理时长.agg(['count','sum','min','max','mean'])
第一行是直接对数据集data1中所有的数值型数据进行求均值操作。
第二行是对data1数据集中的“平均处理时长”列进行求均值操作。
第三行是对data1数据集中的“平均处理时长”列进行计数、求和、最小、最大以及均值的批量求值操作。
懂了这三行代码,就可以举一反三,灵活地对目标数据列进行基本的统计分析操作了。