一、实训1 读取并查看某地区房屋销售数据的基本信息
1、使用read_csv函数读取“某地区房屋销售数据.csv”文件,创建DataFrame对象housesale
首先引入第三方库,numpy和pandas
import numpy as np
import pandas as pd
使用read_csv()函数读取文件,指定路径。在这里可能会报错,将文件用记事本打开,看左下角的编码,通过encoding指定编码格式。
housesale=pd.read_csv('D:\\Jupyter\\第三章\\tmp\\某地区房屋销售数据.csv',encoding='ANSI')
housesale
2、使用三种方式查看housesale前5行数据
使用head()函数,loc和iloc切片的方式获得前五行数据,注意的是,loc传入的是行索引名或列索引名,iloc传入的是索引的位置;
housesale.head()
housesale.loc[:4,]
housesale.iloc[0:5]
3、使用三种方式查看housesale中地区邮编、房屋类型两列数据
housesale.loc[:,['地区邮编','房屋类型']]
housesale.iloc[:,[1,3]]
housesale[['地区邮编','房屋类型']]
4、使用ndim、shape、columns属性分别查看数据的维度、形状以及所有特征名称
housesale.ndim
housesale.shape
housesale.columns
5、使用loc()方法对房屋类型为单身公寓(unit)的数据进行查询
使用loc方法,可以进行条件查询
housesale.loc[housesale['房屋类型']=='unit']
6、使用groupby()方法和get_group()方法对房屋类型为单身公寓(unit)的数据进行查询
group=housesale.groupby(by='房屋类型')
group.get_group('unit')
二、实训2 提取房屋出售时间信息并描述房屋价格信息
7、使用to_datetime函数转换房屋出售时间字符串
housesale["房屋出售时间"]=pd.to_datetime(housesale["房屋出售时间"])
housesale.dtypes
8、获取房屋出售时间中的年份信息
housesale["房屋出售时间"].dt.year
9、使用mean、max、min、mode函数分别计算该地区房屋价格的均值、最大值、最小值和众数
housesale.agg('mean').loc['房屋价格']
housesale.agg('max').loc['房屋价格']
housesale.agg('min').loc['房屋价格']
housesale.mode().loc[:,'房屋价格']
10、使用describe()方法计算房屋价格数据的非空值数目、均值等统计量
housesale['房屋价格'].describe()
三、实训3 使用分组聚合方法分析房屋销售情况
11、使用apply()方法提取地区邮编特征中数据的前两位,如提取“2615”中的“26”,并新增new_postcode特征存储提取的内容
housesale['new_postcode']=housesale['地区邮编'].apply(lambda x :str(x)[0:2])
housesale
12、根据新地区邮编new_postcode进行分组,使用count函数计算出每个地区的房屋售出总数
group['new_postcode'].agg('count')
13、根据房屋类型进行分组,使用agg()方法计算分组数据中房屋价格均值
housesalegroup=housesale.groupby(by='房屋类型')
housesalegroup.agg({'房屋价格':'mean'})
14、根据房屋类型进行分组,使用transform()方法计算分组数据中房屋价格均值
housesalegroup['房屋价格'].transform('mean')
15、获取不同的房屋类型中售价最高的房屋销售信息,导出到当前文件夹下,文件名为“姓名+学号.csv”,例如:张三2021001.csv
housesalegroup.agg({'房屋价格':'max'}).to_csv("D:\\Jupyter\\第三章\\tmp\\xm.csv",sep=':')