一、实训1 读取并查看某地区房屋销售数据的基本信息

1、使用read_csv函数读取“某地区房屋销售数据.csv”文件,创建DataFrame对象housesale

 首先引入第三方库,numpypandas

import numpy as np
import pandas as pd

 使用read_csv()函数读取文件,指定路径。在这里可能会报错,将文件用记事本打开,看左下角的编码,通过encoding指定编码格式。

housesale=pd.read_csv('D:\\Jupyter\\第三章\\tmp\\某地区房屋销售数据.csv',encoding='ANSI')
housesale

2、使用三种方式查看housesale前5行数据

使用head()函数,loc和iloc切片的方式获得前五行数据,注意的是,loc传入的是行索引名或列索引名,iloc传入的是索引的位置;

housesale.head()
housesale.loc[:4,]
housesale.iloc[0:5]

3、使用三种方式查看housesale中地区邮编、房屋类型两列数据

housesale.loc[:,['地区邮编','房屋类型']]
housesale.iloc[:,[1,3]]
housesale[['地区邮编','房屋类型']]

4、使用ndim、shape、columns属性分别查看数据的维度、形状以及所有特征名称

housesale.ndim
housesale.shape
housesale.columns

5、使用loc()方法对房屋类型为单身公寓(unit)的数据进行查询

使用loc方法,可以进行条件查询

housesale.loc[housesale['房屋类型']=='unit']

6、使用groupby()方法和get_group()方法对房屋类型为单身公寓(unit)的数据进行查询

group=housesale.groupby(by='房屋类型')
group.get_group('unit')

二、实训2 提取房屋出售时间信息并描述房屋价格信息

7、使用to_datetime函数转换房屋出售时间字符串

housesale["房屋出售时间"]=pd.to_datetime(housesale["房屋出售时间"])
housesale.dtypes

8、获取房屋出售时间中的年份信息

housesale["房屋出售时间"].dt.year

9、使用mean、max、min、mode函数分别计算该地区房屋价格的均值、最大值、最小值和众数

housesale.agg('mean').loc['房屋价格']
housesale.agg('max').loc['房屋价格']
housesale.agg('min').loc['房屋价格']
housesale.mode().loc[:,'房屋价格']

10、使用describe()方法计算房屋价格数据的非空值数目、均值等统计量

housesale['房屋价格'].describe()

三、实训3 使用分组聚合方法分析房屋销售情况

11、使用apply()方法提取地区邮编特征中数据的前两位,如提取“2615”中的“26”,并新增new_postcode特征存储提取的内容

housesale['new_postcode']=housesale['地区邮编'].apply(lambda x :str(x)[0:2])
housesale

12、根据新地区邮编new_postcode进行分组,使用count函数计算出每个地区的房屋售出总数

group['new_postcode'].agg('count')

13、根据房屋类型进行分组,使用agg()方法计算分组数据中房屋价格均值

housesalegroup=housesale.groupby(by='房屋类型')
housesalegroup.agg({'房屋价格':'mean'})

14、根据房屋类型进行分组,使用transform()方法计算分组数据中房屋价格均值

housesalegroup['房屋价格'].transform('mean')

15、获取不同的房屋类型中售价最高的房屋销售信息,导出到当前文件夹下,文件名为“姓名+学号.csv”,例如:张三2021001.csv

housesalegroup.agg({'房屋价格':'max'}).to_csv("D:\\Jupyter\\第三章\\tmp\\xm.csv",sep=':')