• 1. 分别计算每年的电影数量
  • 2. 根据电影年份和数量画出折线图。



在课程开始之前,请大家下载

习题资源。

1. 分别计算每年的电影数量

解决这道题很简单,我们只需要使用groupby将数据按年份分组,然后对分组后的每个表格求某一列的非个数,就是对应年份生产的电影总量:

import pandas as pd
from matplotlib import pyplot as plt
data = pd.read_excel('aiqiyi.xlsx')
start=data.loc[:,'上映时间'].min() # 取出data中上映时间列的年份最小值作为起始年份
data=data.groupby('上映时间')
quan = data.count() # 每年的所有电影信息中各列的非空行数量
sta=quan.count() # 计算quan各列的非空数量,sta为Series类型
y=[]
for i in range(quan.shape[0]): # 以quan的行数为循环次数
    y.append(quan.iloc[i,1]) # 将每年的影片数量记录在列表y中
    print('{}年出产电影数量为{}部'.format(i+start,y[i])) # 输出每年的电影数量

先看看书出结果:

数据可视化李伊答案 数据可视化及答案_数据可视化李伊答案


看起来好像完成了要求,但是细看之下,原数据的截止年份是2016,可是我们输出的是2015。这是为什么呢?因为表格里本没有1987年的数据,然而我们是用i+start的方法求得的年份,i是个连续递增的数字,进而导致输出中1986你按之后的数据都出现了问题。解决这一问题最好的办法就是把表格中所有的数据按年份升序排列,然后取出年份一列,去重并保存为列表。而且y也可以直接使用iloc方法获得quan表格中的随意一列数据,随后通过values方法将这一列数据的内容除存起来:

import pandas as pd
from matplotlib import pyplot as plt
data = pd.read_excel('aiqiyi.xlsx')
df = data.sort_values(by='上映时间').loc[:,'上映时间']
df=list(set(df)) # 年份去重并转化为列表形式
data=data.groupby('上映时间')
quan = data.count()
sta=quan.count()
y=quan.iloc[:,1].values.tolist() # 将quan第一列取出,转化为数值并储存为列表
for i in range(quan.shape[0]): # 以quan的行数为循环次数
    print('{}年出产电影数量为{}部'.format(df[i], y[i]))

这样一来,问题就解决了:

数据可视化李伊答案 数据可视化及答案_数据分析_02

2. 根据电影年份和数量画出折线图。

由于之前我们已经拿到了年份和电影数量的列表,所以完成这个问题只需要一个plot方法即可:

for i in range(quan.shape[0]): # 以quan的行数为循环次数
    print('{}年出产电影数量为{}部'.format(df[i], y[i]))
plt.plot(df, y, color='green',linewidth=1,marker='o')
#标题设置中文
from matplotlib.font_manager import FontProperties
font = FontProperties(fname=r"c:\windows\fonts\msyh.ttc", size=10) # 设置中文的样式及大小
plt.xlabel('年份',fontproperties=font)
plt.ylabel('电影数量',fontproperties=font)
plt.title('1985-2016出产电影数量表',fontproperties=font)

plt.show()

数据可视化李伊答案 数据可视化及答案_折线图_03


这次的练习就到这里了,设置中文标题我们会在下节的内容中详细讲到,大家拭目以待吧