下载数据包

  链接:https://grouplens.org/datasets/movielens/1m/

  解压:

imdb电影数据分析 电影 数据分析_用户信息

  四个文件分别是数据介绍,电影数据表,电影评分表,用户表

进行电影数据分析

进入ipython,新建一个项目

从用户表读取用户信息

imdb电影数据分析 电影 数据分析_imdb电影数据分析_02

  警告原因,C语言实现的引擎不支持某些特性,最终用Python引擎实现

 打印列表长度,共有6040条记录

imdb电影数据分析 电影 数据分析_用户信息_03

  查看前五条记录

imdb电影数据分析 电影 数据分析_用户信息_04

  其中age对应的年龄段在readme表中有对应说明

  同样方法,导入电影数据表,电影评分表

 

imdb电影数据分析 电影 数据分析_数据分析_05

  查看导入数据数量,评分表为1000209条,电影数据表有3883条

imdb电影数据分析 电影 数据分析_数据_06

  查看评分表前五条数据

imdb电影数据分析 电影 数据分析_imdb电影数据分析_07

  查看电影数据前五条

imdb电影数据分析 电影 数据分析_imdb电影数据分析_08

 

  导入完成之后,我们可以发现这三张表类似于数据库中的表

  要进行数据分析,我们就要将多张表进行合并才有助于分析

  使用merge函数合并   

imdb电影数据分析 电影 数据分析_数据分析_09

  先将users与ratings两张表合并再跟movied合并

  查看合并后的表长度和前十条数据

imdb电影数据分析 电影 数据分析_用户信息_10

 

   合并后的每一条记录反映了每个人的年龄,职业,性别,邮编,电影ID,评分,时间戳,电影信息,电影分类等一系列信息

  比如我们查看用户id为1的所有信息

imdb电影数据分析 电影 数据分析_imdb电影数据分析_11

 

 查看每一部电影不同性别的平均评分

  运用数据透视

  

imdb电影数据分析 电影 数据分析_用户信息_12

  表中结构为每一部电影男性跟女性的评分平均值

  查看电影分歧最大的那部电影

  加一列评分差值

imdb电影数据分析 电影 数据分析_imdb电影数据分析_13

 

  按照diff排序

imdb电影数据分析 电影 数据分析_数据_14

  查看评分最多的电影

  查看最热门电影

imdb电影数据分析 电影 数据分析_用户信息_15

  查看最高分电影

  先算出每部电影平均得分

imdb电影数据分析 电影 数据分析_数据_16

  对电影平均得分排序

imdb电影数据分析 电影 数据分析_imdb电影数据分析_17

  当然,从严格意义上仅仅通过单一条件电影评分高低我们还不能判断这部电影是否是一部真正的好电影,因为评分均分跟观影人数也有关系

  先按照热度找出热度高的电影,有207部电影符合条件,然后我们可以在评分数据透视中筛选出符合条件的数据

imdb电影数据分析 电影 数据分析_用户信息_18

imdb电影数据分析 电影 数据分析_数据分析_19