python实践



前言:本文主要针对kaggle上的一份

数据集,内容是关于youtube热点视频的分析,用python进行了一些分析,主要用到的是pandas的一些方法,结合案例加以操作,巩固python知识。


# 引入模块
import pandas as pd
import arrow
from matplotlib import pyplot as plt
%matplotlib inline

# 导入数据集,因为数据是按国家/地区分开的,鉴于全部数据量太多,本文只选择了四个国家/地区的数据
# 导入youtube数据,将不同地区的文件拼接在一起
data = pd.DataFrame()
for reg in ['CA', 'DE', 'FR', 'IN']:
    df = pd.read_csv(r'./data/youtube-new/{reg}videos.csv'.format(reg=reg))
    df['country'] = reg
    data = pd.concat([df, data], ignore_index=True )

# 观察数据结构,可以看到description包含较多的空值
data.info()

# 数据清洗
# 将趋势日期进行转换
data['trending_date'] = data['trending_date'].apply(lambda x: arrow.get(str('20'+x[:2]+'-'+x[6:8]+'-'+x[3:5])))
data['trending_year'] = data['trending_date'].apply(lambda x: x.year)
# 统计每一年有多少个视频量,及占比,可看出2017占24%, 2018占76%
video_num = data.groupby(['trending_year'])['video_id'].count().reset_index()
video_num['rate'] = video_num['video_id']/data['video_id'].shape[0]

# 描述性统计,流行视频的平均观看数802574.2,中位数为197466, 说明有一大流行视频的观看数量远小于平均数
data.describe()

# 是否成为流行视频需要大量的评论
# 将评论的数量划分为(0,100000),(100000,200000),(200000,300000),(300000,500000),(500000,800000),(800000,1000000),(1000000,1500000),(1500000,2000000),(2000000,5000000),(5000000,10000000),100000000+等
bins = [0,100000,200000,300000,500000,800000,1000000,1500000,2000000,5000000,10000000,20000000,50000000,100000000,1000000000]
cats = pd.cut(data['views'], bins=bins, right=False).value_counts()

# 观察views的分布情况,可以看到观看量达100万以上的,仅占了16%而已,也就是不一定流行视频就必须观看数特别高
views_trend = {}
for i in range(1,101,1):
    views_trend[i] = data['views'].quantile(i/100)

# 那个国家/地区流行视频数量最多,可以看到IN相对很多
views_num_country = pd.pivot_table(data,index='country', values='video_id',aggfunc='count').reset_index().sort_values(by='video_id')

# 被最多喜欢的视频是哪个及视频链接缩略图
most_like = data.groupby(['video_id','thumbnail_link'])['likes'].sum().reset_index().sort_values(by='likes',ascending=False)
# 也可以直接用max()
most_like = data[data['likes'] == data['likes'].max()]

# 流行视频中标签最多的词是什么
tags_num = data['tags'].value_counts()
tags_num

# 观看数、喜欢、不喜欢、评论数的相关性?
releation = data[['views', 'likes', 'dislikes', 'comment_count']].corr()

除了以上的分析过程,我也进行了相关的其他分析,比如可以进行如下分析:

  1. 趋势视频标题的长度是多少?这个长度与视频的流行有关吗?
  2. 趋势视频标题中最常见的词是什么?
  3. 哪些YouTube频道的趋势视频数量最多?
  4. 哪个视频类别(如娱乐、游戏、喜剧等)的趋势视频数量最多?
  5. 什么时候发布了趋势视频?一周中的哪一天?一天中的什么时候?
    自己在学习pandas过程中感觉在分析过程中比较重要,使用频率相当高的方法应该属pivot_table,这也可能是以前使用数据透视表比较多的缘故吧。

可能刚开始现在对python用的还不够多,虽然只是用了一些简单的方法,但也花了点时间去整理学习,希望自己坚持下,一步一步来。