作者 | 清风小筑

 

知乎,可以说是国内目前最大的问答类社区。与微博、贴吧等产品不同,知乎上面的内容更多是用户针对特定的问题分享知识、经验和见解。咱们编程教室就有不少读者是从知乎上了解到我们的。

 

那么,知乎上都有哪些“大V”用户?普通用户喜欢关注哪方面内容?我们利用 Python 对知乎上的部分信息进行了个采集,做了一份简单的统计。

 

这个统计也是我们用 Python 做网站数据分析系列的一部分,是 Python 爬虫和数据可视化的典型案例。代码、详细说明文档、数据均已上传,获取方式见文末,对这方面感兴趣的朋友可下载查阅。

 

 

 

大V的关联

 

首先给大家看的是知乎上粉丝数前50用户的关系图:

用Python关系图谱带你揭秘知乎大V_Python用Python关系图谱带你揭秘知乎大V_Python_02

 

用Python关系图谱带你揭秘知乎大V_Python_03

图中的线是用户之间的相互关注的关系。这三张图的差别只在圆圈的大小上,依次分别代表:粉丝数连入度(被图中其他人关注的数量)、连出度(关注图中其他人的数量)

 

比较明显的是,像知乎日报、刘看山、丁香医生这类普通用户关注较多的“机构号”,在大V中的受关注度并不高。

 

这张图是通过一个叫做 Gephi 的软件,基于 Python 采集下来的数据做出来的。其中圈的颜色是 Gephi 根据关联关系自动聚合的结果。(参考之前漫威角色关系分析文章)

在知乎这个案例中,“阵营”的划分并不像漫威那么明显,但可以发现机构号基本都被归在了一类,说明关注行为有一定的相似性(张佳玮躺枪)。

 

 

 

谁是大V

 

知乎的四大指标:关注、赞同、感谢、收藏。我们分别看下以不同指标排行的“头部用户”:

 

用Python关系图谱带你揭秘知乎大V_Python_04

用Python关系图谱带你揭秘知乎大V_Python_05

用Python关系图谱带你揭秘知乎大V_Python_06

用Python关系图谱带你揭秘知乎大V_Python_07

(点击可查看大图。截图仅取前20,完整见交互版本)

 

其中,张佳玮可以说是非常突出了。(这个名字好熟悉……还记得之前的虎扑分析吗?)

 

用Python关系图谱带你揭秘知乎大V_Python_08

用Python关系图谱带你揭秘知乎大V_Python_09

 

官方收录回答数,张佳玮还是遥遥领先,收录文章数也榜上有名。

 

如果不论质量,仅看数量的话:

 

用Python关系图谱带你揭秘知乎大V_Python_10

用Python关系图谱带你揭秘知乎大V_Python_11

 

知乎于2010年12月20日上线,到今年7月31日共3145天,轮子哥vzch平均每天要回答7个问题以上(怀疑给他发工资的是微软还是知乎……),而太平洋电脑网则平均每天发表12.8篇文章,真是有够努力!

 

把这几组数据合成了两张三维散点图:

 

用Python关系图谱带你揭秘知乎大V_Python_12

 

用Python关系图谱带你揭秘知乎大V_Python_13

 

图中选取的数据为关注数大于1万的用户。在项目里有可以交互的网页版本,可以更直观的查看这个分布图。

 

 

 

大V的热情在消退?

 

用Python关系图谱带你揭秘知乎大V_Python_14

用Python关系图谱带你揭秘知乎大V_Python_15

用Python关系图谱带你揭秘知乎大V_Python_16

用Python关系图谱带你揭秘知乎大V_Python_17

 

上面几张图是对目前关注数超10万的用户的历史发布数据进行的统计。从图上来看,2015年大V们更热衷于回答,后来则大都改去写专栏文章了。从趋势来看,似乎大V们发文的频率已不再增长。不过这并不能直接推断知乎的整体热度,也可能内容的产出更分散于不同用户了呢?这就只有知乎官方才有权威数据了。

 

用户爱看什么?

 

用Python关系图谱带你揭秘知乎大V_Python_18

用Python关系图谱带你揭秘知乎大V_Python_19

 

这些关注度最高专栏和收藏夹,里面有你关注的吗?

 

最后,这是一个以关注数超1万的用户的个人简介做出来的词云:

用Python关系图谱带你揭秘知乎大V_Python_20