最近一直在听周杰伦的歌,于是想拿Python分析一下周杰伦歌曲的各项数据。可是熟悉的人应该知道,Python爬取简单,但是分析起来是很困难的,SQL语句、Pandas和Matplotlib齐上阵,一般人也不会,学起来也需要花不少时间。于是我想到了一种新的方式,Python爬取+BI数据可视化分析,前者速度快,后者步骤简单直接拖拽,两者配合,简直天下无敌!
一、分析哪些数据?周杰伦啊!我的青春!分析的维度可以有很多。我想看看他的每首歌都适合什么季节听,歌词里出现最多的词又是什么,作词人和作曲人又分别是谁多一点,哪些歌适合失恋听,哪些歌适合热恋听....太多了!
首先我们先进入到我们需要抓取的内容的地址:网易云音乐的首页,我们的目的是抓取周杰伦的所有歌曲,歌词,以及评论,那我们在搜索处输入周杰伦。
得到这张图,我们发现这里面只有最多50首歌(很多人分析网易云的歌曲就只选取TOP50),我们想要的是全部,所以这个URL不符合要求,我们继续寻找其他的URL地址。我在这里花了不少时间,最后找到了一个间接的方法,首先抓取周杰伦的全部专辑信息,然后通过专辑信息再去寻找全部歌曲。
我们再看header里面有什么,这里面的string我们不用管了,因为它已经在我们的url里面了,我们只需要看request headers 这个就是我们给服务器发送的东西。
代码部分:
具体结果如下:
利用同样的方法,我们也可以分析出歌曲信息、热评信息,具体代码都在文末,最终的数据量在30W左右~
三、用BI进行数据可视化分析
近几年冒出来的BI之秀,都在强调敏捷、自助式,一改传统BI工具SAP BO、IBM家的cognos独占市场的局面,这是好事,也证明商业智能这个领域在不断受到重视。
BI产品如何选型?
价格:在经费允许的范围内,做到最高的性价比。
产品的成熟度:成熟度高,实用性强是大多数企业的需求所在,一般来说成熟度和产品存在时间和客户数量成正比,因为已经经过了市场的检验。
产品的快速部署:对于快速上线很重要。
开发功能:是否够友好,是否够敏捷,业务人员能否直接使用。
针对以上几点,再加上自己的调研,发现Tableau和FineBI是BI界的两款顶尖工具。Tableau可视化探索分析很赞,还带有语音版,但是因为是国外产品,多为代理商,服务得不到保证,且操作方式不适合小白使用;同时,企业用多并发价格贵。FineBI是国产品牌,也是国内为数不多能占据世界领先地位的数据工具,自带ETL,可视化很酷炫,主打业务人员自助式分析,企业版价格也是很良心,个人用免费。
FineBI不仅有精美的可视化分析,它的操作过程也十分地简单。
有人会说Excel也不错,我建议你醒醒。Excel做数据可视化根本行不通,数据量太大会卡死,VBA也需要编程,图表的种类还特别特别少.....1、有哪些悲伤的歌
当年周杰伦靠着双节棍火遍天下,但细细分析就会发现,其实他的歌都是主打悲伤情歌,这里分析出了他情绪较为低落的几首歌,建议失恋的人不要听(滑稽脸)。
2、有哪些欢快的歌
当然了,有情绪低落的,就有让人开心的。比如稻香,就是个很欢快的曲子,还记得家是惟一的城堡,随着稻香河流继续奔跑....小编堪称铁粉。
3、热度排名
因为都是比较老的歌了,热度也不会有上升,但是依然是经典!《说好不哭》是周杰伦的新歌,当晚上线直接导致QQ音乐崩溃,可见其影响力。
4、季节排名看看周董都会在哪些季节发布,不用分析也知道是在秋天,情歌可能在秋天才更有意境吧(我瞎猜的)。
5、作词人占比一提到周杰伦歌曲的作词,大家第一个想到的肯定是方老师,但是拿FineBI分析之后发现,周杰伦自己也是一个作词天才。
BI产品的使用关键还是业务和管理。涉及到深度数据分析、资源调配的需要较高的业务思考能力,这也就是为什么FineBI主打自助式分析,让业务人员自己去发现数据的价值。以上就是FineBI的一次数据分析实战,也是为了帮助大家更加了解这款产品,但上面只是其冰山一角,欢迎各位亲自体验一下这款企业级的数据分析工具。