作者:长行
本文持续更新…
Python基础
Python练习册,每天一个小程序(11.0k星标)
[项目名] show-me-the-code
[作者] Yixiaohan
25个实用性较高的案例,包括一些实用性的技巧;但是案例也有些难度,适合于对Python基础语法已经比较熟悉的人,不适合完全的初学者。
Python 100天从新手到大师(86.4k星标)
[项目名] Python-100-Days
[作者] jackfrued
非常优秀的Python入门教程, 结构清晰,内容广泛,包含Python基础、数据库、Web前端、Django、爬虫等,适合于Python初学者。
数据采集
网易云音乐 API(15.3k星标)
[语言] Node.js
[项目名] NeteaseCloudMusicApi
[作者] Binaryify
[文档地址] https://binaryify.github.io/NeteaseCloudMusicApi/#/
147个网易云音乐API的详细说明,包括登录、用户、歌曲、评论、电台、通知等类型的API。可以直接在Node.js中调用,也可以依据文档中对API的说明自行使用API。
Twitter的Python爬虫(2.2k星标)
[语言] Python
[地址] twitter-scraper
[作者] bisguzar
不需要API权限、不需要模拟登陆,即可采集Twitter用户的信息(粉丝量、发布量等)和Twitter用户发布的推文信息(发布时间、内容等)。但是当前版本抓取的Twitter用户粉丝量可能出错(测试已发现当用户没有关注其他人时,抓取的粉丝量有误;其他情况是否有误未知)。
直播平台弹幕爬虫(0.6k星标)
[语言] Python
[项目名] danmu
[作者] jiangxiaolin
曾包括直接可用的斗鱼、熊猫、战旗、全民、Bilibili等多个直播平台的弹幕爬虫,但因很久没有更新,部分爬虫因直播网站的更新而不能使用。亲测至少斗鱼弹幕爬虫仍可正常使用。
NLP
HanLP 中文自然语言处理(19.5k星标)
[Java项目名] HanLP
[Python项目名] pyhanlp
[作者] hankcs
功能齐完善,性能高效、可拓展性强的中文自然语言处理包。包括基于多种模型的中文分词、词性标注、命名实体识别、信息抽取、文本聚类、文本分类、依存句法分析、语义依存分析等功能。
中文自然语言处理资源库(20.7k星标)
[项目名] funNLP
[作者] fighting41love
其中包含各类中文词库、工具包和学习资料等内容,部分工具包附有调用方法的说明。
中文词向量资源库(7.2k星标)
[项目名] Chinese-Word-Vectors
[作者] Embedding
包括100多个不同corpus、context features、representations的预训练的中文词向量模型,可用于词向量的分析。其中,语料包括百度百科、人民日报、知乎问答、微博等,可满足不同领域的词向量需求。
中文常用停用词表(1.4k星标)
[项目名] stopwords
[作者] goto456
包含文本格式(一行一词)的”百度停用词表“、”哈工大停用词表“、”四川大学机器智能实验室停用词表“和作者自己整理的停用词表。
HarvestText 文本挖掘和预处理工具(0.6k星标)
[语言] Python
[项目名] HarvestText
[作者] blmoistawinde
[文档地址] https://harvesttext.readthedocs.io/en/latest/
包含文本清洗、新词发现、情感分析、关系网络、简易问答系统等功能,Demo和文档都写得比较清楚,方便学习使用。
中文自然语言处理资料整理
[语言] Python
[项目名] LinLP
[作者] jiangxiaolin
中文自然语言处理经典算法、paper和相关实践整理,包括新词发现、主题模型、词性标注、情感分析等内容,适合学习以上内容,不适合直接作为模块调用。