如果你刚开始操作抖音,运营抖音还不懂平台的操作技巧,可以加我的微信:422591055 带你玩转抖音自媒体平台,我还联合了抖音运营的几位大佬,每日分享免费的抖音运营的实操讲解,还可以免费获取到抖音运营资料一份。
[爬虫抖音]——python学习——爬虫(抖音)
爬虫仅限于知识学习,本代码不得用于任何商业活动侵权,如有不适,请联系博主进行修改或者删除。
今天总结的第三篇,这些个代码是模仿着写出来的,这儿我着重写我觉有用的东西了,一上午过去了,还只弄完三篇,时间好紧张啊。
访问的是的抖音,找到其url,并进行访问
首先摆出源码
然后着一进行分析
访问的网址是:用访问者的形式进行访问,避免反扒,这是最初级的方式,高级一点的就是再加上cookie,虽然不知道有啥用,感觉加上以后,出错的情况小很多了,解码这儿用的是utf-8
因为抖音具有一种反扒措施,它这个访问结果不一定会有,需要反复访问,因此我写了个while循环,直到访问到结果
将这一条内容放到bejson中进行解析(bejson可以百度找到)
然后再依据内容,找到我们需要的下载地址,视频的下载,需要使用其视频链接,以二进制、流的形式进行导出
存在一个未解决的问题,按理来说这儿是可以按照视频名字来命名的,但是程序执行到第四个时,会报错,我将名字换成了数字之后(也就是x),就能正常爬取了,不知道这是啥反扒措施,有大佬能解决的话,欢迎评论区留言。
[爬虫抖音]——使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium)
#_*_coding:utf-8_*_
importrequests
importsys
headers={"User-Agent":"Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/42.0.2311.90Safari/537.36"}
#去重方法
defdistinct_data():
#读取txt中文档的url列表
datalist_blank=[]——
pathtxt='H:/Request'
withopen(pathtxt)asf:
f_data_list=f.readlines()#d得到的是一个list类型
forainf_data_list:
datalist_blank.append(a.strip())#去掉\nstrip去掉头尾默认空格或换行符
data_dict={}
fordataindatalist_blank:
#url中以/为切分,在以m为切分##把m后面的值放进字典key的位置,利用字典特性去重
ifint(data.split('/').index('m'))==4:#此处为v6开头的url
#print(data,44,data.split('/')[5]——)
data_key1=data.split("/")[5]——
data_dict[data_key1]——=data
elifint(data.split('/').index('m'))==6:#此处为v1或者v3或者v9开头的url
data_key2=data.split("/")[7]——
data_dict[data_key2]——=data
#print(len(data_dict),data_dict)
data_new=[]——
forx,yindata_dict.items():
data_new.append(y)
returndata_new
defresponsedouyin():
data_url=distinct_data()
#使用request获取视频url的内容
#stream=True作用是推迟下载响应体直到访问Response.content属性
#将视频写入文件夹
num=1
forurlindata_url:
res=requests.get(url,stream=True,headers=headers)
#res=requests.get(url=url,stream=True,headers=headers)
#定义视频存放的路径
pathinfo='H:/douyin-video/%d.mp4'%num#%d用于整数输出%s用于字符串输出
#实现下载进度条显示,这一步需要得到总视频大小
total_size=int(res.headers['Content-Length']——)
#设置流的起始值为0
temp_size=0
ifres.status_code==200:
withopen(pathinfo,'wb')asfile:
#file.write(res.content)
#print(pathinfo+'下载完成啦啦啦啦啦')
num+=1
#当流下载时,下面是优先推荐的获取内容方式,iter_content()函数就是得到文件的内容,指定chunk_size=1024,大小可以自己设置哟,设置的意思就是下载一点流写一点流到磁盘中
forchunkinres.iter_content(chunk_size=1024):
ifchunk:
temp_size+=len(chunk)
file.write(chunk)
file.flush()#刷新缓存
#############下载进度条部分start###############
done=int(50*temp_size/total_size)
#print('百分比:',done)
sys.stdout.write("\r[%s%s]——%d%%"%('█'*done,''*(50-done),100*temp_size/total_size)+"下载信息:"+pathinfo+"下载完成啦啦啦啦啦")
sys.stdout.flush()#刷新缓存
#############下载进度条部分end###############
print('\n')#每一条打印在屏幕上换行输出
if__name__=='__main__':
responsedouyin()
[爬虫抖音]——爬虫-抖音小姐姐个人信息
背景:
因为业务需要,爬取抖音小姐姐的信息。身为不玩抖音的宅男,也没有办法。网上很多下载抖音视频的代码。我不是为了视频而是为了练习自己的爬虫技能。知道抖音的数字都是用字体做了处理,正好早些时候爬了起点中文网的(也是字体反爬,加强自己的技能,那就从抖音开始,咱不能眼高手低是吧。
1.开始分析:
不关注抖音不知道有哪些红人,为此百度搜索,找到个网站,做抖音的,虽然信息也都有了,但是我们程序员还是想自己实现是不是,这个网站想看谁的信息还得登录注册。我就是为了获取抖音的url的。那咱就可以了,从莉哥o3o开始。
打开她的抖音,挺火啊。身为做爬虫的,第一下想到的就是看看源码。
网页源码:
因为已经知道数字做了处理。
那就分析吧,源码里面并没有woff或者ttf字体的链接,说明了很难找打动态加载字体库,那咋办呢。我在GitHub找到了一个,对应关系,我打开github的代码,我顿时疯了,是用js写的爬虫也是上面排行榜网站的爬虫工具用了别人的东西给个链接github(这个仓库有很多的爬虫代码,是chrome扩展形式的,我没有安装成功:
直觉告诉我,我需要自己去找关系了,但是从中我也获取了信息,就是每个数字对应三个。心理就谱了。找呗,一个网页找,直到找到3*10?个关系。找的过程苦逼就不详细说了。
那就开始撸代码吧:
为了我的github我把代码放在github了,这里就不贴代码了github(
代码本来是在python3.5环境写的,然后运行在python2.7环境下,都是编码的问题,为此添加了u""加个u,可以在python2.7运行了。那就尴尬了,没有在python3.5再次运行,应该不会出现问题。
猫眼的票房也是字体反爬,下步就是它了。阴险.jpg