一、算法

算法确实是很好用,但是破解难度大家应该都是知道的,随着版本的更新,算法经常也会变,一变你的软件也要随着更新,这无形中就增大了开发的成本,你要说采集效率吧! 我个人感觉也没快多少,毕竟访问频率也是有限制,你不可能访问一次就变换一次代理吧?这成本得有多大?

二、浏览器

不知道你们有没有发现,使用浏览器打开用户主页,但是用户作品根本没有显示出来,我相信很多人的算法都是通过网页版得来的,所以这就造成了一个现象,网页版的算法,经常要请求好多次才能返回一组数据.当然这里我不排除有大神是通过APP逆向得来的,这里我不探讨这种情况,因为逆向我也是半桶水.

三、抓包(Fiddler)

Fiddler可以说是除了TCP之外非常通用的一个抓包工具了,证书安装好之后要啥有啥,缺点没有API可以调用,除非你对它进行二次开发.不过也不用灰心,因为Fiddler有提供一个给第三方调用的dll库,我们在自己的程序中调用dll,把自己当成一个代理服务器,所有经过的请求都会先经过我这边,这样我就可以对数据进行处理了.

四、注意事项

雷电模拟器要用3.96.0版本的,apk用7.1版本的

我的思路:

1.利用Fiddler自制一个代理服务器,具体代码和dll库可以自行百度.

Python douyin 抖音爬虫 抖音爬虫算法_批量去水印

2.使用模拟器进行操作,安装好证书,挂上代理,你刷你的视频,我的服务器会自动过滤数据,把有用的留下了

(1)配置模拟器,模拟器要选择手机版本,分辨率随意

Python douyin 抖音爬虫 抖音爬虫算法_Python douyin 抖音爬虫_02

(2)用模拟器中的浏览器打开软件上面的链接(地址:端口), 例(192.168.0.109:8888)进行安装证书 

Python douyin 抖音爬虫 抖音爬虫算法_评论_03

(3)配置模拟器网络代理

Python douyin 抖音爬虫 抖音爬虫算法_抖音_04

 


就是这么简单,不知道你Get到点了没?这种方法,不管放到什么app上面,都是可行的,只要你要抓的数据是通过http或者https进行传输的,那么这种方法都是可用的,只不过模拟器段你可能要写个脚本来操作请求的触发,相对于破解算法,一个自动化操作的脚本,那还不是小菜一碟.

关于抖音无法在模拟器中正常显示数据,这个大家可以去下7.1版本的apk,7.1版本的没有屏蔽模拟器.


对了,win7系统可能不行,因为很多win7的Fiddler证书无法正常安装,所以就导致软件无法抓取https,这个你们可以自行测试.