文章目录[隐藏]
  • 前言
  • 目标网站分析
  • 火车头采集器使用(mip.chiyuba.com 可搜索下载)
  • 总结

前言

上一篇火车头采集系列主要给大家一个引导作用,让大家简单了解火车头采集器有什么功能,从次文起将教大家如何编写火车头采集规则。
今天以采集某资源网网站源码为例,其他举一反三。

目标网站分析

1.  网站 url 链接分析

进入目标采集栏目: 此处我进入网站源码栏目,点击下面分页,观察网址总规律。
通过查看网站我总结的规律是: 
第二页网址: xxxx.com/lists/wzym.html?page=2
第三页网址: xxxx.com/lists/wzym.html?page=3
第 n 页网址:  xxxx.com/lists/wzym.html?page=n
火车头采集之采集规则编写_html

2. 网站列表分析

通过 F12 查看源代码的方式,发现此网站列表是: ul+li 的模式

 

火车头采集之采集规则编写_python_02

火车头采集器使用(mip.chiyuba.com 可搜索下载)

单页面采集设置

 

火车头采集之采集规则编写_编程语言_03

多页面采集设置

 

火车头采集之采集规则编写_编程语言_04

多页面设置完成效果

 

火车头采集之采集规则编写_python_05

测试采集

 

火车头采集之采集规则编写_java_06

效果展示

如果出现列表页和内容页就对了。

 

火车头采集之采集规则编写_java_07

总结

到了此处你已学会了火车头采集规则编写的第一个步骤,尽请期待火车头采集的第二个步骤。如有不懂欢迎在下方评论区留言讨论。