Java爬虫学习

最近看着搭档使用python爬虫,觉得手痒。然后感觉自己学习java,应该也可以爬虫。就去百度学习了一下java的爬虫框架。国内有几种开源爬虫框架:gecco、WebMagic等。
gecco学习文档:

http://www.geccocrawler.com/tag/sysc/

WebMagic:

http://webmagic.io/docs/zh/

因为我学习的是gecco,所以个人感觉这框架入门爬虫还是挺简单的。后面也会对WebMagic进行学习。

爬虫案例

爬取的内容主要是每一页的房屋列表和单个房屋的信息。

java 爬虫工具jsoup等 java爬虫项目_java


爬取思路:先获取到当前页面的所有房屋列表,然后爬取单个房屋信息,爬取完成再爬取下一页房屋列表,获取房屋信息。

我在爬取的时候,因为要解析数据,一直请求网页,怕出事哈哈,我就先把网页(ctrl+s)保存到本地。然后用tomcat跑起来。再去请求爬取本地的跑起来的网址

http://localhost:8081/a1.html

爬取的效果和爬取下面的一致:

https://shanghai.anjuke.com/sale/a8-p1/#filtersort

编写爬虫启动入口
我新建的是maven项目,所以要使用Gecco,第一步是添加maven依赖

<dependency>
    <groupId>com.geccocrawler</groupId>
    <artifactId>gecco</artifactId>
    <version>1.0.8</version>
</dependency>

然后编写一个启动类作为爬虫的入口

package cn.demo.gecco.starter;

import com.geccocrawler.gecco.GeccoEngine;
import com.geccocrawler.gecco.request.HttpGetRequest;


import java.util.HashMap;
import java.util.Map;

/**
 * @ClassName:
 * @PackageName: cn.demo.gecco.starter
 * @author: youjp
 * @create: 2019-11-04 08:39
 * @description: 爬虫启动类
 * @Version: 1.0
 */
public class StartClass {

    public static void main(String[] args) {

        System.out.println("=========start===============");
        HttpGetRequest startUrl = new HttpGetRequest("http://localhost:8081/a1.html");
        //HttpGetRequest startUrl = new HttpGetRequest("https://shanghai.anjuke.com/sale/a8-p1/#filtersort");
        //HttpGetRequest startUrl= new HttpGetRequest("https://zhaotong.anjuke.com/sale/rd1/?kw=&from=sugg");
        startUrl.setCharset("utf-8");
        startUrl.setHeaders(setHeaders());
        GeccoEngine.create()    //Gecco搜索包路径
                .classpath("cn.demo.gecco.geccobean")
                .start(startUrl)
                .thread(1)    //开启几个爬虫线程
                .interval(5000)     //单个爬虫每次抓取完一个请求后的间隔时间
                .run();
    }

    /**
     * @return java.util.Map<java.lang.String               ,               java.lang.String>
     * @Param []
     * @Author youjp
     * @Description //TODO 设置请求头
     * @throw
     **/
    public static Map<String, String> setHeaders() {
        Map<String, String> setHeaders = new HashMap<>();
        setHeaders.put("Accept", "text/html,application/xhtml+xml," +
                "application/xml;q=0.9,image/webp,*/*;q=0.8");

        setHeaders.put("Accept-Encoding", "gzip, deflate, sdch, br");
        setHeaders.put("Accept-Language", "zh-CN,zh;q=0.8");
        setHeaders.put("User-Agent", "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36" +
                " (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36");
        return setHeaders;
    }
}
  • HttpGetRequest用于包裹种子网站,同时可以设置编码,这里设置的是“utf-8”(一开始当时没有设置该参数时,爬出的文本都是乱码的)
  • classpath是一个扫描路径,类似于Spring中的component-scan,用于扫描注解的类。这里主要用于扫描注解“@Gecco”所在的类。

获取所有房屋列表

package cn.demo.gecco.geccobean;

import com.geccocrawler.gecco.annotation.Gecco;
import com.geccocrawler.gecco.annotation.Href;
import com.geccocrawler.gecco.annotation.HtmlField;
import com.geccocrawler.gecco.annotation.Request;
import com.geccocrawler.gecco.request.HttpRequest;
import com.geccocrawler.gecco.spider.HtmlBean;

import java.util.List;

/**
 * @ClassName:
 * @PackageName: cn.demo.gecco.geccobean
 * @author: youjp
 * @create: 2019-11-04 08:54
 * @description: 	接口HtmlBean:说明该类是一个解析html页面的爬虫
 *      			注解@Gecco:告知该爬虫匹配的url格式(matchUrl)和
 *      			内容抽取后的bean处理类(pipelines处理类采用管道过滤器模式,可以定义多个处理类)。
 *      
 * @Version: 1.0
 */
@Gecco(matchUrl = "http://localhost:8081/a1.html", pipelines = {"consolePipeline", "allSortPipeline"})
public class AllSort implements HtmlBean {


    @Request
    private HttpRequest request;


 /**
     * 解析到的所有含房屋信息的li标签
     */
    @HtmlField(cssPath = "#houselist-mod-new li")
    private List<HouseInfo> houseInfoList;


    /**
     * 下一页按钮的url地址(a标签的href)
     */
    @Href
    @HtmlField(cssPath = "#content > div.sale-left > div.multi-page > a.aNxt")
    private String nextPage;


    public HttpRequest getRequest() {
        return request;
    }

    public void setRequest(HttpRequest request) {
        this.request = request;
    }

    public List<HouseInfo> getHouseInfoList() {
        return houseInfoList;
    }

    public void setHouseInfoList(List<HouseInfo> houseInfoList) {
        this.houseInfoList = houseInfoList;
    }

    public String getNextPage() {
        return nextPage;
    }

    public void setNextPage(String nextPage) {
        this.nextPage = nextPage;
    }


}
  • 注解@Gecco告知该爬虫匹配的url格式(matchUrl)和内容抽取后的bean处理类(pipelines处理类采用管道过滤器模式,可以定义多个处理类),这里matchUrl就是http://news.iresearch.cn/,意为从这个网址对应的页面中解析
  • 这里pipelines参数可以添加多个管道处理类,意为下一步该执行哪些管道类,需要说明的是consolePipeline,是专门将过程信息输出到控制台的管道类
  • 注解@HtmlField表示抽取html中的元素,cssPath采用类似jquery的css selector选取元素
  • @HtmlField(cssPath = “#content > div.sale-left > div.multi-page > a.aNxt”)
    代表根据这个cssPath路径获取得到下一页这个按钮元素
  • @Href 表示该字段是一个链接类型的元素,jsoup会默认获取元素的href属性值。属性必须是String类型。
    value:默认获取href属性值,可以多选,按顺序查找
    click:表示是否点击打开,继续让爬虫抓取

举例说明,现在需要解析所有的房屋列表并将列表结果包装为一个list,供后面进一步解析列表的具体内容。

/**
     * 解析到的所有含房屋信息的li标签
     */
    @HtmlField(cssPath = "#content > div.sale-left  #houselist-mod-new li")
    private List<HouseInfo> houseInfoList;

这里cssPath是用于指定需要解析的目标元素的css位置。

如何获取这个区块的位置,先看页面

java 爬虫工具jsoup等 java爬虫项目_java_02

我们要获取的是当前页面下的所有列表,并将其包装为一个list集合。打开Chrome开发者工具(键盘上按F12),可以看到该列表模块被ul标签包裹,只要定位到该模块的位置即可。

如果通过人肉的方式获取cssPath确实有点伤眼,所以我们可以使用Chrome自带的工具获取css路径,在上图箭头所在位置右键,按照如下图所示操作,粘贴即可得到cssPath

#houselist-mod-new > li:nth-child(1)

我们获取到的是ul下的第一个li,因为要获取所有,所以将它更改为:

#houselist-mod-new > li

获取单个房屋信息的标题、价格、地址、跳转详情url等

获取这些信息的原理和上面一样,只要F12打开调试,获取到对应元素。

java 爬虫工具jsoup等 java爬虫项目_css_03


然后再选择获取css路径,这里我们获取一下标题的css Selector

java 爬虫工具jsoup等 java爬虫项目_java_04


具体获取到的房屋信息类如下:

package cn.demo.gecco.geccobean;

import com.geccocrawler.gecco.annotation.Href;
import com.geccocrawler.gecco.annotation.HtmlField;
import com.geccocrawler.gecco.annotation.Text;
import com.geccocrawler.gecco.spider.HtmlBean;

/**
 * @ClassName:  HouseInfo
 * @PackageName: cn.demo.gecco.geccobean
 * @author: youjp
 * @create: 2019-11-06 14:01
 * @description: TODO 房屋信息
 * @Version: 1.0
 */
public class HouseInfo  implements HtmlBean {


    /**
     * 标题
     */
    @Text
    @HtmlField(cssPath = "div.house-details > div.house-title > a")
    private String housName;

    /**
     * 价格
     */
    @Text
    @HtmlField(cssPath = "div.pro-price > span.price-det > strong")
    private String price;

    /**
     * 每平方
     */
    @Text
    @HtmlField(cssPath = " div.pro-price > span.unit-price")
    private String perSquare;


    /**
     * 住房类型
     */
    @Text
    @HtmlField(cssPath = "div.house-details > div:nth-child(2) > span:nth-child(1)")
    private String type;


    /**
     * 房屋大小
     */
    @Text
    @HtmlField(cssPath = " div.house-details > div:nth-child(2) > span:nth-child(3)")
    private String size;

    /**
     * 地址
     */
    @Text
    @HtmlField(cssPath = "div.house-details > div:nth-child(3) > span")
    private String address;


    @Href
    @HtmlField(cssPath = "div.house-title > a")
    private String url;

    public String getHousName() {
        return housName;
    }

    public void setHousName(String housName) {
        this.housName = housName;
    }

    public String getPrice() {
        return price+"万";
    }

    public void setPrice(String price) {
        this.price = price;
    }

    public String getPerSquare() {
        return perSquare;
    }

    public void setPerSquare(String perSquare) {
        this.perSquare = perSquare;
    }

    public String getType() {
        return type;
    }

    public void setType(String type) {
        this.type = type;
    }

    public String getSize() {
        return size;
    }

    public void setSize(String size) {
        this.size = size;
    }

    public String getAddress() {
        return address;
    }

    public void setAddress(String address) {
        this.address = address;
    }

    public String getUrl() {
        return url;
    }

    public void setUrl(String url) {
        this.url = url;
    }

    @Override
    public String toString() {
        return "HouseInfo{" +
                "housName='" + housName + '\'' +
                ", price='" + price + '\'' +
                ", perSquare='" + perSquare + '\'' +
                ", type='" + type + '\'' +
                ", size='" + size + '\'' +
                ", address='" + address + '\'' +
                ", url='" + url + '\'' +
                '}';
    }
}

因为houseInfo(房屋信息)是在li标签里查找到的,所有他们查找的真是cssPath应该是在li以下,如标题写的是:

/**
     * 标题
     */
    @Text
    @HtmlField(cssPath = "div.house-details > div.house-title > a")
    private String housName;

那他的父级是li,而li那我们已经写了一个cssPath路径

/**
     * 解析到的所有含房屋信息的li标签
     */
    @HtmlField(cssPath = "#houselist-mod-new li")
    private List<HouseInfo> houseInfoList;

组合起来后,所查找的标题全路径是:

#houselist-mod-new li div.house-details > div.house-title > a

这样就便于我们理解。

下面实现AllSortPipeline类,用于进行数据处理。我这里只是输出显示

package cn.demo.gecco.geccobean;

import com.geccocrawler.gecco.annotation.PipelineName;
import com.geccocrawler.gecco.pipeline.Pipeline;
import com.geccocrawler.gecco.request.HttpRequest;
import com.geccocrawler.gecco.scheduler.SchedulerContext;
import org.springframework.util.StringUtils;

/**
 * @ClassName:
 * @PackageName: cn.demo.gecco.geccobean
 * @author: youjp
 * @create: 2019-11-06 11:00
 * @description:  todo 后续业务处理单元
 * @Version: 1.0
 */
@PipelineName("allSortPipeline")
public class AllSortPipeline  implements Pipeline<AllSort> {

    private static Integer num=0;

    @Override
    public void process(AllSort allSort) {
        System.out.println("==========单页房屋信息处理管道==========start"+num++);

        for(int i=0;i<allSort.getHouseInfoList().size();i++){
            HttpRequest currRequest = allSort.getRequest();
            System.out.println(allSort.getHouseInfoList().get(i));    //获取单个房屋信息
            HouseInfo houseInfo=allSort.getHouseInfoList().get(i);
            //
            if(!StringUtils.isEmpty(houseInfo.getUrl())){
                //加入队列
               // SchedulerContext.into(currRequest.subRequest(houseInfo.getUrl()));
            }
        }

        //请求下一页
        HttpRequest currRequest = allSort.getRequest();
        SchedulerContext.into(currRequest.subRequest(allSort.getNextPage()));
        System.out.println("==========单页房屋信息处理管道==========end"+num);
    }
}
  • 通过遍历的方式获取具体的房屋信息
  • 将url信息存储到SchedulerContext上下文中,用于后面爬虫

到此为止,我们获取了所有的分类列表对应的url信息,并将url存储到上下文中,用于后续爬虫匹配。

解析下一页

package cn.demo.gecco.geccobean;

import com.geccocrawler.gecco.annotation.*;
import com.geccocrawler.gecco.request.HttpRequest;
import com.geccocrawler.gecco.spider.HtmlBean;

import java.util.List;

/**
 * @ClassName:
 * @PackageName: cn.demo.gecco.geccobean
 * @author: youjp
 * @create: 2019-11-06 15:12
 * @description: TODO 获取所有房屋列表
 * 接口HtmlBean:说明该类是一个解析html页面的爬虫
 * 注解@Gecco:告知该爬虫匹配的url格式(matchUrl)和
 * 内容抽取后的bean处理类(pipelines处理类采用管道过滤器模式,可以定义多个处理类)。
 *
 * @Version: 1.0
 */
@Gecco(matchUrl = "https://shanghai.anjuke.com/sale/{data}/", pipelines = {"nextPageSortPipeline"})
public class NextPageSort implements HtmlBean {


    @Request
    private HttpRequest request;

    @HtmlField(cssPath = "#content > div.sale-left  #houselist-mod-new li")
    private List<HouseInfo> houseInfoList;

    /**
     * 下一页 url
     */
    @Href
    @HtmlField(cssPath = "#content > div.sale-left > div.multi-page > a.aNxt")
    private String nextPage;

    @RequestParameter
    private String data;

    public HttpRequest getRequest() {
        return request;
    }

    public void setRequest(HttpRequest request) {
        this.request = request;
    }

    public List<HouseInfo> getHouseInfoList() {
        return houseInfoList;
    }

    public void setHouseInfoList(List<HouseInfo> houseInfoList) {
        this.houseInfoList = houseInfoList;
    }

    public String getNextPage() {
        return nextPage;
    }

    public void setNextPage(String nextPage) {
        this.nextPage = nextPage;
    }

    public String getData() {
        return data;
    }

    public void setData(String data) {
        this.data = data;
    }
}

代码和之前解析完成一样,由于我解析的是本地页面的原因。如果请求的是网上的,用 这个解析下一页的处理类就可以了

下一页数据处理

package cn.demo.gecco.geccobean;

import com.geccocrawler.gecco.annotation.PipelineName;
import com.geccocrawler.gecco.pipeline.Pipeline;
import com.geccocrawler.gecco.request.HttpRequest;
import com.geccocrawler.gecco.scheduler.SchedulerContext;
import org.springframework.util.StringUtils;

/**
 * @ClassName:
 * @PackageName: cn.demo.gecco.geccobean
 * @author: youjp
 * @create: 2019-11-06 11:00
 * @description:  todo 后续业务处理单元
 * @Version: 1.0
 */
@PipelineName("nextPageSortPipeline")
public class NextPageSortPipeline implements Pipeline<NextPageSort> {

    private static Integer num=0;

    @Override
    public void process(NextPageSort nextPageSort) {
        System.out.println("==========单页房屋信息处理管道==========start"+num++);

        for(int i=0;i<nextPageSort.getHouseInfoList().size();i++){
            HttpRequest currRequest = nextPageSort.getRequest();
            System.out.println(nextPageSort.getHouseInfoList().get(i));    //获取单个房屋信息
            HouseInfo houseInfo=nextPageSort.getHouseInfoList().get(i);
            //
            if(!StringUtils.isEmpty(houseInfo.getUrl())){
                //加入队列
               // SchedulerContext.into(currRequest.subRequest(houseInfo.getUrl()));
            }
        }

        //请求下一页
        HttpRequest currRequest = nextPageSort.getRequest();
        SchedulerContext.into(currRequest.subRequest(nextPageSort.getNextPage()));
        System.out.println("==========单页房屋信息处理管道==========end"+num);
    }
}

每爬取完成一次页面数据,就去把下一页按钮的url地址加入请求队列,然后开始新一个页面的数据解析。这样就完成一次循环解析页面,直到把所有分页数据解析完成。

解析效果:

java 爬虫工具jsoup等 java爬虫项目_java_05