java爬虫.HttpClient.连接池

原创

阿呆小记 2022-08-12 11:55:31 ©著作权

©著作权归作者所有：来自51CTO博客作者阿呆小记的原创作品，请联系作者获取转载授权，否则将追究法律责任

HttpClient.连接池

//上网搜了后看到一位老铁的学习过程，虽然有些看不太明白，但也许以后用的到，分享一下。下面是个人学习过程~~

以下一个连接池的测试类

package cn.csdn.crawlar.test;

import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.impl.conn.PoolingHttpClientConnectionManager;
import org.apache.http.util.EntityUtils;

import java.io.IOException;

public class HttpClientPool {

    public static void main(String[] args) {

        //创建连接池管理器
        PoolingHttpClientConnectionManager cm = new PoolingHttpClientConnectionManager();

        //设置连接数
        cm.setMaxTotal(100);

        //设置每个主机的最大连接数
        cm.setDefaultMaxPerRoute(10);

        //使用连接池管理器发起请求
        doGet(cm);
        doGet(cm);
        doGet(cm);
    }

    private static void doGet(PoolingHttpClientConnectionManager cm) {
        //不是每次创建新的对象，而是从连接池中获取对象
        CloseableHttpClient httpClient = HttpClients.custom().setConnectionManager(cm).build();

        String  uri =";
        HttpGet httpGet = new HttpGet(uri);

        CloseableHttpResponse response = null;
        try {
             response = httpClient.execute( httpGet);
            //解析响应
            if (response.getStatusLine().getStatusCode() == 200) {
                String content = EntityUtils.toString(response.getEntity(), "utf8");
                System.out.println(content.length());
            }
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            if (response!=null){
                try {
                    response.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
                //不能关闭HttpClient,有连接池管理HttpClient
                //httpClient.close();
            }
        }
    }
}

关于这里声明一下：

//设置连接数
        cm.setMaxTotal(100);

        //设置每个主机的最大连接数
        cm.setDefaultMaxPerRoute(10);

有人不明白为什么要设置最大连接数后，还要再设置一个每个主机的最大连接数。其实原因很简单，设置了这个连接池后，是为了我们以后不必要在每个类中进行重复创建和销毁，那样会浪费空间。同时，我们在进行网页信息爬取时会有多个不同主机（“Host: www.csdn.net[\r][\n]”），像搜狐
新浪、腾讯…
个人理解这样保证了爬取的准确和全面，就好比买菜。以自己拥有的钱数，分成若干等份，去不同的菜点购取质量好的菜。

测试：

java爬虫.HttpClient.连接池_连接池