HttpClient.连接池

​//上网搜了后看到一位老铁的学习过程,虽然有些看不太明白,但也许以后用的到,分享一下。​​ 下面是个人学习过程~~

以下一个连接池的测试类

package cn.csdn.crawlar.test;

import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.impl.conn.PoolingHttpClientConnectionManager;
import org.apache.http.util.EntityUtils;

import java.io.IOException;

public class HttpClientPool {

public static void main(String[] args) {

//创建连接池管理器
PoolingHttpClientConnectionManager cm = new PoolingHttpClientConnectionManager();

//设置连接数
cm.setMaxTotal(100);

//设置每个主机的最大连接数
cm.setDefaultMaxPerRoute(10);

//使用连接池管理器发起请求
doGet(cm);
doGet(cm);
doGet(cm);
}

private static void doGet(PoolingHttpClientConnectionManager cm) {
//不是每次创建新的对象,而是从连接池中获取对象
CloseableHttpClient httpClient = HttpClients.custom().setConnectionManager(cm).build();

String uri =";
HttpGet httpGet = new HttpGet(uri);

CloseableHttpResponse response = null;
try {
response = httpClient.execute( httpGet);
//解析响应
if (response.getStatusLine().getStatusCode() == 200) {
String content = EntityUtils.toString(response.getEntity(), "utf8");
System.out.println(content.length());
}
} catch (IOException e) {
e.printStackTrace();
} finally {
if (response!=null){
try {
response.close();
} catch (IOException e) {
e.printStackTrace();
}
//不能关闭HttpClient,有连接池管理HttpClient
//httpClient.close();
}
}
}
}

关于这里声明一下:

//设置连接数
cm.setMaxTotal(100);

//设置每个主机的最大连接数
cm.setDefaultMaxPerRoute(10);

有人不明白为什么要设置最大连接数后,还要再设置一个每个主机的最大连接数。其实原因很简单,设置了这个连接池后,是为了我们以后不必要在每个类中进行重复创建和销毁,那样会浪费空间。同时,我们在进行网页信息爬取时会有多个不同主机 (“Host: www.csdn.net[\r][\n]”),像搜狐
新浪、腾讯…
个人理解这样保证了爬取的准确和全面,就好比买菜。以自己拥有的钱数,分成若干等份,去不同的菜点购取质量好的菜。

测试

java爬虫.HttpClient.连接池_连接池


java爬虫.HttpClient.连接池_apache_02


java爬虫.HttpClient.连接池_最大连接数_03


连续进行三次获取不同的地址,就证实了之后的每一次创建对象时都是由连接池分配管理。