java爬虫.HttpClient.连接池
原创
©著作权归作者所有:来自51CTO博客作者阿呆小记的原创作品,请联系作者获取转载授权,否则将追究法律责任
HttpClient.连接池
//上网搜了后看到一位老铁的学习过程,虽然有些看不太明白,但也许以后用的到,分享一下。 下面是个人学习过程~~
以下一个连接池的测试类
package cn.csdn.crawlar.test;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.impl.conn.PoolingHttpClientConnectionManager;
import org.apache.http.util.EntityUtils;
import java.io.IOException;
public class HttpClientPool {
public static void main(String[] args) {
//创建连接池管理器
PoolingHttpClientConnectionManager cm = new PoolingHttpClientConnectionManager();
//设置连接数
cm.setMaxTotal(100);
//设置每个主机的最大连接数
cm.setDefaultMaxPerRoute(10);
//使用连接池管理器发起请求
doGet(cm);
doGet(cm);
doGet(cm);
}
private static void doGet(PoolingHttpClientConnectionManager cm) {
//不是每次创建新的对象,而是从连接池中获取对象
CloseableHttpClient httpClient = HttpClients.custom().setConnectionManager(cm).build();
String uri =";
HttpGet httpGet = new HttpGet(uri);
CloseableHttpResponse response = null;
try {
response = httpClient.execute( httpGet);
//解析响应
if (response.getStatusLine().getStatusCode() == 200) {
String content = EntityUtils.toString(response.getEntity(), "utf8");
System.out.println(content.length());
}
} catch (IOException e) {
e.printStackTrace();
} finally {
if (response!=null){
try {
response.close();
} catch (IOException e) {
e.printStackTrace();
}
//不能关闭HttpClient,有连接池管理HttpClient
//httpClient.close();
}
}
}
}
关于这里声明一下:
//设置连接数
cm.setMaxTotal(100);
//设置每个主机的最大连接数
cm.setDefaultMaxPerRoute(10);
有人不明白为什么要设置最大连接数后,还要再设置一个每个主机的最大连接数。其实原因很简单,设置了这个连接池后,是为了我们以后不必要在每个类中进行重复创建和销毁,那样会浪费空间。同时,我们在进行网页信息爬取时会有多个不同主机 (“Host: www.csdn.net[\r][\n]”),像搜狐
新浪、腾讯…
个人理解这样保证了爬取的准确和全面,就好比买菜。以自己拥有的钱数,分成若干等份,去不同的菜点购取质量好的菜。
测试:



连续进行三次获取不同的地址,就证实了之后的每一次创建对象时都是由连接池分配管理。