jsoup是java的一个网页内容解析工具,可以用来写爬虫。
 

依赖

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.13.1</version>
</dependency>

 

使用示例

//抓取页面,可指定请求方式
Document document = Jsoup.connect("http://www.xxx.com/xxx/xxx.html").get();

//获取元素集合,参数是css选择器
Elements aSet = document.select("a");
//可以对结果进行过滤筛选
Elements eleSet = document.select("a").attr("href","http://www.xxx.com/xxx/xxx.html");

//获取单个元素
Element a = aSet.first();

//解析元素
String id = a.id();
String tagName = a.tagName();
String className = a.className();
Set<String> classNameSet = a.classNames();

String href = a.attr("href");
String html = a.html();
String text = a.text();
String outerHtml = a.outerHtml();