jsoup是java的一个网页内容解析工具,可以用来写爬虫。
依赖
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.13.1</version>
</dependency>
使用示例
//抓取页面,可指定请求方式
Document document = Jsoup.connect("http://www.xxx.com/xxx/xxx.html").get();
//获取元素集合,参数是css选择器
Elements aSet = document.select("a");
//可以对结果进行过滤筛选
Elements eleSet = document.select("a").attr("href","http://www.xxx.com/xxx/xxx.html");
//获取单个元素
Element a = aSet.first();
//解析元素
String id = a.id();
String tagName = a.tagName();
String className = a.className();
Set<String> classNameSet = a.classNames();
String href = a.attr("href");
String html = a.html();
String text = a.text();
String outerHtml = a.outerHtml();