摘要: 本文主要探讨了在 Java 编程环境中如何获取 HTML 文档指定标签的内容。通过分析不同的技术方法和工具,阐述了其实现原理和具体应用场景,为开发人员在处理 HTML 文档数据时提供了有效的解决方案。
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegexHTMLParser {
public static void main(String[] args) {
String html = "<html><body><h1>Hello World</h1><p>This is a paragraph.</p></body></html>";
String tag = "h1";
Pattern pattern = Pattern.compile("<" + tag + ">(.*?)</" + tag + ">");
Matcher matcher = pattern.matcher(html);
if (matcher.find()) {
System.out.println(matcher.group(1));
}
}
}
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class JsoupHTMLParser {
public static void main(String[] args) {
String html = "<html><body><h1>Hello World</h1><p>This is a paragraph.</p></body></html>";
Document doc = Jsoup.parse(html);
Elements elements = doc.select("h1");
for (Element element : elements) {
System.out.println(element.text());
}
}
}