今天做项目时用到java抓取网页内容,本以为很简单的一件事但是还是让我蛋疼了一会,网上资料一大堆但是都是通过url抓取网页内容,但是我要的是读取本地的html页面内容的方法,网上找不到怎么办java抓取网页内容_抓取网页内容 html我瞬间java抓取网页内容_抓取网页内容 html_02了!

首先还是向大家讲解一下通过url抓取网页内容吧,通过正则表达式摘取title、js、css等网页元素,代码如下:


  1. import java.io.BufferedReader;  

  2. import java.io.IOException;  

  3. import java.io.InputStreamReader;  

  4. import java.net.MalformedURLException;  

  5. import java.net.URL;  

  6. import java.util.ArrayList;  

  7. import java.util.List;  

  8. import java.util.regex.Matcher;  

  9. import java.util.regex.Pattern;  

  10. /**  

  11. *  

  12. * @author yaohucaizi  

  13. */  

  14. public class Test {  

  15.    /**  

  16.     * 读取网页全部内容  

  17.     */  

  18.    public String getHtmlContent(String htmlurl) {  

  19.        URL url;  

  20.        String temp;  

  21.        StringBuffer sb = new StringBuffer();  

  22.        try {  

  23. url = new URL(htmlurl);  

  24.            BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream(), "gbk"));// 读取网页全部内容  

  25.            while ((temp = in.readLine()) != null) {  

  26.                sb.append(temp);  

  27.            }  

  28.            in.close();  

  29.        } catch (final MalformedURLException me) {  

  30.            System.out.println("你输入的URL格式有问题!");  

  31.            me.getMessage();  

  32.        } catch (final IOException e) {  

  33.            e.printStackTrace();  

  34.        }  

  35.        return sb.toString();  

  36.    }  

  37.    /**  

  38.     *  

  39.     * @param s  

  40.     * @return 获得网页标题  

  41.     */  

  42.    public String getTitle(String s) {  

  43.        String regex;  

  44.        String title = "";  

  45.        List<String>list = new ArrayList<String>();  

  46. regex = "<title>.*?</title>";  

  47.        Pattern pa = Pattern.compile(regex, Pattern.CANON_EQ);  

  48.        Matcher ma = pa.matcher(s);  

  49.        while (ma.find()) {  

  50.            list.add(ma.group());  

  51.        }  

  52.        for (int i = 0; i <list.size(); i++) {  

  53. title = title + list.get(i);  

  54.        }  

  55.        return outTag(title);  

  56.    }  

  57.    /**  

  58.     *  

  59.     * @param s  

  60.     * @return 获得链接  

  61.     */  

  62.    public List<String> getLink(String s) {  

  63.        String regex;  

  64.        List<String>list = new ArrayList<String>();  

  65. regex = "<a[^>]*href=(\"([^\"]*)\"|\'([^\']*)\'|([^\\s>]*))[^>]*>(.*?)</a>";  

  66.        Pattern pa = Pattern.compile(regex, Pattern.DOTALL);  

  67.        Matcher ma = pa.matcher(s);  

  68.        while (ma.find()) {  

  69.            list.add(ma.group());  

  70.        }  

  71.        return list;  

  72.    }  

  73.    /**  

  74.     *  

  75.     * @param s  

  76.     * @return 获得脚本代码  

  77.     */  

  78.    public List<String> getScript(String s) {  

  79.        String regex;  

  80.        List<String>list = new ArrayList<String>();  

  81. regex = "<SCRIPT.*?</SCRIPT>";  

  82.        Pattern pa = Pattern.compile(regex, Pattern.DOTALL);  

  83.        Matcher ma = pa.matcher(s);  

  84.        while (ma.find()) {  

  85.            list.add(ma.group());  

  86.        }  

  87.        return list;  

  88.    }  

  89.    public List<String> getNews(String s) {  

  90.        String regex = "<a.*?</a>";  

  91.        Pattern pa = Pattern.compile(regex, Pattern.DOTALL);  

  92.        Matcher ma = pa.matcher(s);  

  93.        List<String>list = new ArrayList<String>();  

  94.        while (ma.find()) {  

  95.            list.add(ma.group());  

  96.        }  

  97.        return list;  

  98.    }  

  99.    /**  

  100.     *  

  101.     * @param s  

  102.     * @return 获得CSS  

  103.     */  

  104.    public List<String> getCSS(String s) {  

  105.        String regex;  

  106.        List<String>list = new ArrayList<String>();  

  107. regex = "<style.*?</style>";  

  108.        Pattern pa = Pattern.compile(regex, Pattern.DOTALL);  

  109.        Matcher ma = pa.matcher(s);  

  110.        while (ma.find()) {  

  111.            list.add(ma.group());  

  112.        }  

  113.        return list;  

  114.    }  

  115.    /**  

  116.     *  

  117.     * @param s  

  118.     * @return 去掉标记  

  119.     */  

  120.    public String outTag(final String s) {  

  121.        return s.replaceAll("<.*?>", "");  

  122.    }  

  123.    public static void main(String[] args) {  

  124.        Test t = new Test();  

  125.        String content = t.getHtmlContent("http://www.taobao.com");  

  126.        //content = content.replaceAll("(<br>)+?", "\n");// 转化换行  

  127.        //content = content.replaceAll("<p><em>.*?</em></p>", "");// 去图片注释  

  128.        System.out.println(content);  

  129.        System.out.println(t.getTitle(content));  

  130.        List<String>a = t.getNews(content);  

  131.        List<String>news = new ArrayList<String>();  

  132.        for (String s : a) {  

  133.            news.add(s.replaceAll("<.*?>", ""));  

  134.        }  

  135.        System.out.println(news);  

  136.        //…… 获取js、css等操作省略  

  137.    }  

  138. }  


后来我想了想我觉得读取本地和通过url读取原理不是一样的嘛,但是我尝试了好多种写法都不行,不是乱码问题就是报错,我该怎么办java抓取网页内容_抓取网页内容 html_03 老天就是这样捉弄人,功夫不负有心人当我尝试至999次时候突然眼前一亮,我成功实现读取本地html了java抓取网页内容_抓取网页内容 html_04……说真的代码不难但是你需要多次尝试,把我的代码分享给大家:



  1. /**  

  2. * 抓取本地网页内容  

  3. *  

  4. * @param filePath  

  5. * @return  

  6. */  

  7. public static String getHtmlContent(String filePath) {  

  8.    String temp;  

  9.    BufferedReader br;  

  10.    StringBuffer sb = new StringBuffer();  

  11.    try {  

  12. br = new BufferedReader(new InputStreamReader(new FileInputStream(filePath), "GB2312"));  

  13.        while ((temp = br.readLine()) != null) {  

  14.            sb.append(temp);  

  15.        }  

  16.    } catch (IOException e) {  

  17.        e.printStackTrace();  

  18.    }  

  19.    return sb.toString();  

  20. }  

本文由yaohucaizi原创java抓取网页内容_抓取网页内容 html_05如需转载请注明出处!版权所有 侵权必究!http://blog.csdn.net/yaohucaizi/article/details/8929325