今天看到某网友关于“如何以Java实现网页截图技术”的咨询帖,由于出现该咨询的地点非常不适合较长回复,故以博文形式回答。

 

事实上,如果您想以Java实现网页截图,也就是“输入一段网址,几秒钟过后就能截取一张网页缩略图”的效果。那么,您至少有3种方式可以选择。

 

1、最直接的方式——使用Robot

 

方法详解:该方法利用Robat提供的强大桌面操作能力,硬性调用浏览器打开指定网页,并将网页信息保存到本地。

 

优势:简单易用,不需要任何第三方插件。

 

缺点:不能同时处理大量数据,技术含量过低,属于应急型技巧。

 

实现方法:使用如下代码即可。

 

 

[java] view plaincopy

 

 

    1. public static void main(String[] args) throws MalformedURLException,  
    2.         IOException, URISyntaxException, AWTException {  
    3. //此方法仅适用于JdK1.6及以上版本  
    4.     Desktop.getDesktop().browse(  
    5. new URL("http://google.com/intl/en/").toURI());  
    6. new Robot();  
    7. 10000);  
    8. new Dimension(Toolkit.getDefaultToolkit().getScreenSize());  
    9. int width = (int) d.getWidth();  
    10. int height = (int) d.getHeight();  
    11. //最大化浏览器  
    12.     robot.keyRelease(KeyEvent.VK_F11);  
    13. 2000);  
    14. new Rectangle(0, 0, width,  
    15.             height));  
    16. new BufferedImage(width, height,  
    17.             BufferedImage.TYPE_INT_RGB);  
    18.     Graphics g = bi.createGraphics();  
    19. 0, 0, width, height, null);  
    20. //保存图片  
    21. "jpg", new File("google.jpg"));  
    22. }

     

    2、最常规的方式——利用JNI,调用第三方C/C++组件

     

    方法详解:目前来讲,Java领域对于网页截图组件的开发明显不足(商机?),当您需要完成此种操作时,算得上碰到了Java的软肋。但是,众所周知Java也拥有强大的JNI能力,可以轻易将C/C++开发的同类组件引为己用。

    优势:实现简单,只需要封装对应的DLL文件,就可以让Java实现同类功能。

     

    劣势:同其他JNI实现一样,在跨平台时存在隐患,而且您的程序将不再属于纯Java应用。

     

    实现方法:可参见此用例,具体封装何种C/C++组件请自行选择。

     

    PS:示例来源于ACA HTML to Image Converter项目(http://www.acasystems.com/en/web-thumb-activex/faq-convert-html-to-image-in-java.htm ),这是一个收费的HTML转Image第三方组件,但封装方式在Java中大同小异。

     

    引用JNI封装:

     

     

    [java] view plaincopy

     

     

    1. import sun.awt.*;  
    2. import java.awt.*;  
    3. import javax.swing.*;  
    4. import java.awt.event.*;  
    5. import java.awt.*;  
    6. import java.awt.peer.*;  
    7. public class Snap  
    8. {  
    9. static  
    10.   {  
    11. "Snap");  
    12.   }  
    13. public static void main( String[] argv )  
    14.   {  
    15. new Snap();  
    16. "http://www.google.com", "snapshot-google.png");  
    17.   }  
    18. public native void Start(String pi_strURL, String pi_strImageName);  
    19. }

     

     

    CPP部分的实现:

     

     

    [java] view plaincopy

     

     

    1. #include <windows.h>  
    2. #include <atlbase.h>  
    3. #include "snap.h"  
    4. #pragma comment(lib,"atl.lib")  
    5. #import "./../../acawebthumb.dll" no_namespace  
    6. JNIEXPORT void JNICALL Java_Snap_Start(JNIEnv *pEnv, jobject, jstring pi_strUrl, jstring pi_strFileName)  
    7. {  
    8. 0);  
    9. 0);  
    10. 0);      
    11.   IThumbMakerPtr HTML_Converter = NULL;  
    12. "ACAWebThumb.ThumbMaker");      
    13. if (SUCCEEDED(hr))  
    14.   {   
    15.     HTML_Converter->SetURL(t_strUrl);  
    16. if ( 0 == HTML_Converter->StartSnap() )  
    17.       HTML_Converter->SaveImage(t_strFileName);  
    18.   }  
    19. if (HTML_Converter)  
    20.     HTML_Converter.Release();  
    21.   CoUninitialize();           
    22. }

     

     

    以该组件图像化yahoo界面的效果图:

     

    java 网页 截图 java生成网页截图_HTML

     

    3、最扎实的方法——自行解析HTML标记,并将其图像化

     

    方法详解:众所周知,HTML之所以在浏览器中以具体的网页格式出现,并非服务器端传了一整个应用到客户端,而是源自于浏览器对于客户端自行解析的结果。因此,只要我们将对应的解析一一实现,那么将网页图形化,就将不是什么难事。


    优势:纯Java实现,一劳永逸,一旦开发完成则永远通用,而且有一定的商用价值。

     

    劣势:开发费时,且需要针对不同语法做精确分析,才能保证输出的基本正确。尤其在涉及到JavaScript解析时,难度将尤其增大。

     

    实现方法:目前尚无具体案例可供参考。但是,由于Java有jdic之类的浏览器项目存在(https://jdic.dev.java.net/),而Java图形界面又属绘制生成。从理论上说,我们可以将所有具备Graphics的组件图形化保存。

     

    而如果自行解析,那么您需要建立HTML解析器(或使用第三方的,万幸Java在这方面的组件很多),了解Java2D机制,了解何时该使用drawString绘制文字,何时又该使用drawImage插入图片等等。

     

     

    补充:

     

    这是一个利用内置浏览器截图的示例,使用了DJNativeSwing组件。

     

    示例工程下载地址(Eclipse工程,含lib):http://greenvm.googlecode.com/files/Screenshot.7z

     

     

     

    [java] view plaincopy

     

     

      1. import java.awt.BorderLayout;  
      2. import java.awt.Dimension;  
      3. import java.awt.FlowLayout;  
      4. import java.awt.image.BufferedImage;  
      5. import java.io.File;  
      6. import java.io.IOException;  
      7. import javax.imageio.ImageIO;  
      8. import javax.swing.JFrame;  
      9. import javax.swing.JPanel;  
      10. import javax.swing.SwingUtilities;  
      11. import chrriis.dj.nativeswing.swtimpl.NativeComponent;  
      12. import chrriis.dj.nativeswing.swtimpl.NativeInterface;  
      13. import chrriis.dj.nativeswing.swtimpl.components.JWebBrowser;  
      14. import chrriis.dj.nativeswing.swtimpl.components.WebBrowserAdapter;  
      15. import chrriis.dj.nativeswing.swtimpl.components.WebBrowserEvent;  
      16. public class Main extends JPanel {  
      17. /**
      18.      * 
      19.      */  
      20. private static final long serialVersionUID = 1L;  
      21. // 行分隔符  
      22. final static public String LS = System.getProperty("line.separator", "/n");  
      23. // 文件分割符  
      24. final static public String FS = System.getProperty("file.separator", "//");  
      25. //以javascript脚本获得网页全屏后大小  
      26. final static StringBuffer jsDimension;  
      27.       
      28. static {  
      29. new StringBuffer();  
      30. "var width = 0;").append(LS);  
      31. "var height = 0;").append(LS);  
      32. "if(document.documentElement) {").append(LS);  
      33.         jsDimension.append(  
      34. "  width = Math.max(width, document.documentElement.scrollWidth);")  
      35.                 .append(LS);  
      36.         jsDimension.append(  
      37. "  height = Math.max(height, document.documentElement.scrollHeight);")  
      38.                 .append(LS);  
      39. "}").append(LS);  
      40. "if(self.innerWidth) {").append(LS);  
      41. "  width = Math.max(width, self.innerWidth);")  
      42.                 .append(LS);  
      43. "  height = Math.max(height, self.innerHeight);")  
      44.                 .append(LS);  
      45. "}").append(LS);  
      46. "if(document.body.scrollWidth) {").append(LS);  
      47.         jsDimension.append(  
      48. "  width = Math.max(width, document.body.scrollWidth);")  
      49.                 .append(LS);  
      50.         jsDimension.append(  
      51. "  height = Math.max(height, document.body.scrollHeight);")  
      52.                 .append(LS);  
      53. "}").append(LS);  
      54. "return width + ':' + height;");  
      55.     }  
      56. //DJNativeSwing组件请于http://djproject.sourceforge.net/main/index.html下载  
      57. public Main(final String url, final int maxWidth, final int maxHeight) {  
      58. super(new BorderLayout());  
      59. new JPanel(new BorderLayout());  
      60. final String fileName = System.currentTimeMillis() + ".jpg";  
      61. final JWebBrowser webBrowser = new JWebBrowser(null);  
      62. false);  
      63.         webBrowser.navigate(url);  
      64.         webBrowserPanel.add(webBrowser, BorderLayout.CENTER);  
      65.         add(webBrowserPanel, BorderLayout.CENTER);  
      66. new JPanel(new FlowLayout(FlowLayout.CENTER, 4, 4));  
      67. new WebBrowserAdapter() {  
      68. // 监听加载进度  
      69. public void loadingProgressChanged(WebBrowserEvent e) {  
      70. // 当加载完毕时  
      71. if (e.getWebBrowser().getLoadingProgress() == 100) {  
      72.                     String result = (String) webBrowser  
      73.                             .executeJavascriptWithResult(jsDimension.toString());  
      74. int index = result == null ? -1 : result.indexOf(":");  
      75.                     NativeComponent nativeComponent = webBrowser  
      76.                             .getNativeComponent();  
      77.                     Dimension originalSize = nativeComponent.getSize();  
      78. new Dimension(Integer.parseInt(result  
      79. 0, index)), Integer.parseInt(result  
      80. 1)));  
      81.                     imageSize.width = Math.max(originalSize.width,  
      82. 50);  
      83.                     imageSize.height = Math.max(originalSize.height,  
      84. 50);  
      85.                     nativeComponent.setSize(imageSize);  
      86. new BufferedImage(imageSize.width,  
      87.                             imageSize.height, BufferedImage.TYPE_INT_RGB);  
      88.                     nativeComponent.paintComponent(image);  
      89.                     nativeComponent.setSize(originalSize);  
      90. // 当网页超出目标大小时  
      91. if (imageSize.width > maxWidth  
      92.                             || imageSize.height > maxHeight) {  
      93. //截图部分图形  
      94. 0, 0, maxWidth, maxHeight);  
      95. /*此部分为使用缩略图
      96.                         int width = image.getWidth(), height = image
      97.                             .getHeight();
      98.                          AffineTransform tx = new AffineTransform();
      99.                         tx.scale((double) maxWidth / width, (double) maxHeight
      100.                                 / height);
      101.                         AffineTransformOp op = new AffineTransformOp(tx,
      102.                                 AffineTransformOp.TYPE_NEAREST_NEIGHBOR);
      103.                         //缩小
      104.                         image = op.filter(image, null);*/  
      105.                     }  
      106. try {  
      107. // 输出图像  
      108. "jpg", new File(fileName));  
      109. catch (IOException ex) {  
      110.                         ex.printStackTrace();  
      111.                     }  
      112. // 退出操作  
      113. 0);  
      114.                 }  
      115.             }  
      116.         }  
      117.         );  
      118.         add(panel, BorderLayout.SOUTH);  
      119.     }  
      120. public static void main(String[] args) {  
      121.         NativeInterface.open();  
      122. new Runnable() {  
      123. public void run() {  
      124. // SWT组件转Swing组件,不初始化父窗体将无法启动webBrowser  
      125. new JFrame("以DJ组件保存指定网页截图");  
      126. // 加载指定页面,最大保存为640x480的截图  
      127.                 frame.getContentPane().add(  
      128. new Main( 640, 480),  
      129.                         BorderLayout.CENTER);  
      130. 800, 600);  
      131. // 仅初始化,但不显示  
      132.                 frame.invalidate();  
      133.                 frame.pack();  
      134. false);  
      135.             }  
      136.         });  
      137.         NativeInterface.runEventPump();  
      138.     }  
      139. }