今天看到某网友关于“如何以Java实现网页截图技术”的咨询帖,由于出现该咨询的地点非常不适合较长回复,故以博文形式回答。
事实上,如果您想以Java实现网页截图,也就是“输入一段网址,几秒钟过后就能截取一张网页缩略图”的效果。那么,您至少有3种方式可以选择。
1、最直接的方式——使用Robot
方法详解:该方法利用Robat提供的强大桌面操作能力,硬性调用浏览器打开指定网页,并将网页信息保存到本地。
优势:简单易用,不需要任何第三方插件。
缺点:不能同时处理大量数据,技术含量过低,属于应急型技巧。
实现方法:使用如下代码即可。
[java] view plaincopy
1. public static void main(String[] args) throws MalformedURLException,
2. IOException, URISyntaxException, AWTException {
3. //此方法仅适用于JdK1.6及以上版本
4. Desktop.getDesktop().browse(
5. new URL("http://google.com/intl/en/").toURI());
6. new Robot();
7. 10000);
8. new Dimension(Toolkit.getDefaultToolkit().getScreenSize());
9. int width = (int) d.getWidth();
10. int height = (int) d.getHeight();
11. //最大化浏览器
12. robot.keyRelease(KeyEvent.VK_F11);
13. 2000);
14. new Rectangle(0, 0, width,
15. height));
16. new BufferedImage(width, height,
17. BufferedImage.TYPE_INT_RGB);
18. Graphics g = bi.createGraphics();
19. 0, 0, width, height, null);
20. //保存图片
21. "jpg", new File("google.jpg"));
22. }
2、最常规的方式——利用JNI,调用第三方C/C++组件
方法详解:目前来讲,Java领域对于网页截图组件的开发明显不足(商机?),当您需要完成此种操作时,算得上碰到了Java的软肋。但是,众所周知Java也拥有强大的JNI能力,可以轻易将C/C++开发的同类组件引为己用。
优势:实现简单,只需要封装对应的DLL文件,就可以让Java实现同类功能。
劣势:同其他JNI实现一样,在跨平台时存在隐患,而且您的程序将不再属于纯Java应用。
实现方法:可参见此用例,具体封装何种C/C++组件请自行选择。
PS:示例来源于ACA HTML to Image Converter项目(http://www.acasystems.com/en/web-thumb-activex/faq-convert-html-to-image-in-java.htm ),这是一个收费的HTML转Image第三方组件,但封装方式在Java中大同小异。
引用JNI封装:
[java] view plaincopy
1. import sun.awt.*;
2. import java.awt.*;
3. import javax.swing.*;
4. import java.awt.event.*;
5. import java.awt.*;
6. import java.awt.peer.*;
7. public class Snap
8. {
9. static
10. {
11. "Snap");
12. }
13. public static void main( String[] argv )
14. {
15. new Snap();
16. "http://www.google.com", "snapshot-google.png");
17. }
18. public native void Start(String pi_strURL, String pi_strImageName);
19. }
CPP部分的实现:
[java] view plaincopy
1. #include <windows.h>
2. #include <atlbase.h>
3. #include "snap.h"
4. #pragma comment(lib,"atl.lib")
5. #import "./../../acawebthumb.dll" no_namespace
6. JNIEXPORT void JNICALL Java_Snap_Start(JNIEnv *pEnv, jobject, jstring pi_strUrl, jstring pi_strFileName)
7. {
8. 0);
9. 0);
10. 0);
11. IThumbMakerPtr HTML_Converter = NULL;
12. "ACAWebThumb.ThumbMaker");
13. if (SUCCEEDED(hr))
14. {
15. HTML_Converter->SetURL(t_strUrl);
16. if ( 0 == HTML_Converter->StartSnap() )
17. HTML_Converter->SaveImage(t_strFileName);
18. }
19. if (HTML_Converter)
20. HTML_Converter.Release();
21. CoUninitialize();
22. }
以该组件图像化yahoo界面的效果图:
3、最扎实的方法——自行解析HTML标记,并将其图像化
方法详解:众所周知,HTML之所以在浏览器中以具体的网页格式出现,并非服务器端传了一整个应用到客户端,而是源自于浏览器对于客户端自行解析的结果。因此,只要我们将对应的解析一一实现,那么将网页图形化,就将不是什么难事。
优势:纯Java实现,一劳永逸,一旦开发完成则永远通用,而且有一定的商用价值。
劣势:开发费时,且需要针对不同语法做精确分析,才能保证输出的基本正确。尤其在涉及到JavaScript解析时,难度将尤其增大。
实现方法:目前尚无具体案例可供参考。但是,由于Java有jdic之类的浏览器项目存在(https://jdic.dev.java.net/),而Java图形界面又属绘制生成。从理论上说,我们可以将所有具备Graphics的组件图形化保存。
而如果自行解析,那么您需要建立HTML解析器(或使用第三方的,万幸Java在这方面的组件很多),了解Java2D机制,了解何时该使用drawString绘制文字,何时又该使用drawImage插入图片等等。
补充:
这是一个利用内置浏览器截图的示例,使用了DJNativeSwing组件。
示例工程下载地址(Eclipse工程,含lib):http://greenvm.googlecode.com/files/Screenshot.7z
[java] view plaincopy
1. import java.awt.BorderLayout;
2. import java.awt.Dimension;
3. import java.awt.FlowLayout;
4. import java.awt.image.BufferedImage;
5. import java.io.File;
6. import java.io.IOException;
7. import javax.imageio.ImageIO;
8. import javax.swing.JFrame;
9. import javax.swing.JPanel;
10. import javax.swing.SwingUtilities;
11. import chrriis.dj.nativeswing.swtimpl.NativeComponent;
12. import chrriis.dj.nativeswing.swtimpl.NativeInterface;
13. import chrriis.dj.nativeswing.swtimpl.components.JWebBrowser;
14. import chrriis.dj.nativeswing.swtimpl.components.WebBrowserAdapter;
15. import chrriis.dj.nativeswing.swtimpl.components.WebBrowserEvent;
16. public class Main extends JPanel {
17. /**
18. *
19. */
20. private static final long serialVersionUID = 1L;
21. // 行分隔符
22. final static public String LS = System.getProperty("line.separator", "/n");
23. // 文件分割符
24. final static public String FS = System.getProperty("file.separator", "//");
25. //以javascript脚本获得网页全屏后大小
26. final static StringBuffer jsDimension;
27.
28. static {
29. new StringBuffer();
30. "var width = 0;").append(LS);
31. "var height = 0;").append(LS);
32. "if(document.documentElement) {").append(LS);
33. jsDimension.append(
34. " width = Math.max(width, document.documentElement.scrollWidth);")
35. .append(LS);
36. jsDimension.append(
37. " height = Math.max(height, document.documentElement.scrollHeight);")
38. .append(LS);
39. "}").append(LS);
40. "if(self.innerWidth) {").append(LS);
41. " width = Math.max(width, self.innerWidth);")
42. .append(LS);
43. " height = Math.max(height, self.innerHeight);")
44. .append(LS);
45. "}").append(LS);
46. "if(document.body.scrollWidth) {").append(LS);
47. jsDimension.append(
48. " width = Math.max(width, document.body.scrollWidth);")
49. .append(LS);
50. jsDimension.append(
51. " height = Math.max(height, document.body.scrollHeight);")
52. .append(LS);
53. "}").append(LS);
54. "return width + ':' + height;");
55. }
56. //DJNativeSwing组件请于http://djproject.sourceforge.net/main/index.html下载
57. public Main(final String url, final int maxWidth, final int maxHeight) {
58. super(new BorderLayout());
59. new JPanel(new BorderLayout());
60. final String fileName = System.currentTimeMillis() + ".jpg";
61. final JWebBrowser webBrowser = new JWebBrowser(null);
62. false);
63. webBrowser.navigate(url);
64. webBrowserPanel.add(webBrowser, BorderLayout.CENTER);
65. add(webBrowserPanel, BorderLayout.CENTER);
66. new JPanel(new FlowLayout(FlowLayout.CENTER, 4, 4));
67. new WebBrowserAdapter() {
68. // 监听加载进度
69. public void loadingProgressChanged(WebBrowserEvent e) {
70. // 当加载完毕时
71. if (e.getWebBrowser().getLoadingProgress() == 100) {
72. String result = (String) webBrowser
73. .executeJavascriptWithResult(jsDimension.toString());
74. int index = result == null ? -1 : result.indexOf(":");
75. NativeComponent nativeComponent = webBrowser
76. .getNativeComponent();
77. Dimension originalSize = nativeComponent.getSize();
78. new Dimension(Integer.parseInt(result
79. 0, index)), Integer.parseInt(result
80. 1)));
81. imageSize.width = Math.max(originalSize.width,
82. 50);
83. imageSize.height = Math.max(originalSize.height,
84. 50);
85. nativeComponent.setSize(imageSize);
86. new BufferedImage(imageSize.width,
87. imageSize.height, BufferedImage.TYPE_INT_RGB);
88. nativeComponent.paintComponent(image);
89. nativeComponent.setSize(originalSize);
90. // 当网页超出目标大小时
91. if (imageSize.width > maxWidth
92. || imageSize.height > maxHeight) {
93. //截图部分图形
94. 0, 0, maxWidth, maxHeight);
95. /*此部分为使用缩略图
96. int width = image.getWidth(), height = image
97. .getHeight();
98. AffineTransform tx = new AffineTransform();
99. tx.scale((double) maxWidth / width, (double) maxHeight
100. / height);
101. AffineTransformOp op = new AffineTransformOp(tx,
102. AffineTransformOp.TYPE_NEAREST_NEIGHBOR);
103. //缩小
104. image = op.filter(image, null);*/
105. }
106. try {
107. // 输出图像
108. "jpg", new File(fileName));
109. catch (IOException ex) {
110. ex.printStackTrace();
111. }
112. // 退出操作
113. 0);
114. }
115. }
116. }
117. );
118. add(panel, BorderLayout.SOUTH);
119. }
120. public static void main(String[] args) {
121. NativeInterface.open();
122. new Runnable() {
123. public void run() {
124. // SWT组件转Swing组件,不初始化父窗体将无法启动webBrowser
125. new JFrame("以DJ组件保存指定网页截图");
126. // 加载指定页面,最大保存为640x480的截图
127. frame.getContentPane().add(
128. new Main( 640, 480),
129. BorderLayout.CENTER);
130. 800, 600);
131. // 仅初始化,但不显示
132. frame.invalidate();
133. frame.pack();
134. false);
135. }
136. });
137. NativeInterface.runEventPump();
138. }
139. }