关于上传文件类型验证的解决办法


    大象根据研究与实际项目经验,向大家介绍一个关于文件类型验证的解决办法。不清楚的朋友可以了解下,知道的不喜勿喷。
    对于文件上传,相信大家都不会陌生,我们都知道,文件在上传到服务器的过程中,都是以流的形式传输的,在后台处理文件上传的代码中,获得这个流,然后读取数据流将之保存到上传文件的临时目录中,如果有使用到MongoDB,再将这个文件存储到文件系统中。
    大部分的文件上传都是通过HTML的上传组件完成的,而业务需求往往是有类型要求的,比如只允许上传jpg、gif、png类型的图片,或者是只允许上传Office文档等等,虽然可以用JavaScript对上传文件做一些类型验证之类的控制,但还是不能完全做到过虑。这时,就需要在后台,用代码来进一步完成这个验证工作。
    到底通过什么方式可以做到正确验证呢?答案就是通过文件的头部信息,通过大量测试,大象发现每种类型的文件,他们最开始的一段信息都是一样的,比如Office97~03,它的头四位16进制信息就是d0 cf 11 e0,而Office2007则是50 4b 03 04,PDF为25 50 44 46,大家可以多用这样的文件分别测试一下,看看前四位16进制信息是不是都是一样的。当然这其中也有个别情况,比如jpg类型的图片,它的前四位16进制信息就有两种一个是ff d8 ff e0,另一个是ff d8 ff e1,区别是最后一位。知道了这些,我们就有一个方向了。
    可能有同学有疑问了,为什么只取前四位,不是六位或八位呢?这是因为,大象根据反复测试发现,从第五位开始到第八位,同一种类型的文件,在这几位里面很有一些存在区别,像图片以及pdf,这种现象很多,为了避免同一类型的文件,因为这一些小的不同,要定义N多检测头信息,这样做似乎没有必要,因此大象才建议取前四位作为类型检测的依据。
    不过说了这么多,还是没讲怎么做,这显然不是大象的风格,大象一般都从实际出发,用代码来说话。


package com.bolo.util;
public class FileValidateUtil {
 public static boolean validateType(byte[] b, String customTypes) {
 if (b != null) {
 int size = b.length;
 null;
 new StringBuilder();
 for (int i = 0; i < size; i++) {
              hex = Integer.toHexString(b[i] & 0xFF);
 if (hex.length() == 1) {
 "0" + hex;
              }
              contentType.append(hex);
 if (i > 2)
 break;
           }
 if (customTypes.indexOf(contentType.toString()) > -1) {
 return Boolean.TRUE;
           }
       }
 return Boolean.FALSE;
    }
 
  }

 上面这段代码就是用来对文件类型作验证的方法,第一个参数是文件的字节数组,第二个就是定义的可通过类型。代码很简单,主要是注意中间的一处,将字节数组的前四位转换成16进制字符串,并且转换的时候,要先和0xFF做一次与运算。这是因为,整个文件流的字节数组中,有很多是负数,进行了与运算后,可以将前面的符号位都去掉,这样转换成的16进制字符串最多保留两位,如果是正数又小于10,那么转换后只有一位,需要在前面补0,这样做的目的是方便比较,取完前四位这个循环就可以终止了。
    下面我们准备些文件来测试一下这段代码有没有问题。


package com.bolo.util;
import java.io.IOException;
import junit.framework.Assert;
import org.apache.commons.io.FileUtils;
import org.junit.Test;
import org.springframework.util.ResourceUtils;
import com.bolo.util.FileValidateUtil;
public class FileValidateUtilTest {
 /**
 文件头部信息,十六进制信息,取前4位
     * 50 4b 03 04 office 2007+
     * d0 cf 11 e0 office 97~03
     * 25 50 44 46 pdf
     * ff d8 ff e0 jpg,部分png与jpg头文件前4位一样
     * ff d8 ff e1 jpg,一种不同的jpg头文件
     * 89 50 4e 47 png
     */
 private static final String FILE_TYPE = "504b0304 d0cf11e0 25504446 ffd8ffe0 ffd8ffe1 89504e47";
 @Test
 public void jpgTest(){
        validateType("file/1.jpg");
    }
 @Test
 public void docTest(){
       validateType("file/2.doc");
    }
 @Test
 public void docxTest(){
        validateType("file/3.docx");
    }
 @Test
 public void pdfTest(){
        validateType("file/4.pdf");
    }
 @Test
 public void exeTest(){
        validateType("file/5.png");
    }
 private void validateType(String path){
        try {
            Assert.assertTrue(FileValidateUtil.validateType(FileUtils
               .readFileToByteArray(ResourceUtils.getFile("classpath:" + path)), FILE_TYPE));
 catch (IOException e) {
            e.printStackTrace();
        }
    }
 
  }

 从测试代码可以看到文件类型,只有第五个不是正确文件,是我将一个exe文件通过改后缀为png。这个测试类,用到了commons-io的FileUtils,需要在pom中加入这个依赖,而ResourceUtils在org.springframework.util包中,它属于spring-core.jar,大象这个测试类是放在之前ssm3工程test里面,要想正常运行测试,要在test/resources目录下建个file文件夹存放测试文件,最后编译之后file及其测试文件都会在test-classes下面,所以文件查找是以classpath:开头。
     OK,运行测试,结果就是前四个成功,最后一个失败,这达到了我们的预期,只允许FILE_TYPE里面定义的文件类型通过测试。大家可以自己动手试验一下。   

 

自己总结:

jpg的头:FF D8 FF E0 00

gif的头:47 49 46 38 39

png的头:89 50 4E 47 0D

InputStream photoFile=new FileInputStream(photo); 
				byte[] data =readInputStream(photoFile);
				String s = bytes2HexString(data);
				 if(!("ffd8").equals(s.substring(0, 3))){//jpg格式
					 errorMsg = "请上传JPG格式的近期照片!";
						return showPhoto();
			    }





	 private  byte[] readInputStream(InputStream inStream) throws Exception{  
	       ByteArrayOutputStream outStream = new ByteArrayOutputStream();  
		       //创建一个Buffer字符串  
		        byte[] buffer = new byte[1024];  
		        //每次读取的字符串长度,如果为-1,代表全部读取完毕  
		        int len = 0;  
		       //使用一个输入流从buffer里把数据读取出来  
		      while( (len=inStream.read(buffer)) != -1 ){  
		            //用输出流往buffer里写入数据,中间参数代表从哪个位置开始读,len代表读取的长度  
		            outStream.write(buffer, 0, len);  
		        }  
		        //关闭输入流  
		        inStream.close();  
		        //把outStream里的数据写入内存  
		        return outStream.toByteArray();  
		    }  
	
	
	
	  private  String bytes2HexString(byte[] src) {
		  StringBuilder stringBuilder = new StringBuilder("");  
		    if (src == null || src.length <= 0) {  
		        return null;  
		    }  
		    for (int i = 0; i < src.length; i++) {  
		        int v = src[i] & 0xFF;  
		        String hv = Integer.toHexString(v);  
		        if (hv.length() < 2) {  
		            stringBuilder.append(0);  
		        }  
		        stringBuilder.append(hv);  
		    }  
		    return stringBuilder.toString();

	    }