1. Hash算法

哈希算法也称摘要算法、散列算法,哈希函数的输入为一段可变长度x,输出一固定长度串,该串被称为x的哈希值
Hash函数满足以下几个基本需求:
(1)输入值x为任意长度
(2)输出值长度固定
(3)单向函数,算法不可逆
(4)唯一性,很难找到两个不同的输入会得到相同的Hash输出值

2. 概要

MD5信息摘要算法,一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输完整一致。MD5由美国密码学家罗纳德·李维斯特(Ronald Linn Rivest)设计,于1992年公开,用以取代MD4算法。这套算法的程序在 RFC 1321 标准中被加以规范。1996年后该算法被证实存在弱点,可以被加以破解,对于需要高度安全性的数据,专家一般建议改用其他算法,如SHA-2。2004年,证实MD5算法无法防止碰撞(collision),因此不适用于安全性认证,如SSL公开密钥认证或是数字签名等用途。

3. 算法原理

a. 填充

消息长度应为一个比512bit的倍数少64bit的数,即:
512*n+448

512*n-64

填充方法:在消息后添加一个1,再后接多个0

后64bit为填充前消息长度

如下图所示:

hive如何md5加密 hive的md5函数_算法


这样可以对明文分组,每组长度为512bit,即16个长度为32bit的字。

b. 迭代

标准幻数
MD5输出为128bit,即4个32bit的字,可用A、B、C、D表示。
A、B、C、D为标准幻数,其初始值分别为:
A=01234567
B=89ABCDEF
C=FEDCBA98
D=76543210

对于每512bit输入,MD5运算64步,得到128bit输出,该输出参与下一轮输入,如图所示:

hive如何md5加密 hive的md5函数_数据_02


每轮中512bit分为16份,每份32bit,即4B,分别参与4轮运算中16步迭代运算,因此4轮共64步。

hive如何md5加密 hive的md5函数_算法_03

逻辑函数F、G、H、I分别如下:

F( X ,Y ,Z ) = ( X & Y ) | ( (~X) & Z )

G( X ,Y ,Z ) = ( X & Z ) | ( Y & (~Z) )

H( X ,Y ,Z ) =X ^ Y ^ Z

I( X ,Y ,Z ) =Y ^ ( X | (~Z) )

4. 应用场景

数据完整性校验
常用Web服务器本身缺乏页面完整性验证机制,无法防止站点文件被篡改。为确保文件的完整性,防止用户访问页面被篡改,可采用MD5算法校验文件完整性的Web防篡改机制,计算目标文件的数字指纹,运用快照技术恢复被篡改文件,以解决多数防篡改系统对动态站点保护失效及小文件恢复难的问题 。
密码加密
我们知道MD5加密是不可逆的,用MD5算法加密后的字符串,是无法反向推算出原始密码的,可以有效防止密码被盗,但是固定长度的纯文本加密容易被撞库,既然如此,那么我们就要对密码加盐。服务器在保存密码时,会生成一段随机字符串并添加到密码后再做MD5散列,确保密码的安全性。

数字签名
MD5 算法还可以作为一种电子签名的方法来使用,使用 MD5算法就可以为任何文件(不管其大小、格式、数量)产生一个独一无二的“数字指纹”,借助这个“数字指纹”,通过检查文件前后 MD5 值是否发生了改变,就可以知道源文件是否被改动。我们在下载软件的时候经常会发现,软件的下载页面上除了会提供软件的下载地址以外,还会给出一串长长的字符串。这串字符串其实就是该软件的MD5 值,它的作用就在于下载该软件后,对下载得到的文件用专门的软件(如 Windows MD5 check 等)做一次 MD5 校验,以确保我们获得的文件与该站点提供的文件为同一文件。利用 MD5 算法来进行文件校验的方案被大量应用到软件下载站、论坛数据库、系统文件安全等方面。

注意
Hash算法不是加密算法。
hash算法也被称为摘要算法、散列算法,其过程不可逆,目的主要是确保数据的完整性。
加密算法的目的主要是确保数据的保密性。