HashMap是大家都在用,面试的时候也经常会被考的考点,在这篇文章中说下HashMap的hash碰撞和减轻碰撞的优化。

1、什么是hash碰撞


在解释Hash碰撞之前先说一下hashmap的存储结构、添加和检索是怎么实现的


    1.1HashMap的存储结构

    ·    HashMap的存储结构是Entry数组+链表的结构,如下图

java string hashcode 碰撞概率 hashmap哈希碰撞_hashmap

HashMap存储结构

 


注意:数组+链表的结构是在JDK7中的数据结构,JDK8中已经变成数组 +(链表或红黑树)的结构


1.2添加元素

           添加过程:

            1、通过key的hashcode调用hash()函数,计算出hash值,

            2、计算数组存储数据的下标 index =hash&(数组长度n-1)

            3、通过index得到数组中对应位置的链表,JDK7中将新节点插入到链表头,而JDK8插入到链表尾部

            HashMap添加元素还有一个知识点就是多线程不安全,扩容造成元素丢失或者链表闭环的问题,这个知识点不在这篇文章中详述。


1.3快速检索

           通过key查询value的过程:

            1、通过Key的hashcode调用hash()函数,计算出hash值,

            2、计算数组下标 index =hash&(数组长度n-1)

            3、通过index得到数组中对应位置的链表,遍历链表的Entry通过==对key进行比较得到对应的entry


知道HashMap的添加和查询过程,来看一下什么是Hash碰撞


1.4Hash碰撞是什么,Hash碰撞严重会有什么问题

    在HashMap的查询和添加过程中,绕不过去的是计算元素在数组的位置index,key的HashCode作为这个计算的基础。计算后的Hash值存在相同的情况,hash与长度取余的结果也有相同的情况,这个时候运算结果相同的两个对象就需要存储到同一个链表中,这就是HashMap中的Hash碰撞。

    这样会引起什么问题呢,碰撞严重的话,大量的元素都存储在一个链表中,检索过程中的第三步,遍历链表会耗费大量的时间,严重极端情况下会遍历所有元素,检索效率会很低。和HashMap快速检索的设计严重不符。



hash碰撞严重回来带查询效率问题,那么HashMap做了什么优化,来避免Hash碰撞呢



2、HashMap碰撞优化


HashMap减轻Hash碰撞主要做了两个方面的优化,

    1)提高hash的复杂度,减少相同hash的出现

    2)让元素尽量均匀的分部到数组中


    2.1提高hash复杂度

    看一下JDK8中hash()函数的代码

static final int hash(Object key) {

            int h;

            return (key ==null) ?0 : (h = key.hashCode()) ^ (h >>>16);

        }

    很简单,将key的HashCode右移16位将高16位和低16位做异或运算,目的是让hash值得低16位也包含高16位的特性。

    这样做有什么好处呢,元素在数组的下标index =hash%数组长度n,当数组长度很短的时候,如初始状态下是16,如果两个key的HashCode低16位相同,不处理的话index计算结果相同。只要HashCode不同的话,计算后的hash低16位保证不会相同。增强了hash结果的复杂度。

    注意:JDK7中hash函数要比JDK8中复杂度高很多,所以7的计算结果减少hash碰撞的效果更好,那为什么8不增加复杂度反而降低复杂度呢。官方解释是,因为JDK8在链表存储的基础上增加了红黑树的存储方式,提高了碰撞引起的查询效率。应该是对红黑树的效率比较有信心。


    2.2让元素尽量均匀分部

        前边已经说过,数组的下标的计算是:

                                      index= hash&(数组长度n-1)

           用17作为长度n计算一下取余,7转成二进制是 0001 0001 ,hash&(0001 0001 -1) =hash&(0001 0000) , 类似 0100 1001 和0010 1111的hash就会发生碰撞。

          怎么解决这个问题呢,保证&运算中二进制数每一位都是1,也就是数组的长度保证是2的整数次幂,就不会出现分不到元素的情况了。

        所以HashMap中对的优化策略就是,数组的长度必须是2的整数次幂。


注意:在HashMap扩容这个过程中,元素数量达到loadFactor*capacity,数组会扩容到2的n+1次幂,这个时候,map中存储的元素数量是  2的n次幂*loadFactor,

也就是说只要loadFactor<1,那么HashMap的数组长度永远大于元素数量,所以我理解的HashMap是空间换时间的容器。


Hash碰撞的知识点都已经说完了,分享一个在hashMap中的函数,代码如下

static final int tableSizeFor(int cap) {

        int n = cap -1;

       n |= n >>>1;

        n |= n >>>2;

        n |= n >>>4;

        n |= n >>>8;

        n |= n >>>16;

        return (n <0) ?1 : (n >=MAXIMUM_CAPACITY) ?MAXIMUM_CAPACITY : n +1;

}

返回结果是一个2的整数次幂