什么是hash?
hash的意思是“散列”,音译做“哈希”,输入一个任意长度的数据,进过哈希运算之后,输出一段固定长度的数据,作为输入数据的指纹,输出的结果就是哈希值。一般来说输入数据的空间远远大于输出的哈希值的空间,输入不同的数据可能会产生相同的哈希值,所以很难从哈希值来逆向推出输入值是什么。哈希函数本质上是一个压缩算法,它不同长度的消息压缩成为固定长度的消息。
哈希函数有一个特点:对于同一个哈希函数,如果计算出来的哈希值不同,那么输入的数据一定不同,但是输入的数据不同,通过哈希函数计算出来的哈希值可能相同。
如果输入不同的数据,却产生了相同的哈希值,就认为发生了哈希冲突。产生冲突就要解决,通常的解决方法有开放地址法、链地址法、再哈希法。
开放地址法:当发生散列冲突时,就在哈希表中寻找写一个哈希地址,直到找到一个空的哈希地址为止,只要哈希表足够大,总能找到空的哈希地址
链地址法:是用了数组和链表这两种数据结构。数组的优点是查找很方便,通过访问数据下标就可以访问对应的元素,缺点是插入和删除元素较慢,如果在数组的中间进行插入,很多元素的内存地址都需要移动,效率比较低。 链表的优点是插入、删除很方便,只需要修改对应元素的指针就可以了,缺点是查找不方便。 在链地址法里就是结合数组和链表的优点,用数组做查询,用链表做插入和删除。
把哈希值相同的元素连接成一个链表,链表的头结点存到数组里,这样数组的每一个但愿就对应一个链表。
再哈希法:当哈希地址冲突时,使用其他的hash函数计算另一个hash地址,直到不再产生hash冲突
HashMap
在jdk1.7源码的hashmap里,使用的链地址法,构造了Entry类型的数组,存储Entry对象组成的链表,一个Entry对象包含Key-Value对。
存储元素
如果想在hashmap中添加Entry对象,需要使用put方法。
public V put(K key, V value) {
if (table == EMPTY_TABLE) {
inflateTable(threshold);
}
if (key == null)
return putForNullKey(value);
int hash = hash(key);
int i = indexFor(hash, table.length);
for (Entry<K,V> e = table[i]; e != null; e = e.next) {
Object k;
if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
V oldValue = e.value;
e.value = value;
e.recordAccess(this);
return oldValue;
}
}
modCount++;
//根据计算出来的hash值,找到数组table对应的下标i,把key-value对放进去
addEntry(hash, key, value, i);
return null;
}
在put方法中,首先根据Entry对象的key计算它的hash值,由这个hash值确定这个对象在数组中的存储位置(也就是在数组中的下标)。如果当前位置上为空,直接把元素放在这里就可以了。如果当前存储位置上已经有一个元素存在了,说明这两个Entry元素的key计算的hash值相同,所以存储位置才会相同。如果这两个Entry的key通过equals方法比较之后返回true,那么用新加入Entry的value覆盖原来Entry的value,key的值不覆盖。如果这两个Entry的key通过equals方法比较之后范湖false,那么就把Entry元素以链表的形式存放,新加入的Entry元素放在链表的头部,原来的元素放在链表的尾部。
读取元素
在HashMap中读取元素需要使用get方法。
public V get(Object key) {
if (key == null)
return getForNullKey();
Entry<K,V> entry = getEntry(key);
return null == entry ? null : entry.getValue();
}
final Entry<K,V> getEntry(Object key) {
if (size == 0) {
return null;
}
int hash = (key == null) ? 0 : hash(key);
for (Entry<K,V> e = table[indexFor(hash, table.length)];
e != null;
e = e.next) {
Object k;
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
}
return null;
}
首先判断key是否为空,为空就返回空,不为空就进入getEntry方法中,首先计算key的hash值,根据hash值定位到table数组的相应位置,然后在通过比较key在链表中找到需要的元素。
HashMap的扩大容量的机制
数组的初始容量是1左四位,也就是2^4=16
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16
当HashMap中的元素越来越多,出现hash冲突的概率越来越高,因为数组的长度是固定的,为了提高查询的效率,需要对数组进行扩大容量。具体什么时候进行扩大容量,要看loadfactor。loadfactor的默认值是0.75.
/**
* The load factor used when none specified in constructor.
*/
static final float DEFAULT_LOAD_FACTOR = 0.75f;
当数组元素个数超过数组容量乘以loadfactor的时候,就把容量扩大为原来的两倍。
为什么loadfactor是0.75,而不是其他的的数?
这要理解loadfactor装载因子的意义,装载因子衡量的是一个hash表空间的使用程度,他的值越大表示空间利用率越高,他的值越小表明利用率越低。由于hashmap使用的链地址法,查找一个元素的平均时间是常数级别的,装载因子越大,对空间的利用就越充分,但是也会导致查询的效率降低;如果装载因子太小,hash表太稀疏,会造成空间的浪费。因此对时间和空间效率做了一下平衡,把装载因子取值为0.75.
扩容的时候为什么是2倍,不是1.5或3倍?
者主要是出于性能方面的考虑,设计成2的倍数可以通过位运算完成,这样比去乘1.5,乘3操作要快。至于为什么位运算比较快?因为它直接对内存数据进行操作,而不需要转换成十进制在操作,所以效率高。