开放定址法
链地址法
再哈希法
我一直对HashMap的内部结构很好奇,看了源码之后发现他是用散列实现的,即基于hashcode
大体思想是这样的
1. 首先建立一个数组用来存取数据,假设我们定义一个Object[] table用来存取map的value
这个很容易理解,key存在哪里呢?暂时我不想存储key
2. 获得key的hashcode经过一定算法转成一个整数
index,这个index的取值范围必须是0=<index<table.length,然后我将其作为数组元素的下标
比如执行这样的操作:table[index] = value;
这样存储的问题解决了
3. 如何通过key去获取这个value呢
这个太简单了,首先获取key的hashcode,然后通过刚才一样的算法得出元素下标index
然后value = table[index]
简单的HashTable实现如下
public class SimpleHashMap {
private Object[] table;
public SimpleHashMap() {
table = new Object[10];
}
public Object get(Object key) {
int index = indexFor(hash(key.hashCode()), 10);
return table[index];
}
public void put(Object key, Object value) {
int index = indexFor(hash(key.hashCode()), 10);
table[index] = value;
}
/**
* 通过hash code 和table的length得到对应的数组下标
*
* @param h
* @param length
* @return
*/
static int indexFor(int h, int length) {
return h & (length - 1);
}
/**
* 通过一定算法计算出新的hash值
*
* @param h
* @return
*/
static int hash(int h) {
h ^= (h >>> 20) ^ (h >>> 12);
return h ^ (h >>> 7) ^ (h >>> 4);
}
public static void main(String[] args){
SimpleHashMap hashMap = new SimpleHashMap();
hashMap.put("key", "value");
System.out.println(hashMap.get("key"));
}
}
这个简单的例子大概描述了散列实现hashmap的过程
但是还很不成熟,我发现至少存在以下两个问题
1. hashmap的size是固定的
2. 如果不同的key通过hashcode得出的index相同呢,这样的情况是存在的,如何解决?
public class Entry<K, V> {
//存储key
final K key;
//存储value
V value;
//存储指向下一个节点的指针
Entry<K, V> next;
//存储key映射的hash
final int hash;
}
public class EntryHashMap<K, V> {
transient Entry[] table;
transient int size;
public EntryHashMap() {
table = new Entry[10];
}
public V put(K key, V value) {
// 计算出新的hash
int hash = hash(key.hashCode());
// 计算出数组小标i
int i = indexFor(hash, table.length);
// 遍历table[i],如果table[i]没有与新加入的key相等的,则新加入
// 一个value到table[i]中的entry,否则将新的value覆盖旧的value并返回旧的value
for (Entry<K, V> e = table[i]; e != null; e = e.next) {
Object k;
if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
V oldValue = e.value;
e.value = value;
return oldValue;
}
}
addEntry(hash, key, value, i);
return null;
}
public V get(K key) {
// 计算出新的hash
int hash = hash(key.hashCode());
// 计算出数组小标i
int i = indexFor(hash, table.length);
for (Entry<K, V> e = table[i]; e != null; e = e.next) {
Object k;
if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
return e.value;
}
}
return null;
}
private void addEntry(int hash, K key, V value, int bucketIndex) {
Entry<K, V> e = table[bucketIndex];
// 将新的元素插入链表前端
table[bucketIndex] = new Entry<>(hash, key, value, e);
size++;
}
/**
* 通过hash code 和table的length得到对应的数组下标
*
This works because Java HashMaps always have a capacity, i.e. number of buckets, as a power of 2. Let's work with a capacity of 256, which is 0x100, but it could work with any power of 2. Subtracting 1 from a power of 2 yields the exact bit mask needed to bitwise-and with the hash to get the proper bucket index, of range 0 to length - 1.
256 - 1 = 255
0x100 - 0x1 = 0xFF
E.g. a hash of 257 (0x101) gets bitwise-anded with 0xFF to yield a bucket number of 1.
* @param h
* @param length
* @return
*/
static int indexFor(int h, int length) {
return h & (length - 1);
}
/**
* 通过一定算法计算出新的hash值
*
* @param h
* @return
*/
static int hash(int h) {
h ^= (h >>> 20) ^ (h >>> 12);
return h ^ (h >>> 7) ^ (h >>> 4);
}
}
上一节我们讲到了如何用散列和链表实现HashMap,其中有一个疑问今天已经有些答案了,为什么要用链表而不是数组
链表的作用有如下两点好处
1. remove操作时效率高,只维护指针的变化即可,无需进行移位操作
2. 重新散列时,原来散落在同一个槽中的元素可能会被散落在不同的地方,对于数组需要进行移位操作,而链表只需维护指针
今天研究下数组长度不够时的处理办法
table为散列数组
1. 首先定义一个不可修改的静态变量存储table的初始大小 DEFAULT_INITIAL_CAPACITY
2. 定义一个全局变量存储table的实际元素长度,size
3. 定义一个全局变量存储临界点,即元素的size>=threshold这个临界点时,扩大table的容量
4. 因为index是根据hash和table的长度计算得到的,所以还需要重新对所有元素进行散列
public class EntryHashMap<K, V> {
/** 初始容量 */
static final int DEFAULT_INITIAL_CAPACITY = 16;
static final float DEFAULT_LOAD_FACTOR = 0.75f;
/** 下次扩容的临界值 */
int threshold;
transient int size;
final float loadFactor;
transient Entry[] table;
public EntryHashMap() {
this.loadFactor = DEFAULT_LOAD_FACTOR;
threshold = (int) (DEFAULT_INITIAL_CAPACITY * DEFAULT_LOAD_FACTOR);
table = new Entry[DEFAULT_INITIAL_CAPACITY];
}
public V put(K key, V value) {
// 计算出新的hash
int hash = hash(key.hashCode());
// 计算出数组小标i
int i = indexFor(hash, table.length);
// 遍历table[i],如果table[i]没有与新加入的key相等的,则新加入
// 一个value到table[i]中的entry,否则将新的value覆盖旧的value并返回旧的value
for (Entry<K, V> e = table[i]; e != null; e = e.next) {
Object k;
if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
V oldValue = e.value;
e.value = value;
return oldValue;
}
}
addEntry(hash, key, value, i);
return null;
}
public V get(K key) {
// 计算出新的hash
int hash = hash(key.hashCode());
// 计算出数组小标i
int i = indexFor(hash, table.length);
for (Entry<K, V> e = table[i]; e != null; e = e.next) {
Object k;
if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
return e.value;
}
}
return null;
}
private void addEntry(int hash, K key, V value, int bucketIndex) {
Entry<K, V> e = table[bucketIndex];
// 将新的元素插入链表前端
table[bucketIndex] = new Entry<>(hash, key, value, e);
if (size++ >= threshold)
resize(2 * table.length);
}
/**
* 扩展散列表的容量
* @param newCapacity
*/
void resize(int newCapacity) {
Entry[] oldTable = table;
int oldCapacity = oldTable.length;
Entry[] newTable = new Entry[newCapacity];
transfer(newTable);
table = newTable;
threshold = (int) (newCapacity * loadFactor);
}
/**
* 重新进行散列
* @param newTable
*/
void transfer(Entry[] newTable) {
Entry[] src = table;
int newCapacity = newTable.length;
for (int j = 0; j < src.length; j++) {
Entry<K, V> e = src[j];
if (e != null) {
src[j] = null;
do {
Entry<K, V> next = e.next;
int i = indexFor(e.hash, newCapacity);
e.next = newTable[i];
newTable[i] = e;
e = next;
} while (e != null);
}
}
}
/**
* 通过hash code 和table的length得到对应的数组下标
*
* @param h
* @param length
* @return
*/
static int indexFor(int h, int length) {
return h & (length - 1);
}
/**
* 通过一定算法计算出新的hash值
*
* @param h
* @return
*/
static int hash(int h) {
h ^= (h >>> 20) ^ (h >>> 12);
return h ^ (h >>> 7) ^ (h >>> 4);
}
public static void main(String[] args) {
EntryHashMap<String, String> hashMap = new EntryHashMap<String, String>();
hashMap.put("key", "value");
System.out.println(hashMap.get("key"));
}
}