第一篇文章

第二篇文章

 

处理冲突的方法

开放定址法

链地址法

再哈希法

 

 我一直对HashMap的内部结构很好奇,看了源码之后发现他是用散列实现的,即基于hashcode

    大体思想是这样的

    1. 首先建立一个数组用来存取数据,假设我们定义一个Object[] table用来存取map的value

这个很容易理解,key存在哪里呢?暂时我不想存储key

    2. 获得key的hashcode经过一定算法转成一个整数

        index,这个index的取值范围必须是0=<index<table.length,然后我将其作为数组元素的下标

        比如执行这样的操作:table[index] = value;

        这样存储的问题解决了

    3. 如何通过key去获取这个value呢

        这个太简单了,首先获取key的hashcode,然后通过刚才一样的算法得出元素下标index

        然后value = table[index]

 

简单的HashTable实现如下



public class SimpleHashMap {

    private Object[] table;

    public SimpleHashMap() {
        table = new Object[10];
    }

    public Object get(Object key) {
        int index = indexFor(hash(key.hashCode()), 10);
        return table[index];
    }

    public void put(Object key, Object value) {
        int index = indexFor(hash(key.hashCode()), 10);
        table[index] = value;
    }

    /**
     * 通过hash code 和table的length得到对应的数组下标
     * 
     * @param h
     * @param length
     * @return
     */
    static int indexFor(int h, int length) {
        return h & (length - 1);
    }

    /**
     * 通过一定算法计算出新的hash值
     * 
     * @param h
     * @return
     */
    static int hash(int h) {
        h ^= (h >>> 20) ^ (h >>> 12);
        return h ^ (h >>> 7) ^ (h >>> 4);
    }
    
    
    public static void main(String[] args){
        SimpleHashMap hashMap = new SimpleHashMap();
        hashMap.put("key", "value");
        System.out.println(hashMap.get("key"));
    }
}



这个简单的例子大概描述了散列实现hashmap的过程

但是还很不成熟,我发现至少存在以下两个问题

1. hashmap的size是固定的

2. 如果不同的key通过hashcode得出的index相同呢,这样的情况是存在的,如何解决?

 



public class Entry<K, V> {
    //存储key
    final K key;
    //存储value
    V value;
    //存储指向下一个节点的指针
    Entry<K, V> next;
    //存储key映射的hash
    final int hash;
}



public class EntryHashMap<K, V> {

    transient Entry[] table;

    transient int size;

    public EntryHashMap() {
        table = new Entry[10];
    }

    public V put(K key, V value) {
        // 计算出新的hash
        int hash = hash(key.hashCode());
        // 计算出数组小标i
        int i = indexFor(hash, table.length);
        // 遍历table[i],如果table[i]没有与新加入的key相等的,则新加入
        // 一个value到table[i]中的entry,否则将新的value覆盖旧的value并返回旧的value
        for (Entry<K, V> e = table[i]; e != null; e = e.next) {
            Object k;
            if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
                V oldValue = e.value;
                e.value = value;
                return oldValue;
            }
        }
        addEntry(hash, key, value, i);
        return null;
    }

    public V get(K key) {
        // 计算出新的hash
        int hash = hash(key.hashCode());
        // 计算出数组小标i
        int i = indexFor(hash, table.length);
        for (Entry<K, V> e = table[i]; e != null; e = e.next) {
            Object k;
            if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
                return e.value;
            }
        }
        return null;
    }

    private void addEntry(int hash, K key, V value, int bucketIndex) {
        Entry<K, V> e = table[bucketIndex];
        // 将新的元素插入链表前端
        table[bucketIndex] = new Entry<>(hash, key, value, e);
        size++;
    }

    /**
     * 通过hash code 和table的length得到对应的数组下标
     *



This works because Java HashMaps always have a capacity, i.e. number of buckets, as a power of 2. Let's work with a capacity of 256, which is 0x100, but it could work with any power of 2. Subtracting 1 from a power of 2 yields the exact bit mask needed to bitwise-and with the hash to get the proper bucket index, of range 0 to length - 1.

256 - 1 = 255
0x100 - 0x1 = 0xFF
E.g. a hash of 257 (0x101) gets bitwise-anded with 0xFF to yield a bucket number of 1.




 

* @param h
     * @param length
     * @return
     */
    static int indexFor(int h, int length) {
        return h & (length - 1);
    }

    /**
     * 通过一定算法计算出新的hash值
     * 
     * @param h
     * @return
     */
    static int hash(int h) {
        h ^= (h >>> 20) ^ (h >>> 12);
        return h ^ (h >>> 7) ^ (h >>> 4);
    }
    
}



上一节我们讲到了如何用散列和链表实现HashMap,其中有一个疑问今天已经有些答案了,为什么要用链表而不是数组

链表的作用有如下两点好处

1. remove操作时效率高,只维护指针的变化即可,无需进行移位操作

2. 重新散列时,原来散落在同一个槽中的元素可能会被散落在不同的地方,对于数组需要进行移位操作,而链表只需维护指针

 

今天研究下数组长度不够时的处理办法

table为散列数组

1. 首先定义一个不可修改的静态变量存储table的初始大小 DEFAULT_INITIAL_CAPACITY

2. 定义一个全局变量存储table的实际元素长度,size

3. 定义一个全局变量存储临界点,即元素的size>=threshold这个临界点时,扩大table的容量

4. 因为index是根据hash和table的长度计算得到的,所以还需要重新对所有元素进行散列

 



public class EntryHashMap<K, V> {

    /** 初始容量 */
    static final int DEFAULT_INITIAL_CAPACITY = 16;

    static final float DEFAULT_LOAD_FACTOR = 0.75f;

    /** 下次扩容的临界值 */
    int threshold;

    transient int size;

    final float loadFactor;

    transient Entry[] table;

    public EntryHashMap() {
        this.loadFactor = DEFAULT_LOAD_FACTOR;
        threshold = (int) (DEFAULT_INITIAL_CAPACITY * DEFAULT_LOAD_FACTOR);
        table = new Entry[DEFAULT_INITIAL_CAPACITY];
    }

    public V put(K key, V value) {
        // 计算出新的hash
        int hash = hash(key.hashCode());
        // 计算出数组小标i
        int i = indexFor(hash, table.length);
        // 遍历table[i],如果table[i]没有与新加入的key相等的,则新加入
        // 一个value到table[i]中的entry,否则将新的value覆盖旧的value并返回旧的value
        for (Entry<K, V> e = table[i]; e != null; e = e.next) {
            Object k;
            if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
                V oldValue = e.value;
                e.value = value;
                return oldValue;
            }
        }
        addEntry(hash, key, value, i);
        return null;
    }

    public V get(K key) {
        // 计算出新的hash
        int hash = hash(key.hashCode());
        // 计算出数组小标i
        int i = indexFor(hash, table.length);
        for (Entry<K, V> e = table[i]; e != null; e = e.next) {
            Object k;
            if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
                return e.value;
            }
        }
        return null;
    }

    private void addEntry(int hash, K key, V value, int bucketIndex) {
        Entry<K, V> e = table[bucketIndex];
        // 将新的元素插入链表前端
        table[bucketIndex] = new Entry<>(hash, key, value, e);
        if (size++ >= threshold)
            resize(2 * table.length);
    }

    /**
     * 扩展散列表的容量
     * @param newCapacity
     */
    void resize(int newCapacity) {
        Entry[] oldTable = table;
        int oldCapacity = oldTable.length;
        Entry[] newTable = new Entry[newCapacity];
        transfer(newTable);
        table = newTable;
        threshold = (int) (newCapacity * loadFactor);
    }

    /**
     * 重新进行散列
     * @param newTable
     */
    void transfer(Entry[] newTable) {
        Entry[] src = table;
        int newCapacity = newTable.length;
        for (int j = 0; j < src.length; j++) {
            Entry<K, V> e = src[j];
            if (e != null) {
                src[j] = null;
                do {
                    Entry<K, V> next = e.next;
                    int i = indexFor(e.hash, newCapacity);
                    e.next = newTable[i];
                    newTable[i] = e;
                    e = next;
                } while (e != null);
            }
        }
    }

    /**
     * 通过hash code 和table的length得到对应的数组下标
     * 
     * @param h
     * @param length
     * @return
     */
    static int indexFor(int h, int length) {
        return h & (length - 1);
    }

    /**
     * 通过一定算法计算出新的hash值
     * 
     * @param h
     * @return
     */
    static int hash(int h) {
        h ^= (h >>> 20) ^ (h >>> 12);
        return h ^ (h >>> 7) ^ (h >>> 4);
    }

    public static void main(String[] args) {
        EntryHashMap<String, String> hashMap = new EntryHashMap<String, String>();
        hashMap.put("key", "value");
        System.out.println(hashMap.get("key"));
    }
}