April 20, 2018

面试官逼问系列之:HashMap

本章彻底弄懂面试官逼问的HashMap

逼问1:什么是hash表?

hash表:通过一个哈希函数h(key),将关键字key映射为内存单元的某个地址h(key),并将value存储在这个内存单元中,哈希表也称散列表。

逼问2:Map接口都定义了什么方法?

逼问3:介绍下HashMap的存储结构?

一种链表组成的数组结构,为什么是链表呢?我们都知道哈希表解决哈希冲突的方法有开放地址法和链表法,HashMap使用的是链表法。当新建一个HashMap的时候,就会初始化一个Entry数组。

                  
//哈希表数组
transient Entry<K,V>[] table;
...
 
static class Entry<K,V> implements Map.Entry<K,V> {
    final K key;
    V value;
    Entry<K,V> next;
    final int hash;
    ...

}
                  
                

可以看出,Entry就是数组中的元素,每个 Map.Entry 其实就是一个key-value对,它持有一个指向下一个元素的引用,这就构成了链表。

打开HashMap的源码,映入眼帘的是这段代码:

                  
//数组默认初始容量,总是2的n次方
static final int DEFAULT_INITIAL_CAPACITY = 16;

//数组最大容量,总是2的n次方
static final int MAXIMUM_CAPACITY = 1 << 30;

//默认装填因子
static final float DEFAULT_LOAD_FACTOR = 0.75f;

//哈希表数组
transient Entry<K,V>[] table;

//哈希表长度
transient int size;

//扩容阀值
int threshold;

//装填因子
final float loadFactor;

//哈希表修改次数,对哈希表数组元素的增删都会使modCount+1
transient int modCount;
                  
                

逼问4:数组的容量为什么总是2的n次方?

其实解释起来也简单,我们知道哈希表插入数据时需要根据哈希函数得到插入数据的下标,这其中就会有哈希冲突等问题出现。虽然我们能够解决哈希冲突,但是作为HashMap的开发者,肯定是要尽量避免哈希冲突的,怎么避免呢?就是使得哈希函数得到的下标在数组种尽量均匀分布。

                  
atic final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
                  
                

HashMap的开发者就是使用哈希函数:(h = key.hashCode()) ^ (h >>> 16),使返回的数组下标均匀,例如key的hashcode=766132,转换二进制就是10111011000010110100,
用h >>> 16取出高16位:0000 0000 0000 0000 0000 0000 0000 1011,
则(h = key.hashCode()) ^ (h >>> 16)的运算结果:0000 0000 0000 1011 1011 0000 1011 1111,即十进制766143,使得到的下标均匀分布。

                  
0000 0000 0000 1011   1011 0000 1011 0100
0000 0000 0000 0000   0000 0000 0000 1011 (h >>> 16)
0000 0000 0000 1011   1011 0000 1011 1111 (&)
                  
                

在JDK1.7中,hash函数长下面这样子:

                  
static int indexFor(int h, int length) {
    return h & (length-1);
}
                  
                

当length总是 2 的n次方时,h & (length-1)运算等价于对length取模,也就是h%length,但是&比%具有更高的效率。设数组长度分别为15和16,优化后的hash码分别为8和9,那么& 运算后的结果如下:

逼问5:说说HashMap的存是怎么实现的?

                    
public V put(K key, V value) {
    // HashMap允许存放null键和null值。
    // 当key为null时,调用putForNullKey方法,将value放置在数组第一个位置。  
    if (key == null)
        return putForNullKey(value);
    // 根据key的keyCode重新计算hash值。
    int hash = hash(key.hashCode());
    // 搜索指定hash值在对应table中的索引。
    int i = indexFor(hash, table.length);
    // 如果i索引处的Entry不为null,通过循环不断遍历e元素的下一个元素。
    for (Entry<K,V> e = table[i]; e != null; e = e.next) {
        Object k;
        if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
            V oldValue = e.value;
            e.value = value;
            e.recordAccess(this);
            return oldValue;
        }
    }
    modCount++;
    // 将key、value添加到i索引处。
    addEntry(hash, key, value, i);
    return null;
}
                  
                
                  
void addEntry(int hash, K key, V value, int bucketIndex) {
    if ((size >= threshold) && (null != table[bucketIndex])) {
      // 扩容
        resize(2 * table.length);
        hash = (null != key) ? hash(key) : 0;
        // 根据hash获取Entry位置
        bucketIndex = indexFor(hash, table.length);
    }

    createEntry(hash, key, value, bucketIndex);
}
...

void createEntry(int hash, K key, V value, int bucketIndex) {
  // 获取指定bucketIndex索引处的Entry 
    Entry<K,V> e = table[bucketIndex];
    // 将新创建的Entry放入bucketIndex索引处,并让新的Entry指向原来的Entry
    table[bucketIndex] = new Entry<>(hash, key, value, e);
    size++;
}
                  
                

逼问6:HashMap为什么将头插法改为尾插法?

当我们将一个key-value对放入HashMap中时,先根据key的hashCode计算hash值,根据hash值得到这个元素所在Entry链表在数组中的下标, 如果这个位置上没有元素,就新建一个Entry,在这个位置上的元素将以链表的形式存放。如果有元素,就取出Entry链表,新加入的放在链头,这叫头部插入。但是,在java8之后,都是所用尾部插入了。为啥改为尾部插入呢?这是因为如果使用头部插入,在Hash扩容时会出现环形链表,假设还没扩容前链表是这样的:

当进行Hash扩容时,A,B,C三个元素通过重新计算索引位置后,有可能被放到了新数组的不同位置上,且使用头部插入,同一位置上新元素总会被放在链表的头部位置,这导致了B被放到了A的前面:

于是A与B成为了环形链表,如果这个时候去取值,悲剧就出现了——Infinite Loop。

但是如果使用尾插,在扩容时会保持链表元素原本的顺序,就不会出现链表成环的问题了。

就是说原本是A->B,在扩容后那个链表还是A->B。

HashMap的取实现

                  
public V get(Object key) {
    if (key == null)
        return getForNullKey();
    Entry<K,V> entry = getEntry(key);

    return null == entry ? null : entry.getValue();
}
...

private V getForNullKey() {
	// 空值是放在数组第一个位置的
    for (Entry<K,V> e = table[0]; e != null; e = e.next) {
        if (e.key == null)
            return e.value;
    }
    return null;
}
...

final Entry<K,V> getEntry(Object key) {
    int hash = (key == null) ? 0 : hash(key);
    for (Entry<K,V> e = table[indexFor(hash, table.length)];
         e != null;
         e = e.next) {
        Object k;
        if (e.hash == hash &&
            ((k = e.key) == key || (key != null && key.equals(k))))
            return e;
    }
    return null;
}
                  
                

查找方式为key-->hash-->Entry链表位置-->遍历Entry链表找到key和hash相等的元素。

逼问7:HashMap为什么是线程不安全的?

通过HashMap源码看到put/get方法都没有加同步锁,多线程情况最容易出现的就是:无法保证上一秒put的值,下一秒get的时候还是原值,所以线程安全还是无法保证。