理解Map

2019-09-10

map是在编程中使用频繁的数据结构，大部分语言都会有map相似的结构。

一、结构
- 1、hmap
- 2、bmap
二、初始化
三、数据访问
- mapaccess1
- mapaccess2
四、数据写入
四、扩容

一、结构

1、hmap

type hmap struct {
	count     int 
	flags     uint8
	B         uint8   
	noverflow uint16  
	hash0     uint32  

	buckets    unsafe.Pointer  
	oldbuckets unsafe.Pointer  
	nevacuate  uintptr         

	extra *mapextra  
}

type mapextra struct {
    overflow    *[]*bmap
    oldoverflow *[]*bmap
    nextOverflow *bmap
}

count：map 的大小，也就是 len() 的值。代指 map 中的键值对个数
flags：状态标识，主要是goroutine写入和扩容机制的相关状态控制。并发读写的判断条件之一就是该值
B：表示当前哈希表持有的 buckets 数量，但是因为哈希表中桶的数量都2的倍数，所以该字段会存储对数，也就是len(buckets) == 2^B
noverflow：溢出桶的数量
hash0：是哈希的种子，它能为哈希函数的结果引入随机性，这个值在创建哈希表时确定，并在调用哈希函数时作为参数传入
buckets：保存当前桶数据的指针地址（指向一段连续的内存地址，主要存储键值对数据）
oldbuckets：是哈希在扩容时用于保存之前buckets的字段，它的大小是当前buckets的一半
nevacuate：迁移进度
extra：原有buckets满载后，会发生扩容动作，在Go的机制中使用了增量扩容，如下为细项：
overflow 为hmap.buckets（当前）溢出桶的指针地址
oldoverflow 为hmap.oldbuckets（旧）溢出桶的指针地址
nextOverflow 为空闲溢出桶的指针地址

2、bmap

哈希表hmap的桶就是bmap，每一个bmap都能存储8个键值对，当哈希表中存储的数据过多，单个桶无法装满时就会使用extra.overflow中桶存储溢出的数据。上述两种不同的桶在内存中是连续存储的，我们在这里将它们分别称为正常桶和溢出桶。
这个桶的结构体bmap在Go语言源代码中的定义只包含一个简单的tophash字段，tophash存储了键的哈希的高8位，通过比较不同键的哈希的高8位可以减少访问键值对次数以提高性能。

bucketCntBits = 3
bucketCnt     = 1 << bucketCntBits

type bmap struct {
	tophash [bucketCnt]uint8
}

看到这里会懵逼，这个bmap能存放什么内容呢？map结构的设计要求存放不同类型的键值对，而golang又不支持泛型。所以键值对占据的内存空间大小只能在编译时进行推导，这些字段在运行时也都是通过计算内存地址的方式直接访问的，所以它的定义中就没有包含这些字段，但是我们能根据编译期间的 cmd/compile/internal/gc.bmap()（reflect.go）函数对它的结构重建：

func bmap(t *types.Type) *types.Type {
    //此处省略好几行
	field := make([]*types.Field, 0, 5)

	arr := types.NewArray(types.Types[TUINT8], BUCKETSIZE)
	field = append(field, makefield("topbits", arr))

	arr = types.NewArray(keytype, BUCKETSIZE)
	arr.SetNoalg(true)
	keys := makefield("keys", arr)
	field = append(field, keys)

	arr = types.NewArray(elemtype, BUCKETSIZE)
	arr.SetNoalg(true)
	elems := makefield("elems", arr)
	field = append(field, elems)

	if int(elemtype.Align) > Widthptr || int(keytype.Align) > Widthptr {
		field = append(field, makefield("pad", types.Types[TUINTPTR]))
	}

	otyp := types.NewPtr(bucket)
	if !types.Haspointers(elemtype) && !types.Haspointers(keytype) {
		otyp = types.Types[TUINTPTR]
	}
	overflow := makefield("overflow", otyp)
	field = append(field, overflow)
    //此处省略好几行
	return bucket
}

因此推断出的bmap结构如下：

type bmap struct {
    topbits  [8]uint8
    keys     [8]keytype
    elems    [8]valuetype
    pad      uintptr
    overflow uintptr
}

tophash：key的hash值高8位
keys：8个key
elems：8个value
pad：通过释放pad的填充来抢占先机，保证overflow是结构中的最后一块内存
overflow：下一个溢出桶的指针地址（当 hash 冲突发生时）

综上，map的结构如下图：
map结构

二、初始化

从runtime.map.go中我们可以看到map的创建有三个方法：makemap64、makemap_small、makemap。我们分别来看一下。

1、makemap_small

func makemap_small() *hmap {
	h := new(hmap)
	h.hash0 = fastrand()
	return h
}

当我们使用make(map[k]v)方法创建map的时候（也就是没有指定map大小的情况），会通过makemap_small()创建。
使用make(map[k]v, hint) 来创建的话，如果hint小于等于bucketCnt(8个)的时候，也会通过makemap_small()创建。
map被分配到堆上。

2、makemap

func makemap(t *maptype, hint int, h *hmap) *hmap {
   	mem, overflow := math.MulUintptr(uintptr(hint), t.bucket.size)
   	if overflow || mem > maxAlloc {
   		hint = 0
   	}
   
   	if h == nil {
   		h = new(hmap)
   	}
   	h.hash0 = fastrand()
   
   	B := uint8(0)
   	for overLoadFactor(hint, B) {
   		B++
   	}
   	h.B = B
   
   	if h.B != 0 {
   		var nextOverflow *bmap
   		h.buckets, nextOverflow = makeBucketArray(t, h.B, nil)
   		if nextOverflow != nil {
   			h.extra = new(mapextra)
   			h.extra.nextOverflow = nextOverflow
   		}
   	}
   
   	return h
   }

1、计算哈希占用的内存是否溢出或者超出能分配的最大值；
2、调用 fastrand 获取一个随机的哈希种子；
3、根据传入的 hint 计算出需要的最小需要的桶的数量；
3、（当hint大于等于8）第一次初始化map时，就会通过调用makeBucketArray对buckets进行分配；

func makeBucketArray(t *maptype, b uint8, dirtyalloc unsafe.Pointer) (buckets unsafe.Pointer, nextOverflow *bmap) {
	base := bucketShift(b)
	nbuckets := base
	if b >= 4 {
		nbuckets += bucketShift(b - 4)
		sz := t.bucket.size * nbuckets
		up := roundupsize(sz)
		if up != sz {
			nbuckets = up / t.bucket.size
		}
	}

	if dirtyalloc == nil {
		buckets = newarray(t.bucket, int(nbuckets))
	} else {
		buckets = dirtyalloc
		size := t.bucket.size * nbuckets
		if t.bucket.ptrdata != 0 {
			memclrHasPointers(buckets, size)
		} else {
			memclrNoHeapPointers(buckets, size)
		}
	}

	if base != nbuckets {
		nextOverflow = (*bmap)(add(buckets, base*uintptr(t.bucketsize)))
		last := (*bmap)(add(buckets, (nbuckets-1)*uintptr(t.bucketsize)))
		last.setoverflow(t, (*bmap)(buckets))
	}
	return buckets, nextOverflow
}

makeBucketArray会根据传入的B计算出的需要创建的桶数量在内存中分配一片连续的空间用于存储数据。当桶的数量小于2^4时，由于数据较少、使用溢出桶的可能性较低，这时就会省略创建的过程以减少额外开销；当桶的数量多于2^4 时，就会额外创建2^𝐵−4个溢出桶。

3、makemap64

makemap64仅针对int64的hint做了校验，同样也是通过makemap方法创建

func makemap64(t *maptype, hint int64, h *hmap) *hmap {
	if int64(int(hint)) != hint {
		hint = 0
	}
	return makemap(t, int(hint), h)
}

三、数据访问

map的访问主要有两种方式：mapaccess1、mapaccess2。

mapaccess1的方式为接收字段为一个也就是value :=map[key]的方式。
mapaccess2的方式为接收字段为两个也就是value,ok:=map[key]的方式。

总体流程如图 map访问

mapaccess1

func mapaccess1(t *maptype, h *hmap, key unsafe.Pointer) unsafe.Pointer {
	if raceenabled && h != nil {
		callerpc := getcallerpc()
		pc := funcPC(mapaccess1)
		racereadpc(unsafe.Pointer(h), callerpc, pc)
		raceReadObjectPC(t.key, key, callerpc, pc)
	}
	if msanenabled && h != nil {
		msanread(key, t.key.size)
	}
	if h == nil || h.count == 0 {
		if t.hashMightPanic() {
			t.key.alg.hash(key, 0) // see issue 23734
		}
		return unsafe.Pointer(&zeroVal[0])
	}
	if h.flags&hashWriting != 0 {
		throw("concurrent map read and map write")
	}
	alg := t.key.alg
	hash := alg.hash(key, uintptr(h.hash0))
	m := bucketMask(h.B)
	b := (*bmap)(add(h.buckets, (hash&m)*uintptr(t.bucketsize)))
	if c := h.oldbuckets; c != nil {
		if !h.sameSizeGrow() {
			// There used to be half as many buckets; mask down one more power of two.
			m >>= 1
		}
		oldb := (*bmap)(add(c, (hash&m)*uintptr(t.bucketsize)))
		if !evacuated(oldb) {
			b = oldb
		}
	}
	top := tophash(hash)
bucketloop:
	for ; b != nil; b = b.overflow(t) {
		for i := uintptr(0); i < bucketCnt; i++ {
			if b.tophash[i] != top {
				if b.tophash[i] == emptyRest {
					break bucketloop
				}
				continue
			}
			k := add(unsafe.Pointer(b), dataOffset+i*uintptr(t.keysize))
			if t.indirectkey() {
				k = *((*unsafe.Pointer)(k))
			}
			if alg.equal(key, k) {
				e := add(unsafe.Pointer(b), dataOffset+bucketCnt*uintptr(t.keysize)+i*uintptr(t.elemsize))
				if t.indirectelem() {
					e = *((*unsafe.Pointer)(e))
				}
				return e
			}
		}
	}
	return unsafe.Pointer(&zeroVal[0])
}

1、判断map是否为nil，长度是否为0。若是则返回零值
2、判断当前是否并发读写map，若是则抛出异常
3、根据key的不同类型调用不同的hash方法计算得出 hash 值
4、确定key在哪一个bucket中，并得到其位置
5、判断是否正在发生扩容（h.oldbuckets 是否为 nil），若正在扩容，则到老的buckets中查找（因为buckets中可能还没有值，搬迁未完成），若该bucket已经搬迁完毕。则到buckets中继续查找
6、计算hash的tophash值（高八位）
7、根据计算出来的tophash，依次循环对比buckets的tophash值（快速试错）
8、如果tophash匹配成功，则计算key的所在位置，正式完整的对比两个key是否一致
9、若查找成功并返回，若不存在，则返回零值

mapaccess2

mapaccess2与mapaccess1类似，在返回的时候加了bool值。

四、数据写入

map的写入通过mapassign方法实现，与mapaccess1方式类似。

func mapassign(t *maptype, h *hmap, key unsafe.Pointer) unsafe.Pointer {
	if h == nil {
		panic(plainError("assignment to entry in nil map"))
	}
	if raceenabled {
		callerpc := getcallerpc()
		pc := funcPC(mapassign)
		racewritepc(unsafe.Pointer(h), callerpc, pc)
		raceReadObjectPC(t.key, key, callerpc, pc)
	}
	if msanenabled {
		msanread(key, t.key.size)
	}
	if h.flags&hashWriting != 0 {
		throw("concurrent map writes")
	}
	alg := t.key.alg
	hash := alg.hash(key, uintptr(h.hash0))

	h.flags ^= hashWriting

	if h.buckets == nil {
		h.buckets = newobject(t.bucket) // newarray(t.bucket, 1)
	}

again:
	bucket := hash & bucketMask(h.B)
	if h.growing() {
		growWork(t, h, bucket)
	}
	b := (*bmap)(unsafe.Pointer(uintptr(h.buckets) + bucket*uintptr(t.bucketsize)))
	top := tophash(hash)

	var inserti *uint8
	var insertk unsafe.Pointer
	var elem unsafe.Pointer
bucketloop:
	for {
		for i := uintptr(0); i < bucketCnt; i++ {
			if b.tophash[i] != top {
				if isEmpty(b.tophash[i]) && inserti == nil {
					inserti = &b.tophash[i]
					insertk = add(unsafe.Pointer(b), dataOffset+i*uintptr(t.keysize))
					elem = add(unsafe.Pointer(b), dataOffset+bucketCnt*uintptr(t.keysize)+i*uintptr(t.elemsize))
				}
				if b.tophash[i] == emptyRest {
					break bucketloop
				}
				continue
			}
			k := add(unsafe.Pointer(b), dataOffset+i*uintptr(t.keysize))
			if t.indirectkey() {
				k = *((*unsafe.Pointer)(k))
			}
			if !alg.equal(key, k) {
				continue
			}
			// already have a mapping for key. Update it.
			if t.needkeyupdate() {
				typedmemmove(t.key, k, key)
			}
			elem = add(unsafe.Pointer(b), dataOffset+bucketCnt*uintptr(t.keysize)+i*uintptr(t.elemsize))
			goto done
		}
		ovf := b.overflow(t)
		if ovf == nil {
			break
		}
		b = ovf
	}

	if !h.growing() && (overLoadFactor(h.count+1, h.B) || tooManyOverflowBuckets(h.noverflow, h.B)) {
		hashGrow(t, h)
		goto again 
	}

	if inserti == nil {
		newb := h.newoverflow(t, b)
		inserti = &newb.tophash[0]
		insertk = add(unsafe.Pointer(newb), dataOffset)
		elem = add(insertk, bucketCnt*uintptr(t.keysize))
	}

	if t.indirectkey() {
		kmem := newobject(t.key)
		*(*unsafe.Pointer)(insertk) = kmem
		insertk = kmem
	}
	if t.indirectelem() {
		vmem := newobject(t.elem)
		*(*unsafe.Pointer)(elem) = vmem
	}
	typedmemmove(t.key, insertk, key)
	*inserti = top
	h.count++

done:
	if h.flags&hashWriting == 0 {
		throw("concurrent map writes")
	}
	h.flags &^= hashWriting
	if t.indirectelem() {
		elem = *((*unsafe.Pointer)(elem))
	}
	return elem
}

形如map[key]的表达式出现在赋值符号左侧时，该表达式也会在编译期间转换成调用runtime.mapassign函数，首先是函数会根据传入的键拿到对应的哈希和桶.
然后通过遍历比较桶中存储的tophash和键的哈希，如果找到了相同结果就会获取目标位置的地址并返回，其中inserti表示目标元素的在桶中的索引，insertk和val分别表示键值对的地址，获得目标地址之后会直接通过算术计算进行寻址获得键值对k和val。
在for循环中会依次遍历正常桶和溢出桶中存储的数据，整个过程会依次判断tophash是否相等、key是否相等，遍历结束后会从循环中跳出。

四、扩容

在数据写入过程中会涉及到扩容的问题。当装载因子已经超过6.5或哈希使用了太多溢出桶的时候会触发扩容。

if !h.growing() && (overLoadFactor(h.count+1, h.B) || tooManyOverflowBuckets(h.noverflow, h.B)) {
	hashGrow(t, h)
	goto again // Growing the table invalidates everything, so try again
}

判断是不是sameSizeGrow等大小”扩容”。过多的overflow使用，使用等大小的buckets重新整理，回收多余的overflow桶，提高map读写效率，减少溢出桶占用。
首先将原有的桶数组设置到oldbuckets，创建一组新桶和预创建的溢出桶，随后将新的空桶设置到buckets上，溢出桶也使用了相同的逻辑进行更新。
在hashGrow()中只是标记扩容，申请空间等初始化功能。实际的复制动作实在growWork() and evacuate()中增量的进行。

func hashGrow(t *maptype, h *hmap) {
	bigger := uint8(1)
	if !overLoadFactor(h.count+1, h.B) {
		bigger = 0
		h.flags |= sameSizeGrow
	}
	oldbuckets := h.buckets
	newbuckets, nextOverflow := makeBucketArray(t, h.B+bigger, nil)

	flags := h.flags &^ (iterator | oldIterator)
	if h.flags&iterator != 0 {
		flags |= oldIterator
	}
	h.B += bigger
	h.flags = flags
	h.oldbuckets = oldbuckets
	h.buckets = newbuckets
	h.nevacuate = 0
	h.noverflow = 0

	if h.extra != nil && h.extra.overflow != nil {
		if h.extra.oldoverflow != nil {
			throw("oldoverflow is not nil")
		}
		h.extra.oldoverflow = h.extra.overflow
		h.extra.overflow = nil
	}
	if nextOverflow != nil {
		if h.extra == nil {
			h.extra = new(mapextra)
		}
		h.extra.nextOverflow = nextOverflow
	}

}

在assign和delete操作中，都会触发扩容growWork：

确保我们接下来的使用，相应的将oldbucket转移到bucket中。再搬迁一次搬迁过程中的桶确保扩容进度。

func growWork(t *maptype, h *hmap, bucket uintptr) {
	evacuate(t, h, bucket&h.oldbucketmask())

	if h.growing() {
		evacuate(t, h, h.nevacuate)
	}
}

一般来说，新桶数组大小是原来的2倍(在!sameSizeGrow()条件下)。搬迁过程如下，首先了解一下变量的含义。

变量	释义
x *bmap	桶x表示与在旧桶时相同的位置，即位于新桶前半段
y *bmap	桶y表示与在旧桶时相同的位置+旧桶数组大小，即位于新桶后半段
xi int	桶x的slot索引
yi int	桶y的slot索引
xk unsafe.Pointer	桶y的slot索引
yi int	索引xi对应的key地址
yk unsafe.Pointer	索引yi对应的key地址
xv unsafe.Pointer	索引xi对应的value地址
yv unsafe.Pointer	索引yi对应的value地址

假设旧桶数组大小为2^B，新桶数组大小为2*2^B，对于某个hash值X若 X & (2^B) == 0，说明 X < 2^B，那么它将落入与旧桶集合相同的索引xi中；否则，它将落入xi + 2^B中。

扩容过程如图 map扩容

func evacuate(t *maptype, h *hmap, oldbucket uintptr) {
	b := (*bmap)(add(h.oldbuckets, oldbucket*uintptr(t.bucketsize)))
	newbit := h.noldbuckets()
	if !evacuated(b) {
		var xy [2]evacDst
		x := &xy[0]
		x.b = (*bmap)(add(h.buckets, oldbucket*uintptr(t.bucketsize)))
		x.k = add(unsafe.Pointer(x.b), dataOffset)
		x.e = add(x.k, bucketCnt*uintptr(t.keysize))

		if !h.sameSizeGrow() {
			// Only calculate y pointers if we're growing bigger.
			// Otherwise GC can see bad pointers.
			y := &xy[1]
			y.b = (*bmap)(add(h.buckets, (oldbucket+newbit)*uintptr(t.bucketsize)))
			y.k = add(unsafe.Pointer(y.b), dataOffset)
			y.e = add(y.k, bucketCnt*uintptr(t.keysize))
		}

		for ; b != nil; b = b.overflow(t) {
			k := add(unsafe.Pointer(b), dataOffset)
			e := add(k, bucketCnt*uintptr(t.keysize))
			for i := 0; i < bucketCnt; i, k, e = i+1, add(k, uintptr(t.keysize)), add(e, uintptr(t.elemsize)) {
				top := b.tophash[i]
				if isEmpty(top) {
					b.tophash[i] = evacuatedEmpty
					continue
				}
				if top < minTopHash {
					throw("bad map state")
				}
				k2 := k
				if t.indirectkey() {
					k2 = *((*unsafe.Pointer)(k2))
				}
				var useY uint8
				if !h.sameSizeGrow() {
					// Compute hash to make our evacuation decision (whether we need
					// to send this key/elem to bucket x or bucket y).
					hash := t.key.alg.hash(k2, uintptr(h.hash0))
					if h.flags&iterator != 0 && !t.reflexivekey() && !t.key.alg.equal(k2, k2) {
						useY = top & 1
						top = tophash(hash)
					} else {
						if hash&newbit != 0 {
							useY = 1
						}
					}
				}

				if evacuatedX+1 != evacuatedY || evacuatedX^1 != evacuatedY {
					throw("bad evacuatedN")
				}

				b.tophash[i] = evacuatedX + useY // evacuatedX + 1 == evacuatedY
				dst := &xy[useY]                 // evacuation destination

				if dst.i == bucketCnt {
					dst.b = h.newoverflow(t, dst.b)
					dst.i = 0
					dst.k = add(unsafe.Pointer(dst.b), dataOffset)
					dst.e = add(dst.k, bucketCnt*uintptr(t.keysize))
				}
				dst.b.tophash[dst.i&(bucketCnt-1)] = top // mask dst.i as an optimization, to avoid a bounds check
				if t.indirectkey() {
					*(*unsafe.Pointer)(dst.k) = k2 // copy pointer
				} else {
					typedmemmove(t.key, dst.k, k) // copy elem
				}
				if t.indirectelem() {
					*(*unsafe.Pointer)(dst.e) = *(*unsafe.Pointer)(e)
				} else {
					typedmemmove(t.elem, dst.e, e)
				}
				dst.i++
				dst.k = add(dst.k, uintptr(t.keysize))
				dst.e = add(dst.e, uintptr(t.elemsize))
			}
		}
		if h.flags&oldIterator == 0 && t.bucket.ptrdata != 0 {
			b := add(h.oldbuckets, oldbucket*uintptr(t.bucketsize))
			ptr := add(b, dataOffset)
			n := uintptr(t.bucketsize) - dataOffset
			memclrHasPointers(ptr, n)
		}
	}

	if oldbucket == h.nevacuate {
		advanceEvacuationMark(h, t, newbit)
	}
}