runtime/proc.go : 4380
func retake(now int64) uint32 { ...... for i := 0; i < len(allp); i++ { //遍历所有p,然后根据p的状态进行抢占 _p_ := allp[i] if _p_ == nil { // This can happen if procresize has grown // allp but not yet created new Ps. continue } //_p_.sysmontick用于sysmon监控线程监控p时记录系统调用时间和运行时间,由sysmon监控线程记录 pd := &_p_.sysmontick s := _p_.status if s == _Psyscall { //系统调用抢占处理 // Retake P from syscall if it's there for more than 1 sysmon tick (at least 20us). //_p_.syscalltick用于记录系统调用的次数,主要由工作线程在完成系统调用之后++ t := int64(_p_.syscalltick) if int64(pd.syscalltick) != t { //pd.syscalltick != _p_.syscalltick,说明已经不是上次观察到的系统调用了, //而是另外一次系统调用,所以需要重新记录tick和when值 pd.syscalltick = uint32(t) pd.syscallwhen = now continue } //pd.syscalltick == _p_.syscalltick,说明还是之前观察到的那次系统调用, //计算这次系统调用至少过了多长时间了 // On the one hand we don't want to retake Ps if there is no other work to do, // but on the other hand we want to retake them eventually // because they can prevent the sysmon thread from deep sleep. // 只要满足下面三个条件中的任意一个,则抢占该p,否则不抢占 // 1. p的运行队列里面有等待运行的goroutine // 2. 没有无所事事的p // 3. 从上一次监控线程观察到p对应的m处于系统调用之中到现在已经超过10了毫秒 if runqempty(_p_) && atomic.Load(&sched.nmspinning)+atomic.Load(&sched.npidle) > 0 && pd.syscallwhen+10*1000*1000 > now { continue } // Drop allpLock so we can take sched.lock. unlock(&allpLock) // Need to decrement number of idle locked M's // (pretending that one more is running) before the CAS. // Otherwise the M from which we retake can exit the syscall, // increment nmidle and report deadlock. incidlelocked(-1) if atomic.Cas(&_p_.status, s, _Pidle) { ...... _p_.syscalltick++ handoffp(_p_) //寻找一个新的m出来接管P } incidlelocked(1) lock(&allpLock) } else if s == _Prunning { //运行时间太长,抢占处理,前面已经分析 ...... } } ......}
retake函数所做的主要事情就在遍历所有的p,并根据每个p的状态以及处于该状态的时长来决定是否需要发起抢占。从代码可以看出只有当p处于 _Prunning 或 _Psyscall 状态时才会进行抢占,而因p处于_Prunning状态的时间过长而发生的抢占调度我们在上一节已经分析过了,现在我们来看看如何对处于系统调用之中的p(对应的goroutine)进行抢占。
根据retake函数的代码,只要满足下面三个条件中的任意一个就需要对处于_Psyscall 状态的p进行抢占:
- p的运行队列里面有等待运行的goroutine。这用来保证当前p的本地运行队列中的goroutine得到及时的调度,因为该p对应的工作线程正处于系统调用之中,无法调度队列中goroutine,所以需要寻找另外一个工作线程来接管这个p从而达到调度这些goroutine的目的;
- 没有空闲的p。表示其它所有的p都已经与工作线程绑定且正忙于执行go代码,这说明系统比较繁忙,所以需要抢占当前正处于系统调用之中而实际上系统调用并不需要的这个p并把它分配给其它工作线程去调度其它goroutine。
- 从上一次监控线程观察到p对应的m处于系统调用之中到现在已经超过10了毫秒。这表示只要系统调用超时,就对其抢占,而不管是否真的有goroutine需要调度,这样保证sysmon线程不至于觉得无事可做(sysmon线程会判断retake函数的返回值,如果为0,表示retake并未做任何抢占,所以会觉得没啥事情做)而休眠太长时间最终会降低sysmon监控的实时性。至于如何计算某一次系统调用时长可以参考上面代码及注释。
runtime/proc.go : 1995
// Hands off P from syscall or locked M.// Always runs without a P, so write barriers are not allowed.//go:nowritebarrierrecfunc handoffp(_p_ *p) { // handoffp must start an M in any situation where // findrunnable would return a G to run on _p_. // if it has local work, start it straight away //运行队列不为空,需要启动m来接管 if !runqempty(_p_) || sched.runqsize != 0 { startm(_p_, false) return } // if it has GC work, start it straight away //有垃圾回收工作需要做,也需要启动m来接管 if gcBlackenEnabled != 0 && gcMarkWorkAvailable(_p_) { startm(_p_, false) return } // no local work, check that there are no spinning/idle M's, // otherwise our help is not required //所有其它p都在运行goroutine,说明系统比较忙,需要启动m if atomic.Load(&sched.nmspinning)+atomic.Load(&sched.npidle) == 0 && atomic.Cas(&sched.nmspinning, 0, 1) { // TODO: fast atomic startm(_p_, true) return } lock(&sched.lock) if sched.gcwaiting != 0 { //如果gc正在等待Stop The World _p_.status = _Pgcstop sched.stopwait-- if sched.stopwait == 0 { notewakeup(&sched.stopnote) } unlock(&sched.lock) return } ...... if sched.runqsize != 0 { //全局运行队列有工作要做 unlock(&sched.lock) startm(_p_, false) return } // If this is the last running P and nobody is polling network, // need to wakeup another M to poll network. //不能让所有的p都空闲下来,因为需要监控网络连接读写事件 if sched.npidle == uint32(gomaxprocs-1) && atomic.Load64(&sched.lastpoll) != 0 { unlock(&sched.lock) startm(_p_, false) return } pidleput(_p_) //无事可做,把p放入全局空闲队列 unlock(&sched.lock)}
- _p_的本地运行队列或全局运行队列里面有待运行的goroutine;
- 需要帮助gc完成标记工作;
- 系统比较忙,所有其它_p_都在运行goroutine,需要帮忙;
- 所有其它P都已经处于空闲状态,如果需要监控网络连接读写事件,则需要启动新的m来poll网络连接。
package mainimport ( "fmt" "os")func main() { fd, err := os.Open("./syscall.go") //一定会执行系统调用 if err != nil { fmt.Println(err) } fd.Close()}
syscall/asm_linux_amd64.s : 42
// func Syscall6(trap, a1, a2, a3, a4, a5, a6 uintptr) (r1, r2, err uintptr)TEXT ·Syscall6(SB), NOSPLIT, $0-80 CALL runtime·entersyscall(SB) #按照linux系统约定复制参数到寄存器并调用syscall指令进入内核 MOVQ a1+8(FP), DI MOVQ a2+16(FP), SI MOVQ a3+24(FP), DX MOVQ a4+32(FP), R10 MOVQ a5+40(FP), R8 MOVQ a6+48(FP), R9 MOVQ trap+0(FP), AX#syscall entry,系统调用编号放入AX SYSCALL #进入内核 #从内核返回,判断返回值,linux使用 -1 ~ -4095 作为错误码 CMPQ AX, $0xfffffffffffff001 JLS ok6 #系统调用返回错误,为Syscall6函数准备返回值 MOVQ $-1, r1+56(FP) MOVQ $0, r2+64(FP) NEGQ AX MOVQ AX, err+72(FP) CALL runtime·exitsyscall(SB) RETok6: #系统调用返回错误 MOVQ AX, r1+56(FP) MOVQ DX, r2+64(FP) MOVQ $0, err+72(FP) CALL runtime·exitsyscall(SB) RET
- 调用runtime.entersyscall函数;
- 使用SYSCALL指令进入系统调用;
- 调用runtime.exitsyscall函数。
runtime/proc.go : 2847
// Standard syscall entry used by the go syscall library and normal cgo calls.//go:nosplitfunc entersyscall() { reentersyscall(getcallerpc(), getcallersp())}func reentersyscall(pc, sp uintptr) { _g_ := getg() //执行系统调用的goroutine // Disable preemption because during this function g is in Gsyscall status, // but can have inconsistent g->sched, do not let GC observe it. _g_.m.locks++ // Entersyscall must not call any function that might split/grow the stack. // (See details in comment above.) // Catch calls that might, by replacing the stack guard with something that // will trip any stack check and leaving a flag to tell newstack to die. _g_.stackguard0 = stackPreempt _g_.throwsplit = true // Leave SP around for GC and traceback. save(pc, sp) //save函数分析过,用来保存g的现场信息,rsp, rbp, rip等等 _g_.syscallsp = sp _g_.syscallpc = pc casgstatus(_g_, _Grunning, _Gsyscall) ...... _g_.m.syscalltick = _g_.m.p.ptr().syscalltick _g_.sysblocktraced = true _g_.m.mcache = nil pp := _g_.m.p.ptr() pp.m = 0 //p解除与m之间的绑定 _g_.m.oldp.set(pp) //把p记录在oldp中,等从系统调用返回时,优先绑定这个p _g_.m.p = 0 //m解除与p之间的绑定 atomic.Store(&pp.status, _Psyscall) //修改当前p的状态,sysmon线程依赖状态实施抢占 ..... _g_.m.locks--}
- 有sysmon监控线程来抢占剥夺,为什么这里还需要主动解除m和p之间的绑定关系呢?原因主要在于这里主动解除m和p的绑定关系之后,sysmon线程就不需要通过加锁或cas操作来修改m.p成员从而解除m和p之间的关系;
- 为什么要记录工作线程进入系统调用之前所绑定的p呢?因为记录下来可以让工作线程从系统调用返回之后快速找到一个可能可用的p,而不需要加锁从sched的pidle全局队列中去寻找空闲的p。
- 为什么要把进入系统调用之前所绑定的p搬到m的oldp中,而不是直接使用m的p成员?笔者第一次看到这里也有疑惑,于是翻看了github上的提交记录,从代码作者的提交注释来看,这里主要是从保持m的p成员清晰的语义方面考虑的,因为处于系统调用的m事实上并没有绑定p,所以如果记录在p成员中,p的语义并不够清晰明了。
runtime/proc.go : 2931
// The goroutine g exited its system call.// Arrange for it to run on a cpu again.// This is called only from the go syscall library, not// from the low-level system calls used by the runtime.//// Write barriers are not allowed because our P may have been stolen.////go:nosplit//go:nowritebarrierrecfunc exitsyscall() { _g_ := getg() ...... oldp := _g_.m.oldp.ptr() //进入系统调用之前所绑定的p _g_.m.oldp = 0 if exitsyscallfast(oldp) {//因为在进入系统调用之前已经解除了m和p之间的绑定,所以现在需要绑定p //绑定成功,设置一些状态 ...... // There's a cpu for us, so we can run. _g_.m.p.ptr().syscalltick++ //系统调用完成,增加syscalltick计数,sysmon线程依靠它判断是否是同一次系统调用 // We need to cas the status and scan before resuming... //casgstatus函数会处理一些垃圾回收相关的事情,我们只需知道该函数重新把g设置成_Grunning状态即可 casgstatus(_g_, _Gsyscall, _Grunning) ...... return } ...... _g_.m.locks-- // Call the scheduler. //没有绑定到p,调用mcall切换到g0栈执行exitsyscall0函数 mcall(exitsyscall0) ......}
runtime/proc.go : 3020
//go:nosplitfunc exitsyscallfast(oldp *p) bool { _g_ := getg() ...... // Try to re-acquire the last P. //尝试快速绑定进入系统调用之前所使用的p if oldp != nil && oldp.status == _Psyscall && atomic.Cas(&oldp.status, _Psyscall, _Pidle) { //使用cas操作获取到p的使用权,所以之后的代码不需要使用锁就可以直接操作p // There's a cpu for us, so we can run. wirep(oldp) //绑定p exitsyscallfast_reacquired() return true } // Try to get any other idle P. if sched.pidle != 0 { var ok bool systemstack(func() { ok = exitsyscallfast_pidle() //从全局队列中寻找空闲的p,需要加锁,比较慢 ...... }) if ok { return true } } return false}
runtime/proc.go : 4099
// wirep is the first step of acquirep, which actually associates the// current M to _p_. This is broken out so we can disallow write// barriers for this part, since we don't yet have a P.////go:nowritebarrierrec//go:nosplitfunc wirep(_p_ *p) { _g_ := getg() ...... //相互赋值,绑定m和p _g_.m.mcache = _p_.mcache _g_.m.p.set(_p_) _p_.m.set(_g_.m) _p_.status = _Prunning}
runtime/proc.go : 3083
func exitsyscallfast_pidle() bool { lock(&sched.lock) _p_ := pidleget()//从全局空闲队列中获取p if _p_ != nil && atomic.Load(&sched.sysmonwait) != 0 { atomic.Store(&sched.sysmonwait, 0) notewakeup(&sched.sysmonnote) } unlock(&sched.lock) if _p_ != nil { acquirep(_p_) return true } return false}
runtime/proc.go : 3098
// exitsyscall slow path on g0.// Failed to acquire P, enqueue gp as runnable.////go:nowritebarrierrecfunc exitsyscall0(gp *g) { _g_ := getg() casgstatus(gp, _Gsyscall, _Grunnable) //当前工作线程没有绑定到p,所以需要解除m和g的关系 dropg() lock(&sched.lock) var _p_ *p if schedEnabled(_g_) { _p_ = pidleget() //再次尝试获取空闲的p } if _p_ == nil { //还是没有空闲的p globrunqput(gp) //把g放入全局运行队列 } else if atomic.Load(&sched.sysmonwait) != 0 { atomic.Store(&sched.sysmonwait, 0) notewakeup(&sched.sysmonnote) } unlock(&sched.lock) if _p_ != nil {//获取到了p acquirep(_p_) //绑定p //继续运行g execute(gp, false) // Never returns. } if _g_.m.lockedg != 0 { // Wait until another thread schedules gp and so m again. stoplockedm() execute(gp, false) // Never returns. } stopm() //当前工作线程进入睡眠,等待被其它线程唤醒 //从睡眠中被其它线程唤醒,执行schedule调度循环重新开始工作 schedule() // Never returns.}
- 对于运行时间过长的goroutine,系统监控线程首先会提出抢占请求,然后工作线程在适当的时候会去响应这个请求并暂停被抢占goroutine的运行,最后工作线程再调用schedule函数继续去调度其它goroutine;
- 而对于系统调用执行时间过长的goroutine,调度器并没有暂停其执行,只是剥夺了正在执行系统调用的工作线程所绑定的p,要等到工作线程从系统调用返回之后绑定p失败的情况下该goroutine才会真正被暂停运行。
package mainimport ( "fmt" "runtime")func g2() { sum := 0 for { sum++ }}func main() { go g2() for { runtime.Gosched() fmt.Println("main is scheduled!") }}