結(jié)束子進(jìn)程以及它的子進(jìn)程

在用 goreman 管理整個(gè) TiDB 集群的時(shí)候,我發(fā)現(xiàn) goreman 的 run stop 功能并不能正常的干掉 TiDB 組件,開始我覺(jué)得是我們自己代碼的沒(méi)有,沒(méi)有很好的處理相關(guān)信號(hào),但后來(lái)發(fā)現(xiàn),TiDB 這邊是壓根沒(méi)有收到信號(hào),所以問(wèn)題鐵定在其他的地方,于是瀏覽下 goreman 的源碼,發(fā)現(xiàn)使用的是 /bin/sh -c 的方式來(lái)啟動(dòng)的 TiDB 程序,可能就跟這個(gè)有關(guān)系。

首先,寫兩個(gè)簡(jiǎn)單的程序,一個(gè)是直接啟動(dòng)進(jìn)程,另一個(gè)是使用 /bin/sh -c 的方式啟動(dòng)。簡(jiǎn)單起見,我們直接 sleep 很長(zhǎng)一段時(shí)間,然后在 10 秒之后,kill 掉進(jìn)程。

func child() {
    cmd := exec.Command("sleep", "600")
    start := time.Now()
    time.AfterFunc(10*time.Second, func() { cmd.Process.Kill() })
    ecmd.Run()
}

func grand_child() {
    cmd := exec.Command("/bin/sh", "-c", "sleep 1000")
    time.AfterFunc(10*time.Second, func() { cmd.Process.Kill() })
    cmd.Run()
}

啟動(dòng)之后,我們會(huì)發(fā)現(xiàn)有三個(gè) sleep 進(jìn)程,其中,31126 是 31124 的子進(jìn)程。

PPID   PID  PGID   SID TTY      TPGID STAT   UID   TIME COMMAND
31119 31124 31119 30890 pts/0    31119 S+    1000   0:00 /bin/sh -c sleep 1000
31119 31125 31119 30890 pts/0    31119 S+    1000   0:00 sleep 600
31124 31126 31119 30890 pts/0    31119 S+    1000   0:00 sleep 1000

10 秒之后,我們發(fā)現(xiàn),31126 還是存在,并且沒(méi)有被 kill 掉,也就是,直接 kill 31124 并不能干掉它的子進(jìn)程。而且 31126 的父進(jìn)程現(xiàn)在已經(jīng)變成了 1,也就是 31126 變成了孤兒進(jìn)程,然后被 init 進(jìn)程給接管了。

 PPID   PID  PGID   SID TTY      TPGID STAT   UID   TIME COMMAND
    1 31126 31119 30890 pts/0    30890 S     1000   0:00 sleep 1000

為了解決這個(gè)問(wèn)題,我們需要的是 kill process group,而不是只 kill 父進(jìn)程,在 Linux 里面使用的是 kill -- -PID 的方式。同時(shí)為了避免自殺,我們需要是為 /bin/sh 這邊額外在創(chuàng)建一個(gè)新的進(jìn)程組(在上面我們可以注意到,所有的 PGID 都是 31119,如果直接 kill -- -PID,會(huì)把所有相關(guān)的進(jìn)程都干掉)。

在 Go 里面,我們使用 Setpgid: true 來(lái)顯示的創(chuàng)建一個(gè)新的進(jìn)程組,如下:

func grand_child() {
    cmd := exec.Command("/bin/sh", "-c", "sleep 1000")
    cmd.SysProcAttr = &syscall.SysProcAttr{Setpgid: true}
    time.AfterFunc(10*time.Second, func() {
        syscall.Kill(-cmd.Process.Pid, syscall.SIGKILL)
    })
    cmd.Run()
}

啟動(dòng)之后,會(huì)發(fā)現(xiàn) /bin/sh 啟動(dòng)的進(jìn)程已經(jīng)使用了一個(gè)新的進(jìn)程組了:

PPID   PID  PGID   SID TTY      TPGID STAT   UID   TIME COMMAND
4517  4522  4522  3374 pts/0     4517 S     1000   0:00 /bin/sh -c sleep 1000
4522  4524  4522  3374 pts/0     4517 S     1000   0:00 sleep 1000

然后 10 秒之后,相關(guān)進(jìn)程全部被 kill 掉了。

既然弄懂了 kill grand process 的方法,再看 goreman 的問(wèn)題就比較容易了。在 goreman 里面,其實(shí)也有 kill process group 的代碼,但是,它漏掉了最關(guān)鍵的 Setpgid: true,提個(gè) PR,搞定收工。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容