一、问题描述
项目中使用了 argo 在 kubernetes 集群中做工作流的调度。argo 提供了工作流的停止功能,其原理大致是检查正在运行的 Pod,向该 Pod 中的 wait 容器发送 USR2 信号,wait 容器收到 USR2 信号后,在主机上的调用 docker kill --signal TERM main_container_id
来停止我们的程序容器, 如果 10s 后容器还未停止,则发送 SIGKILL 来强制终止。但是我在实现 argo 工作流中调度 tfjob
时出现了一些问题。
在argo停止工作流时,正在运行的 step2 中的 manager 监听了 TERM 信号,以便在工作流停止时同步停止 tfjob。但是事实情况却是 manager 退出了,但是没有收到任何的 TERM 信号。
二、问题剖析
检查这个问题的第一步是弄清楚 docker kill
背后发生了什么,官网的资料中有以下的描述:
Note: ENTRYPOINT and CMD in the shell form run as a subcommand of /bin/sh -c, which does not pass signals. This means that the executable is not the container’s PID 1 and does not receive Unix signals.
当我们用 sh
执行一段 shell script 时,在 shell script 中的可执行文件的 PID 不是1,并且 sh 也不会帮忙转发 TERM 信号,导致我们的可执行文件无法接收到终止信号,并执行清理逻辑。
我们的 manager 确实是用了一段 shell script 来启动的,可能就是因为这个原因导致无法收到 TERM 信号。
三、问题复现
我写了一段很简单的 go 程序,监听了 TERM 信号,然后打印一段文字。
package main
import (
"log"
"os"
"os/signal"
"syscall"
)
func main() {
sigs := make(chan os.Signal, 1)
signal.Notify(sigs, syscall.SIGTERM, syscall.SIGINT)
s, ok := <-sigs
if !ok {
log.Println("信号接收出错")
os.Exit(1)
}
log.Println("收到信号:", s.String())
}
我的 Dockerfile 如下:
FROM alpine:latest
LABEL maintainr="jiangpengfei <jiangpengfei12@gmail.com>"
COPY main /usr/bin/main
COPY run.sh /usr/bin/run.sh
RUN chmod +x /usr/bin/main && chmod +x /usr/bin/run.sh
CMD ["sh", "-c", "/usr/bin/run.sh"]
run.sh 如下:
#!/bin/sh
/usr/bin/main
执行这个容器后,查看容器内的进程:
PID USER TIME COMMAND
1 root 0:00 {busybox} ash /usr/bin/run.sh
6 root 0:00 /usr/bin/main
12 root 0:00 sh
17 root 0:00 ps
可以发现,run.sh
是 PID 为1, main
程序是6。此时我们使用 docker kill --signal TERM main_container_id
来停止容器,发现确实是没有反应的。因为 TERM 信号会发送给 PID 为 1 的进程。同时也因为 sh 不响应 TERM 信号,也不会转发该信号给子进程,所以容器也不会退出。如果我们使用 docker stop
退出的话,会发现很慢,这是因为 docker stop
会尝试先用 TERM 信号来终止进程,一段时间后发现没有退出的话再使用 KILL 信号。
四、解决方案
这个问题的解决方案有很多,要么让我们的程序进程成为 PID 1,要么让 PID 为 1 的进程转发这个 TERM 信号给我们的子进程。
方法一: 在 shell script 中使用 exec
将我们的 run.sh
改成如下:
#!/bin/sh
exec /usr/bin/main
然后再查看容器内的进程列表:
PID USER TIME COMMAND
1 root 0:00 /usr/bin/main
11 root 0:00 sh
16 root 0:00 ps
可以发现,main
进程的PID 是 1, 我们使用 docker kill --signal TERM main_container_id
来杀死进程,出现如下打印语句:
2020/01/17 23:46:24 收到信号: terminated
可见,exec
可以让我们的 main 进程成为 PID 为 1, 关于 exec 的作用描述如下:
The exec() family of functions replaces the current process image with a new process image.
即使用新进程的镜像替换当前进程的镜像数据,可以理解为exec系统调用并没有创建新的进程,只是替换了原来进程上下文的内容。原进程的代码段,数据段,堆栈段被新的进程所代替。这样我们的 main 进程就顺利成章的替换了 sh 进程成为 PID 为 1 的进程了。
方法二: 直接使用 main 作为镜像入口
这是最简单的方法了,但是很多时候会有限制,因为我们希望在 shell script 中写一些逻辑来调用程序。
方法三: 借助第三方程序
一些第三方的程序专门提供了这样的作用,以它们作为启动的入口,这些第三方程序会 watch 所有它产生的子进程,在这些子进程退出后自动退出,并且在其收到 TERM 信号后发送给子进程。
这里我们用 smell-baron
这个应用作为例子
修改 Dockerfile:
FROM alpine:latest
LABEL maintainr="jiangpengfei <jiangpengfei12@gmail.com>"
COPY main /usr/bin/main
COPY run.sh /usr/bin/run.sh
RUN chmod +x /usr/bin/main && chmod +x /usr/bin/run.sh
RUN wget -O /usr/bin/smell-baron https://github.com/insidewhy/smell-baron/releases/download/v0.4.2/smell-baron.musl && chmod +x /usr/bin/smell-baron
CMD ["/usr/bin/smell-baron", "/usr/bin/run.sh"]
查看容器内的进程:
PID USER TIME COMMAND
1 root 0:00 /usr/bin/smell-baron /usr/bin/run.sh
6 root 0:00 /usr/bin/main
14 root 0:00 sh
19 root 0:00 ps
使用 docker kill
发现 main 收到了 TERM 信号。
1.Multiple commands can be run, smell-baron will exit when all the watched processes have exited.
2.Whether a spawned process is watched can be configured.
3.smell-baron can be told to signal all child processes on termination, this allows it to cleanly deal with processes that spawn a subprocess in a different process group then fail to clean it up on exit.