进程管理
1. 关于进程
Linux 系统管理的要点在于定义究竟什么程度才算是高负载。
在 LINUX 系统中,有 5 种常见的进程状态,分别为运行、中断、不可中断、僵死、停止,其各自的含义如下:
- R(运行)——进程正在运行或在运行队列中等待
- S(中断)——进程处于休眠中,当某个条件形成后或者接收到信号时,则脱离该状态
- D(不可中断)——进程不响应系统异步信号,即使用 kill 命令也不能将其中断
- Z(僵死)——进程已经终止,但进程描述符依然存在,直到父进程调用 wait4()系统函数后将进程释放
- T(停止)——进程收到停止信号后停止运行
进程通常拥有这样一些信息:
编码 | 信息 |
---|---|
UID | 启动这些进程的用户 |
PID | 进程 ID(每个进程的 PID 是唯一的) |
PPID | 父进程的 PID |
STIME | 进程启动时的系统时间 |
TTY | 进程启动时的终端设备 |
TIME | 运行进程需要的累计 CPU 时间 |
CMD | 启动的程序名称 |
PRI | 进程的优先级 |
ADDR | 进程的内存地址 |
C | 进程生命周期中的 CPU 利用率 |
S | 进程的状态 |
如果我们在系统终端中执行一个命令后想立即停止它,可以同时按下 $Ctrl+C$ 组合键,这将立即终止该命令的进程。
在执行命令时在末尾添加一个&
符号,可使得命令进入系统后台来执行。
2. 常用命令
ps
ps 命令好比监测进程工具中的瑞士军刀,它能输出运行的系统上的所有程序的许多信息,然而 ps 命令极其复杂,拥有众多参数,在实际中大多数 LINUX 管理员都习惯有自己的一组固定参数。
Linux 系统中使用的 GNU ps 命令支持 3 种不同类型的命令行参数:
Unix 风格的参数,前面加单破折线
BSD 风格的参数,前面不加破折线
GNU 风格的长参数,前面加双破折线
ps
:查看系统中进程状态,ps <option>
:
参数 | 作用 |
---|---|
-a | 显示除 session leader 和无终端进程外的所有进程 |
-e | 显示所有进程 |
-f | 显示完整格式的输出 |
-U | 显示属主的用户 ID 在 userlist 中的进程 |
-x | 显示没有控制终端的进程 |
--forest | GNU 长参数中一个令人喜爱的功能,显示进程的层级信息 |
top
top
:动态地监视进程活动与系统负载等信息。top 命令非常强大,可将它看作 Linux 中的"强化版的 Windows 任务管理器"。
- top 命令的输出中将进程叫做任务(task)。
- top 命令默认会按照 %CPU 值对进程进行排序。
- top 命令中的平均负载有 3 个值:最近 1 分钟的、最近 5 分钟的、最近 15 分钟的平均负载。值越大说明系统的负载越高。由于进程短期的突发性活动,出现最近 1 分钟的高负载值很常见,但如果近 15 分钟内的平均负载都很高,就说明系统可能有问题。
# 动态监视某些进程
top -p PID_1, PID_2, …, PID_n
pidof, kill, killall, pkill
命令 | 语法 | 说明 |
---|---|---|
pidof | pidof <option> process_name | 查询某个服务进程的 PID |
kill | kill <option> PID | 通过 PID 给进程发送信号以将其终止 |
killall | killall <option> process_name | 终止某个指定名称的服务所对应的全部进程 |
pkill | pkill <options> process_name | 类似于killall ,根据名称杀死进程 |
kill
命令在发送进程信号时,用户必须是进程的属主或root
用户。
killall/pkill
中的进程名支持通配符操作,如killall http*
结合了所有以 http 开头的进程。
sleep
sleep
命令让当前进程开启休眠模式,其语法为 sleep second<&>
,即让进程睡眠 second 秒,过后才回到 CLI 提示符。
当然,若末尾加上&
,则意味着开启了后台模式。把sleep命令置入后台模式可以让我们利用ps
命令来小窥一番:
$ sleep 3000&
[1] 2396
$ ps -f
UID PID PPID C STIME TTY TIME CMD
christi+ 2338 2337 0 10:13 pts/9 00:00:00 -bash
christi+ 2396 2338 0 10:17 pts/9 00:00:00 sleep 3000
christi+ 2397 2338 0 10:17 pts/9 00:00:00 ps -f
$
sleep命令会在后台(&)睡眠3000秒(50分钟)。当它被置入后台,在shell CLI提示符返回之前,会出现两条信息:
- 显示在方括号中的后台作业(background job)号(1)
- 后台作业的进程ID(2396)
&, jobs
&
:后台模式,命令末尾加上&
让进程进入后台模式
jobs
:显示所有用户在后台中运行的进程,jobs <option>
参数 | 功能 |
---|---|
-l | 显示更多信息 |
uptime
uptime
:查看系统的负载信息。
平均负载指的是系统在最近 1 分钟、5 分钟、15 分钟内的压力情况
free
free
:显示当前系统中内存的使用量信息,free <-h>
3. systemd 命令
Systemd 是 Linux 系统工具,用来启动守护进程,已成为大多数发行版的标准配置。Systemd 并不是一个命令,而是一组命令,涉及到系统管理的方方面面。
3.1 缘起
历史上,Linux 的启动一直采用init
进程,下面的命令用来启动服务。
$ sudo /etc/init.d/apache2 start # 或者 $ service apache2 start
这种方法有两个缺点:
- 一是启动时间长。
init
进程是串行启动,只有前一个进程启动完,才会启动下一个进程。 - 二是启动脚本复杂。
init
进程只是执行启动脚本,不管其他事情。脚本需要自己处理各种情况,这往往使得脚本变得很长。
Systemd 就是为了解决这些问题而诞生的。它的设计目标是,为系统的启动和管理提供一套完整的解决方案。根据 Linux 惯例,字母d
是守护进程(daemon)的缩写。 Systemd 这个名字的含义,就是它要守护整个系统。
使用了 Systemd,就不需要再用init
了。Systemd 取代了initd
,成为系统的第一个进程(PID 等于 1),其他进程都是它的子进程。
Systemd 的优点是功能强大,使用方便,缺点是体系庞大,非常复杂。事实上,现在还有很多人反对使用 Systemd,理由就是它过于复杂,与操作系统的其他部分强耦合,违反"keep simple, keep stupid"的Unix 哲学。
Systemd 架构图:
3.2 系统管理
3.2.1 systemctl
systemctl
是 Systemd 的主命令,用于管理系统。
# 重启系统
$ sudo systemctl reboot
# 关闭系统,切断电源
$ sudo systemctl poweroff
# CPU停止工作
$ sudo systemctl halt
# 暂停系统
$ sudo systemctl suspend
# 让系统进入冬眠状态
$ sudo systemctl hibernate
# 让系统进入交互式休眠状态
$ sudo systemctl hybrid-sleep
# 启动进入救援状态(单用户状态)
$ sudo systemctl rescue
systemctl
管理服务(以httpd为例):
# 启动服务
$ sudo systemctl start httpd
# 查看服务的状态
$ sudo systemctl status httpd
# 停止服务
$ sudo systemctl stop httpd.service
# 有时候,停止服务的命令可能没有响应,服务停不下来。这时候就不得不"杀进程"了,向正在运行的进程发出kill信号
$ sudo systemctl kill httpd.service
# 重启服务要执行systemctl restart命令
$ sudo systemctl restart httpd.service
# 重新加载配置文件
$ sudo systemctl daemon-reload
# 设置开机自启
$ sudo systemctl enable httpd
执行启动命令以后,有可能启动失败,因此要用
systemctl status
命令查看一下该服务的状态。$ sudo systemctl status httpd httpd.service - The Apache HTTP Server Loaded: loaded (/usr/lib/systemd/system/httpd.service; enabled) Active: active (running) since 金 2014-12-05 12:18:22 JST; 7min ago Main PID: 4349 (httpd) Status: "Total requests: 1; Current requests/sec: 0; Current traffic: 0 B/sec" CGroup: /system.slice/httpd.service ├─4349 /usr/sbin/httpd -DFOREGROUND ├─4350 /usr/sbin/httpd -DFOREGROUND ├─4351 /usr/sbin/httpd -DFOREGROUND ├─4352 /usr/sbin/httpd -DFOREGROUND ├─4353 /usr/sbin/httpd -DFOREGROUND └─4354 /usr/sbin/httpd -DFOREGROUND 12月 05 12:18:22 localhost.localdomain systemd[1]: Starting The Apache HTTP Server... 12月 05 12:18:22 localhost.localdomain systemd[1]: Started The Apache HTTP Server. 12月 05 12:22:40 localhost.localdomain systemd[1]: Started The Apache HTTP Server.
上面的输出结果含义如下。
Loaded
行:配置文件的位置,是否设为开机启动Active
行:表示正在运行Main PID
行:主进程IDStatus
行:由应用本身(这里是 httpd )提供的软件当前状态CGroup
块:应用的所有子进程- 日志块:应用的日志
对于那些支持 Systemd 的软件,安装的时候,会自动在
/usr/lib/systemd/system
目录添加一个配置文件。如果你想让该软件开机启动,就执行下面的命令(以
httpd.service
为例)。$ sudo systemctl enable httpd
上面的命令相当于在
/etc/systemd/system
目录添加一个符号链接,指向/usr/lib/systemd/system
里面的httpd.service
文件。这是因为开机时,
Systemd
只执行/etc/systemd/system
目录里面的配置文件。这也意味着,如果把修改后的配置文件放在该目录,就可以达到覆盖原始配置的效果。
3.2.2 systemd-analyze
systemd-analyze
命令用于查看启动耗时。
# 查看启动耗时 $ systemd-analyze # 查看每个服务的启动耗时 $ systemd-analyze blame # 显示瀑布状的启动过程流 $ systemd-analyze critical-chain # 显示指定服务的启动流 $ systemd-analyze critical-chain atd.service
3.2.3 hostnamectl
hostnamectl
命令用于查看当前主机的信息。
# 显示当前主机的信息 $ hostnamectl # 设置主机名。 $ sudo hostnamectl set-hostname rhel7
3.2.4 localectl
localectl
命令用于查看本地化设置。
# 查看本地化设置 $ localectl # 设置本地化参数。 $ sudo localectl set-locale LANG=en_GB.utf8 $ sudo localectl set-keymap en_GB
3.2.5 timedatectl
timedatectl
命令用于查看当前时区设置。
# 查看当前时区设置 $ timedatectl # 显示所有可用的时区 $ timedatectl list-timezones # 设置当前时区 $ sudo timedatectl set-timezone America/New_York $ sudo timedatectl set-time YYYY-MM-DD $ sudo timedatectl set-time HH:MM:SS
3.2.6 loginctl
loginctl
命令用于查看当前登录的用户。
# 列出当前session $ loginctl list-sessions # 列出当前登录用户 $ loginctl list-users # 列出显示指定用户的信息 $ loginctl show-user ruanyf
3.3 Unit
Systemd 可以管理所有系统资源。不同的资源统称为 Unit(单位)。
Unit 一共分成12种。
- Service unit:系统服务
- Target unit:多个 Unit 构成的一个组
- Device Unit:硬件设备
- Mount Unit:文件系统的挂载点
- Automount Unit:自动挂载点
- Path Unit:文件或路径
- Scope Unit:不是由 Systemd 启动的外部进程
- Slice Unit:进程组
- Snapshot Unit:Systemd 快照,可以切回某个快照
- Socket Unit:进程间通信的 socket
- Swap Unit:swap 文件
- Timer Unit:定时器
......暂略。
4. GPU
NVIDIA 相关:
命令 | 作用 |
---|---|
lspci | grep -i nvidia | 查询所有 nvidia 显卡 |
lspci -v -s <显卡编号> | 查看显卡具体属性 |
nvidia-smi | 查看显卡的显存利用率 |
cat /proc/driver/nvidia/version sudo dpkg --list | grep nvidia-\* | 查看显卡驱动版本 |
cat /usr/local/cuda/version.txt nvcc -v | 查看 cuda 版本 |
5. 守护进程
除了下文的专用工具以外,Linux系统有自己的守护进程管理工具 Systemd 。它是操作系统的一部分,直接与内核交互,性能出色,功能极其强大。我们完全可以将程序交给 Systemd ,让系统统一管理,成为真正意义上的系统服务。
5.1 缘起
Web应用写好后,下一件事就是启动,让它一直在后台运行。这并不容易。举例来说,下面是一个最简单的Node应用server.js
,只有6行:
var http = require('http');
http.createServer(function(req, res) {
res.writeHead(200, {'Content-Type': 'text/plain'});
res.end('Hello World');
}).listen(5000);
你在命令行下启动它:
$ node server.js
看上去一切正常,所有人都能快乐地访问 5000 端口了。但是,一旦你退出命令行窗口,这个应用就一起退出了,无法访问了。
怎么才能让它变成系统的守护进程(daemon)、成为一种服务(service),一直在那里运行呢?
5.2 前台任务与后台任务
上面这样启动的脚本,称为前台任务(foreground job),它会独占命令行窗口,只有运行完了或者手动中止,才能执行其他命令。
变成守护进程的第一步,就是把它改成后台任务(background job)。
$ node server.js &
只要在命令的尾部加上符号&
,启动的进程就会成为"后台任务"。如果要让正在运行的"前台任务"变为"后台任务",可以先按ctrl + z
,然后执行bg
命令(让最近一个暂停的"后台任务"继续执行)。
"后台任务"有两个特点:
- 继承当前 session (对话)的标准输出(
stdout
)和标准错误(stderr
)。因此,后台任务的所有输出依然会同步地在命令行下显示。 - 不再继承当前 session 的标准输入(
stdin
)。你无法向这个任务输入指令了。如果它试图读取标准输入,就会暂停执行(halt)。
可以看到,"后台任务"与"前台任务"的本质区别只有一个:是否继承标准输入。所以,执行后台任务的同时,用户还可以输入其他命令。
5.3 SIGHUP信号
变为"后台任务"后,一个进程是否就成为了守护进程呢?或者说,用户退出 session 以后,"后台任务"是否还会继续执行?
Linux系统是这样设计的:
- 用户准备退出 session
- 系统向该 session 发出
SIGHUP
信号 - session 将
SIGHUP
信号发给所有子进程 - 子进程收到
SIGHUP
信号后,自动退出
上面的流程解释了,为什么"前台任务"会随着 session 的退出而退出:因为它收到了SIGHUP
信号。那么,"后台任务"是否也会收到SIGHUP
信号?
这由 Shell 的huponexit
参数决定的:
$ shopt | grep huponexit
执行上面的命令,就会看到huponexit
参数的值。大多数Linux系统,这个参数默认关闭(off
)。因此,session 退出的时候,不会把SIGHUP
信号发给"后台任务"。所以,一般来说,"后台任务"不会随着 session 一起退出。
5.4 disown 与 nohup
disown命令
通过"后台任务"启动"守护进程"并不保险,因为有的系统的huponexit
参数可能是打开的(on
)。
更保险的方法是使用disown
命令。它可以将指定任务从"后台任务"列表(jobs
命令的返回结果)之中移除。一个"后台任务"只要不在这个列表之中,session 就肯定不会向它发出SIGHUP
信号。
$ node server.js &
$ disown
执行上面的命令以后,server.js
进程就被移出了"后台任务"列表。你可以执行jobs
命令验证,输出结果里面,不会有这个进程。
disown
的用法如下:
# 移出最近一个正在执行的后台任务
$ disown
# 移出所有正在执行的后台任务
$ disown -r
# 移出所有后台任务
$ disown -a
# 不移出后台任务,但是让它们不会收到SIGHUP信号
$ disown -h
# 根据jobId,移出指定的后台任务
$ disown %2
$ disown -h %2
disown 与标准 IO
使用disown
命令之后,还有一个问题。那就是,退出 session 以后,如果后台进程与标准I/O有交互,它还是会挂掉。
还是以上面的脚本为例,现在加入一行:
var http = require('http');
http.createServer(function(req, res) {
console.log('server starts...'); // 加入此行
res.writeHead(200, {'Content-Type': 'text/plain'});
res.end('Hello World');
}).listen(5000);
启动上面的脚本,然后再执行disown
命令:
$ node server.js &
$ disown
接着,你退出 session,访问5000端口,就会发现连不上。
这是因为"后台任务"的标准 I/O 继承自当前 session,disown
命令并没有改变这一点。一旦"后台任务"读写标准 I/O,就会发现它已经不存在了,所以就报错终止执行。
为了解决这个问题,需要对"后台任务"的标准 I/O 进行重定向:
$ node server.js > stdout.txt 2> stderr.txt < /dev/null &
$ disown
nohup 命令
还有比disown
更方便的命令,就是nohup
。
$ nohup node server.js &
nohup
命令对server.js
进程做了三件事。
- 阻止
SIGHUP
信号发到这个进程。- 关闭标准输入。该进程不再能够接收任何输入,即使运行在前台。
- 重定向标准输出和标准错误到文件
nohup.out
。
也就是说,nohup
命令实际上将子进程与它所在的 session 分离了。
注意,nohup
命令不会自动把进程变为"后台任务",所以必须加上&
符号。
5.5 Screen 命令与 Tmux 命令
另一种思路是使用 terminal multiplexer (终端复用器:在同一个终端里面,管理多个session),典型的就是 Screen 命令和 Tmux 命令。
暂略。