目录

一、sar命令

1、格式

 二、常用选项

3、常用参数

4、Sar常用性能数据

三、CPU 资源监控

1、整体CPU使用统计

2、各个CPU使用统计

3、将CPU使用情况保存到文件中

四、内存监控

 1、内存和交换空间监控

2、内存分页监控

五、I/O监控

1、整体I/O情况

 2、各个I/O设备情况

六、进程队列长度和平均负载状态监控

七、系统交换活动信息监控

八、设备使用情况监控

九、判断系统故障问题,选用什么命令

十、将结果输出到文件(-o)和读取记录信息(-f)

 十一、总结


前言:sar(System Activity Reporter, 系统活动情况报告): 是用于监控Linux系统各个性能的优秀工具,包括:文件的读写情况、系统调用的使用情况、磁盘I/O、CPU效率、内存使用状况、进程活动及IPC有关的活动等。

一、sar命令

1、格式

sar [ options ] [ <interval> [ <count> ] ]

options:命令行选项

interval: 采样周期,单位是秒

count:采样次数,默认值是连续采样

  • 选项,也就是我们要获取的是哪个类型的指标数据,这里的-n,代表的是监控一些网络信息
  • 类型参数,有的类型带有参数,有的没有。这里的DEV,代表的是监控网卡信息
  • 时间间隔,表示多少秒采样一次数据,这里的1就是1秒
  • 次数,表示采样的次数。比如时间间隔是3,采样次数是4,那么sar命令将会阻塞12秒钟

 二、常用选项

选项 说明
-A 所有报告的总和
-u 输出整体CPU使用情况的统计信息
-v

输出inode、文件和其他内核表的统计信息

-d 输出每一个块设备的活动信息
-r 输出内存和交换空间的统计信息
-b 显示I/O和传送速率的统计信息
-a 文件读写情况
-c 输出进程统计信息,每秒创建的进程数
-R 输出内存页面的统计信息
-y 终端设备活动情况
-w 输出系统交换活动信息

3、常用参数

默认监控: sar 1 1     //  CPU和IOWAIT统计状态 
(1) sar -b 1 1        // IO传送速率
(2) sar -B 1 1        // 页交换速率
(3) sar -c 1 1        // 进程创建的速率
(4) sar -d 1 1        // 块设备的活跃信息
(5) sar -n DEV 1 1    // 网路设备的状态信息
(6) sar -n SOCK 1 1   // SOCK的使用情况
(7) sar -n ALL 1 1    // 所有的网络状态信息
(8) sar -P ALL 1 1    // 每颗CPU的使用状态信息和IOWAIT统计状态 
(9) sar -q 1 1        // 队列的长度(等待运行的进程数)和负载的状态
(10) sar -r 1 1      // 内存和swap空间使用情况
(11) sar -R 1 1       // 内存的统计信息(内存页的分配和释放、系统每秒作为BUFFER使用内存页、每秒被cache到的内存页)
(12) sar -u 1 1       // CPU的使用情况和IOWAIT信息(同默认监控)
(13) sar -v 1 1       // inode, file and other kernel tablesd的状态信息
(14) sar -w 1 1       // 每秒上下文交换的数目
(15) sar -W 1 1       // SWAP交换的统计信息(监控状态同iostat 的si so)
(16) sar -x 2906 1 1  // 显示指定进程(2906)的统计信息,信息包括:进程造成的错误、用户级和系统级用户CPU的占用情况、运行在哪颗CPU上
(17) sar -y 1 1       // TTY设备的活动状态

4、Sar常用性能数据

  • 整体CPU使用统计
  • 各个CPU使用统计
  • 内存使用情况统计
  • 整体I/O情况
  • 各个I/O设备情况
  • 网络统计

三、CPU 资源监控

1、整体CPU使用统计

使用-u选项,sar输出整体CPU的使用情况,不加选项时,默认使用的就是-u选项。以下命令显示采样时间为3s,采样次数为2次,整体CPU的使用情况:
sar 3 2 (或者 sar -u 3 2)

 输出项说明:

CPU

all表示统计信息为所有CPU的平均值。

%usr

CPU在用户态执行进程的时间百分比。

%nice

CPU在用户态模式下,用于nice操作,所占用CPU总时间的百分比。

%system

CPU处在内核态执行进程的时间百分比。

%iowait

CPU用于等待I/O操作占用CPU总时间的百分比。

%steal

管理程序(hypervisor)为另一个虚拟进程提供服务而等待虚拟CPU的百分比。

%idle

CPU空闲时间百分比。

  1. 若 %iowait 的值过高,表示硬盘存在I/O瓶颈
  2. 若 %idle 的值高但系统响应慢时,有可能是 CPU 等待分配内存,此时应加大内存容量
  3. 若 %idle 的值持续低于1,则系统的 CPU 处理能力相对较低,表明系统中最需要解决的资源是 CPU

2、各个CPU使用统计

“-P ALL”选项指示对每个内核输出统计信息:

其中”CPU”列输出0,1指示对应的cpu核。也可针对单独一个内核显示,“-P 0”指示显示第个内核的统计信息,“-P 1”指示显示第二个内核的统计信息。

3、将CPU使用情况保存到文件中

例如,每4秒采样一次,连续采样3次,观察CPU 的使用情况,并将采样结果以二进制形式存入当前目录下的文件test中,需键入如下命令:

sar -u -o test 4 3

四、内存监控

 1、内存和交换空间监控

使用-r选项可显示内存统计信息,以下命令显示以1秒为采样时间,显示2次内存信息:

sar -r 1 2

参数

意义

kbmemfree

这个值和free命令中的free值基本一致,所以它不包括buffer和cache的空间

kbmemused

这个值和free命令中的used值基本一致,所以它包括buffer和cache的空间

%memused

这个值是kbmemused和内存总量(不包括swap)的一个百分比

kbbuffers

这个值就是free命令中的buffer

kbcached

这个值就是free命令中的cache

kbcommit

保证当前系统所需要的内存,即为了确保不溢出而需要的内存(RAM+swap)

%commit

这个值是kbcommit与内存总量(包括swap)的一个百分比 

2、内存分页监控

例如,每10秒采样一次,连续采样3次,监控内存分页:

sar -B 10 3

输出项说明:

选项

说明

pgpgin/s

表示每秒从磁盘或SWAP置换到内存的字节数(KB)

pgpgout/s

表示每秒从内存置换到私盘或SWAP的字节数(KB)

fault/s

每秒钟系统产生的缺页数,即主缺页与次缺页之和(major + minor)

majflt/s

每秒钟产生的主缺页数

pgfree/s

每秒被放入空闲队列中的页个数

pgscank/s

每秒被kswapd扫描的页个数

pgscand/s

每秒直接被扫描的页个数

pgsteal/s

每秒钟从cache中被清除来满足内存需要的页个数

%vmeff

每秒清除的页(pgsteal)占总扫描页(pgscank+pgscand)的百分比

五、I/O监控

1、整体I/O情况

使用-b选项,可以显示磁盘I/O的使用情况:Report I/O and transfer rate statistics.
sar -b 3 2

输出项说明:

选项

说明

tps

每秒钟物理设备的 I/O 传输总量

rtps

每秒钟从物理设备读入的数据总量

wtps

每秒钟向物理设备写入的数据总量

bread/s

每秒钟从物理设备读入的数据量,单位为 块/s

bwrtn/s

每秒钟向物理设备写入的数据量,单位为 块/s

 2、各个I/O设备情况

使用-d选项可以显示各个磁盘的统计信息,再增加-p选项可以以sdX的形式显示设备名称:

sar -d -p 3 2

 输出项说明:

选项

说明

rd_sec/s

每秒从设备读取的扇区数

wr_sec/s

每秒往设备写入的扇区数

avgrq-sz

发送给设备的请求的平均大小(以扇区为单位)

avgqu-sz

发送给设备的请求队列的平均长度

await 

服务等待I/O请求的平均时间,包括请求队列等待时间 (单位毫秒)

svctm

设备处理I/O请求的平均时间,不包括请求队列等待时间 (单位毫秒)

%util

一秒中有百分之多少的时间用于 I/O 操作,即被io消耗的cpu百分比。

  1. 如果 %util 接近 100%,说明产生的I/O请求太多,I/O系统已经满负荷,该磁盘可能存在瓶颈。
  2. 如果 svctm 比较接近 await,说明 I/O 几乎没有等待时间;如果 await 远大于 svctm,说明I/O 队列太长,io响应太慢,则需要进行必要优化。
  3. 如果avgqu-sz比较大,也表示有大量io在等待。

六、进程队列长度和平均负载状态监控

例如,每3秒采样一次,连续采样3次,监控进程队列长度和平均负载状态:

sar -q 3 3

输出项说明:

runq-sz

运行队列的长度(等待运行的进程数)

plist-sz

进程列表中进程(processes)和线程(threads)的数量

ldavg-1

最后1分钟的系统平均负载(System load average)

ldavg-5

过去5分钟的系统平均负载

ldavg-15

过去15分钟的系统平均负载 

七、系统交换活动信息监控

例如,每5秒采样一次,连续采样3次,监控系统交换活动信息:

sar - W 5 3

 输出项说明:

pswpin/s

每秒系统换入的交换页面(swap page)数量

pswpout/s

每秒系统换出的交换页面(swap page)数量

八、设备使用情况监控

例如,每2秒采样一次,连续采样1次,报告设备使用情况,需键入如下命令:

sar -d -p 2 1  

#-d表示输出每一块设备的信息,参数-p可以打印出sda,hdc等磁盘设备名称,如果不用参数-p,设备节点则有可能是dev8-0,dev22-0

tps

每秒从物理磁盘I/O的次数.多个逻辑请求会被合并为一个I/O磁盘请求,一次传输的大小是不确定的

rd_sec/s

每秒读扇区的次数

wr_sec/s

每秒写扇区的次数

avgrq-sz

平均每次设备I/O操作的数据大小(扇区)

avgqu-sz

磁盘请求队列的平均长度

await

从请求磁盘操作到系统完成处理,每次请求的平均消耗时间,包括请求队列等待时间,单位是毫秒(1秒=1000毫秒)

svctm

系统处理每次请求的平均时间,不包括在请求队列中消耗的时间

%util

I/O请求占CPU的百分比,比率越大,说明越饱和

注:

1. avgqu-sz 的值较低时,设备的利用率较高。

2. 当%util的值接近 1% 时,表示设备带宽已经占满。

九、判断系统故障问题,选用什么命令

  1. 怀疑CPU存在瓶颈,可用 sar -u 和 sar -q 等来查看
  2. 怀疑内存存在瓶颈,可用 sar -B、sar -r 和 sar -W 等来查看
  3. 怀疑I/O存在瓶颈,可用 sar -b、sar -u 和 sar -d 等来查看

十、将结果输出到文件(-o)和读取记录信息(-f)

-f可以读取二级制存储的数据文件,所以我们也可以用它来读取之前的日志文件中的系统数据

 十一、总结

sar命令虽然功能强大,在很多方面方面我们都可以使用sar来查询到我们需要的数据,但不是说我们就需用sar就可以了,对于系统的监控优化命令,当然是越多越好,很多时候我还是习惯使用top、free这些命令,从来没有无敌的工具,真正厉害的是灵活运用工具的我们。

原文链接:https://blog.csdn.net/weixin_56270746/article/details/125219770

最后修改:2023 年 10 月 26 日
如果觉得我的文章对你有用,请随意赞赏