2019年11月

Linux内存是怎么工作的?

  • 内存映射

    • 每个进程会有对应的虚拟地址空间
    • 虚拟地址空间包括:用户空间(128TB,64位系统)和内核空间(128TB,64位系统)
    • 内存映射,其实就是将虚拟内存地址映射到物理内存地址。为了完成内存映射,内核为每个进程都维护了一张页表,记录虚拟地址与物理地址的映射关系
    • 页表实际上存储在 CPU 的内存管理单元 MMU 中
    • 当进程访问的虚拟地址在页表中查不到时,系统会产生一个缺页异常,进入内核空间分配物理内存、更新进程页表,最后再返回用户空间,恢复进程的运行
    • MMU 并不以字节为单位来管理内存,而是规定了一个内存映射的最小单位,也就是,通常是4KB大小
    • 解决页表过大问题:多级页表

      • 把内存分成区块来管理,将原来的映射关系改成区块索引区块内的偏移
      • Linux 用的是四级页表来管理内存页,虚拟地址被分为5个部分,前4个表项用于选择页,而最后一个索引表示页内偏移
  • 虚拟内存空间分布

    • 用户空间内存,地址空间从低到高分别是五种不同的内存段

      • 只读段:包括代码和常量等
      • 数据段:包括全局变量等
      • :包括动态分配的内存,从低地址开始向上增长
      • 文件映射段:包括动态库、共享内存等,从高地址开始向下增长
      • :包括局部变量和函数调用的上下文等。栈的大小是固定的,一般是 8 MB
    • 堆和文件映射段的内存是动态分配的
  • 内存分配与回收

    • malloc()是C标准库提供的内存分配函数,对应到系统调用上有两种实现方式,即brk()mmap()
    • 对小块内存(小于 128K),C 标准库使用 brk() 来分配

      • 通过移动堆顶的位置来分配内存
      • 这些内存释放后并不会立刻归还系统,而是被缓存起来重复使用

        • 可以减少缺页异常的发生,提高内存访问效率
        • 在内存工作繁忙时,频繁的内存分配和释放会造成内存碎片
    • 而大块内存(大于 128K),则直接使用内存映射 mmap() 来分配

      • 在文件映射段找一块空闲内存分配

        • 每次 mmap 都会发生缺页异常
        • 在内存工作繁忙时,频繁的内存分配会导致大量的缺页异常,使内核的管理负担增大
    • 当这两种调用发生后,其实并没有真正分配内存。这些内存,都只在首次访问时才分配,也就是通过缺页异常进入内核中,再由内核来分配内存
    • 调用 free() 或 unmap() ,来释放不用的内存
    • 内存回收方式

      • 回收缓存:比如使用 LRU(Least Recently Used)算法,回收最近使用最少的内存页面
      • 回收不常访问的内存:把不常用的内存通过交换分区SWAP直接写到磁盘中

        • Swap 其实就是把一块磁盘空间当成内存来用
      • 杀死进程:内存紧张时系统还会通过 OOM(Out of Memory),直接杀掉占用大量内存的进程

        • 监控进程的内存使用情况,并且使用 oom_score 为每个进程的内存使用情况进行评分

          • 一个进程消耗的内存越大,oom_score 就越大
          • 一个进程运行占用的 CPU 越多,oom_score 就越小
          • 进程的 oom_score 越大,代表消耗的内存越多,也就越容易被 OOM 杀死
          • 可以手动设置进程的 oom_adj ,从而调整进程的 oom_score

            • oom_adj 的范围是 [-17, 15],数值越大,表示进程越容易被 OOM 杀死
            • echo -16 > /proc/$(pidof sshd)/oom_adj
  • 查看内存使用情况

    • free

      • 第一列,total 是总内存大小
      • 第二列,used 是已使用内存的大小,包含了共享内存
      • 第三列,free 是未使用内存的大小
      • 第四列,shared 是共享内存的大小
      • 第五列,buff/cache 是缓存和缓冲区的大小
      • 最后一列,available 是新进程可用内存的大小

        • available 不仅包含未使用内存,还包括了可回收的缓存,所以一般会比未使用内存更大
    • top

      • VIRT 是进程虚拟内存的大小,只要是进程申请过的内存,即便还没有真正分配物理内存,也会计算在内
      • RES 是常驻内存的大小,也就是进程实际使用的物理内存大小,但不包括 Swap 和共享内存
      • SHR 是共享内存的大小,比如与其他进程共同使用的共享内存、加载的动态链接库以及程序的代码段等
      • %MEM 是进程使用物理内存占系统总内存的百分比

怎么理解内存中的Buffer和Cache?

  • Buffers

    • Buffers 是对原始磁盘块的临时存储,也就是用来缓存磁盘的数据,通常不会特别大(20MB 左右)
  • Cached

    • Cached 是从磁盘读取文件的页缓存,也就是用来缓存从文件读取的数据
  • SReclaimable

    • Slab 包括两部分, SReclaimable 是可回收部分; SUnreclaim是不可回收部分
  • Buffer 是对磁盘数据的缓存,而 Cache 是文件数据的缓存,它们既会用在读请求中,也会用在写请求中
  • Buffer/Cache用处

    • 从写的角度来说,不仅可以优化磁盘和文件的写入,对应用程序也有好处,应用程序可以在数据真正落盘前,就返回去做其他工作。
    • 从读的角度来说,既可以加速读取那些需要频繁访问的数据,也降低了频繁 I/O 对磁盘的压力。
  • 磁盘&文件

    • 磁盘是一个块设备,可以划分为不同的分区
    • 在分区之上再创建文件系统,挂载到某个目录,之后才可以在这个目录中读写文件
    • 在读写普通文件时,会经过文件系统,由文件系统负责与磁盘交互;而读写磁盘或者分区时,就会跳过文件系统,也就是所谓的“裸I/O“

【案例】如何利用系统缓存优化程序的运行效率?

  • 缓存命中率

    • 命中率越高,表示使用缓存带来的收益越高,应用程序的性能也就越好。
    • 查看系统缓存命中情况的工具:cachestat,cachetop

      • 工具安装:yum install bcc-tools,且要求kernel版本在4.1以上
      • 安装完成后,手动设置PATH目录:export PATH=$PATH:/usr/share/bcc/tools
      • cachestat

        • 提供了整个操作系统缓存的读写命中情况
        • TOTAL ,表示总的 I/O 次数
        • MISSES ,表示缓存未命中的次数
        • HITS ,表示缓存命中的次数
        • DIRTIES, 表示新增到缓存中的脏页数
        • BUFFERS_MB 表示 Buffers 的大小,以 MB 为单位
        • CACHED_MB 表示 Cache 的大小,以 MB 为单位
      • cachetop

        • 提供了每个进程的缓存命中情况
        • READ_HIT 和 WRITE_HIT ,分别表示读和写的缓存命中率
  • 查看文件缓存

    • 使用pcstat工具(前提需要安装go语言)

      • 安装完go之后,执行以下命令:

        • export GOPATH=~/go
        • export PATH=~/go/bin:$PATH
        • go get golang.org/x/sys/unix
        • go get github.com/tobert/pcstat/pcstat
      • 命令:pcstat <file_url>

【案例】内存泄漏了,我该如何定位和处理?

  • 内存可能出现的问题

    • 内存泄漏。没正确回收分配后的内存,导致不仅应用程序自己不能访问,系统也不能把它们再次分配给其他应用。
    • 越界访问。访问的是已分配内存边界外的地址,导致程序异常退出
  • 用户空间内存是否会泄漏

    • 只读段,包括程序的代码和常量,由于是只读的,不会再去分配新的内存,所以也不会产生内存泄漏。
    • 数据段,包括全局变量和静态变量,这些变量在定义时就已经确定了大小,所以也不会产生内存泄漏。
    • 内存映射段,包括动态链接库和共享内存,其中共享内存由程序动态分配和管理。所以,如果程序在分配后忘了回收,就会导致跟堆内存类似的泄漏问题。
  • 检测内存泄漏工具:memleak

    • 是bcc-tools内的工具之一
    • 命令:memleak -p -a

Swap概念

  • 系统内存紧张的处理方式:内存回收、OOM杀死进程
  • 可回收内存的类型:文件页(Buffer和Cache)、匿名页(应用程序动态分配的堆内存)

    • 文件页,可直接回收。若数据暂时还未写入磁盘(脏页),则回收前先写入磁盘再回收

      • 应用程序中,通过系统调用 fsync,把脏页同步到磁盘
      • 内核线程 pdflush 负责这些脏页的刷新
    • 匿名页,不能直接回收。需要使用swap,将数据写入磁盘中,然后释放内存给其它进程使用。当需要使用这些数据时,再从磁盘中读取即可
  • swap原理

    • Swap 说白了就是把一块磁盘空间或者一个本地文件(以下讲解以磁盘为例),当成内存来使用。

      • 换出,就是把进程暂时不用的内存数据存储到磁盘中,并释放这些数据占用的内存
      • 换入,则是在进程再次访问这些内存的时候,把它们从磁盘读到内存中来
    • 系统回收内存的两种方式:直接回收、内核线程定期回收

      • 直接回收:当有新的大块内存分配请求,但是剩余内存不足。这个时候系统就需要回收一部分内存(Buffer、Cache),进而尽可能地满足新内存请求
      • 内核线程定期回收

        • 定期回收内存的内核线程:kswapd0
        • 定义了三个阈值:页最小阈值(pages_min)页低阈值(pages_low)页高阈值(pages_high)

          • 剩余内存小于页最小阈值,说明进程可用内存都耗尽了,只有内核才可以分配内存
          • 剩余内存落在页最小阈值页低阈值中间,说明内存压力比较大,剩余内存不多了。这时 kswapd0 会执行内存回收,直到剩余内存大于高阈值为止
          • 剩余内存落在页低阈值页高阈值中间,说明内存有一定压力,但还可以满足新内存请求
          • 剩余内存大于页高阈值,说明剩余内存比较多,没有内存压力
        • 查看页最小阈值:cat /proc/sys/vm/min_free_kbytes
        • 其它阈值由最小阈值通过公式计算得出

          • pages_low = pages_min*5/4
          • pages_high = pages_min*3/2
  • NUMA和Swap

    • 在 NUMA 架构下,多个处理器被划分到不同 Node 上,且每个 Node 都拥有自己的本地内存空间
    • 而同一个 Node 内部的内存空间,实际上又可以进一步分为不同的内存域(Zone),比如直接内存访问区(DMA)、普通内存区(NORMAL)、伪内存区(MOVABLE)等
    • 使用numactl工具,查看每个node的内存使用情况

      • 命令:numactl --hardware
    • 查看每个node的各个swap阈值等信息

      • 命令:cat /proc/zoneinfo
  • swappiness

    • 直接回收和Swap两种回收方式,系统如何选择?
    • Linux 提供了一个 /proc/sys/vm/swappiness 选项,用来调整使用 Swap 的积极程度
    • swappiness 的范围是 0-100,数值越大,越积极使用 Swap,也就是更倾向于回收匿名页;数值越小,越消极使用 Swap,也就是更倾向于回收文件页

【总结】如何“快准狠”找到系统内存的问题

  • 内存性能指标

    • 系统维度

      • 已使用内存(Used),即已经使用的内存,包含了共享内存
      • 未使用内存(free),即未使用的内存
      • 可用内存(available),表示进程可以使用的最大内存,其包括未使用内存和可回收缓存
      • 共享内存(shared),其允许两个不相关的进程访问同一个逻辑内存。通过 tmpfs 实现,所以它的大小也就是 tmpfs 使用的内存大小
      • 缓存&缓冲区(Cache&Buffer)

        • 缓存包括两部分:一部分是磁盘读取文件的页缓存,另一部分,是 Slab 分配器中的可回收内存
        • 缓冲区是对原始磁盘块的临时存储,用来缓存将要写入磁盘的数据
    • 进程维度

      • 虚拟内存(VIRT),进程申请过的内存,即便还没有真正分配物理内存也会计算在内。包括:只读段、数据段、堆、文件映射段、栈等等。
      • 常驻内存(RES),进程实际使用的物理内存大小,不包括 Swap 和共享内存。
      • 共享内存(SHR),既包括与其他进程共同使用的真实的共享内存,还包括了加载的动态链接库以及程序的代码段等
      • 实际使用的物理内存(PSS),比例分配共享库占用的内存
      • 进程独自占用的物理内存(USS),不包含共享库占用的内存
    • 缺页异常

      • 系统调用内存分配请求后,不会立刻为其分配物理内存,而是在请求首次访问时通过缺页异常来分配

        • 可以直接从物理内存中分配时,被称为次缺页异常
        • 需要磁盘 I/O 介入(比如 Swap)时,被称为主缺页异常
    • Swap内存

      • 已用空间和剩余空间很好理解,即已经使用和没有使用的内存空间
      • 换入和换出速度,表示每秒钟换入和换出内存的大小
  • 内存性能工具

    • 系统整体维度

      • free
      • vmstat
      • cachestat
      • sar
    • 进程维度

      • top
      • ps
      • pidstat
      • cachetop
      • memleak
  • 分析思路

    • 先用 free 和 top,查看系统整体的内存使用情况
    • 再用 vmstat 和 pidstat,查看一段时间的趋势,从而判断出内存问题的类型
    • 最后进行详细分析,比如内存分配分析、缓存 / 缓冲区分析、具体进程的内存使用分析等
  • 优化思路

    • 最好禁止 Swap。如果必须开启 Swap,降低 swappiness 的值,减少内存回收时 Swap 的使用倾向
    • 减少内存的动态分配。比如,可以使用内存池、大页(HugePage)等
    • 尽量使用缓存和缓冲区来访问数据。比如,可以使用堆栈明确声明内存空间,来存储需要缓存的数据;或者用 Redis 这类的外部缓存组件,优化数据的访问
    • 使用 cgroups 等方式限制进程的内存使用情况。这样,可以确保系统内存不会被异常进程耗尽
    • 通过 /proc/pid/oom_adj ,调整核心应用的 oom_score。这样,可以保证即使内存紧张,核心应用也不会被 OOM 杀死

211.png
212.png
213.png

到底应该怎么理解“平均负载”?

  • 平均负载定义

    • 单位时间内,系统处于可运行状态不可中断状态的平均进程数,也就是平均活跃进程数。

      • 可运行状态:指正在使用 CPU 或者正在等待 CPU 的进程
      • 不可中断状态:指正处于内核态关键流程中的进程,并且这些流程是不可打断的
  • 当平均负载高于 CPU 数量 70% 的时候,你就应该分析排查负载高的问题
  • 平均负载与 CPU 使用率区别

    • 平均负载:不仅包括了正在使用 CPU 的进程,还包括等待 CPU 等待 I/O 的进程
    • CPU使用率:是单位时间内 CPU 繁忙情况的统计

      • CPU 密集型进程,使用大量 CPU 会导致平均负载升高,此时这两者是一致的
      • I/O 密集型进程,等待 I/O 也会导致平均负载升高,但 CPU 使用率不一定很高
      • 大量等待 CPU 的进程调度也会导致平均负载升高,此时的 CPU 使用率也会比较高
  • 测试工具

    • stress:Linux 系统压力测试工具
    • sysstat:包含了常用的 Linux 性能工具,用来监控和分析系统的性能

      • mpstat 是一个常用的多核 CPU 性能分析工具,用来实时查看每个 CPU 的性能指标,以及所有 CPU 的平均指标
      • pidstat 是一个常用的进程性能分析工具,用来实时查看进程的 CPU、内存、I/O 以及上下文切换等性能指标

经常说的 CPU 上下文切换是什么意思

  • 【CPU上下文】定义:CPU在运行任何任务前,必须的依赖环境。包括:CPU寄存器、程序计数器
  • 【CPU上下文切换】定义:就是先把前一个任务的 CPU 上下文保存起来,然后加载新任务的上下文到这些寄存器和程序计数器,最后再跳转到程序计数器所指的新位置,运行新任务。
  • CPU上下文切换的几种场景

    • 进程上下文切换

      • 进程的运行空间分为:内核空间、用户空间

        • 内核空间(Ring 0)具有最高权限,可以直接访问所有资源;
        • 用户空间(Ring 3)只能访问受限资源,不能直接访问内存等硬件设备,必须通过系统调用陷入到内核中,才能访问这些特权资源。
      • 系统调用

        • 当我们查看文件内容时,就需要多次系统调用来完成:首先调用 open() 打开文件,然后调用 read() 读取文件内容,并调用 write() 将内容写到标准输出,最后再调用 close() 关闭文件
        • 一次系统调用的过程,会发生了两次 CPU 上下文切换
        • 系统调用过程通常称为特权模式切换,而不是上下文切换
      • 进程上下文包括:内核空间的堆栈、寄存器信息;用户空间的虚拟内存、栈、全局变量等。
      • 切换流程:进程A执行->进程A上下文保存->加载进程B上下文->进程B执行
      • 切换时机:只有在进程调度的时候,才需要切换上下文

        • 进程执行完。则它之前使用的CPU会释放出来,这个时候再从就绪队列里,拿一个新的进程运行
        • CPU按时间片轮转。当某个进程的时间片耗尽了,就会被系统挂起,切换到其它正在等待 CPU 的进程运行
        • 进程在系统资源不足(比如内存不足)时。此时要等到资源满足后才可以运行,这个时候进程也会被挂起,并由系统调度其他进程运行
        • 进程调用sleep睡眠函数。此时进程会将自己主动挂起,自然也会重新调度
        • 有优先级更高的进程运行时。为了保证高优先级进程的运行,当前进程会被挂起,由高优先级进程来运行
        • 发生硬件中断时。此时CPU 上的进程会被中断挂起,转而执行内核中的中断服务程序
    • 线程上下文切换

      • 线程是调度的基本单位,而进程则是资源拥有的基本单位。
      • 线程上下文切换分为两种情况

        • 前后两个线程属于不同进程。此时,因为资源不共享,所以切换过程就跟进程上下文切换是一样。
        • 前后两个线程属于同一个进程。此时,因为虚拟内存是共享的,所以在切换时,虚拟内存这些资源就保持不动,只需要切换线程的私有数据、寄存器等不共享的数据。
    • 中断上下文切换

      • 为了快速响应硬件的事件,中断处理会打断进程的正常调度和执行,转而调用中断处理程序,响应设备事件。
      • 跟进程上下文不同,中断上下文切换并不涉及到进程的用户态。所以,即便中断过程打断了一个正处在用户态的进程,也不需要保存和恢复这个进程的虚拟内存、全局变量等用户态资源。中断上下文,其实只包括内核态中断服务程序执行所必需的状态,包括 CPU 寄存器、内核堆栈、硬件中断参数等。
      • 对同一个 CPU 来说,中断处理比进程拥有更高的优先级,所以中断上下文切换并不会与进程上下文切换同时发生。
  • 排查工具介绍

    • vmstat

      • vmstat 是一个常用的系统性能分析工具,主要用来分析系统的内存使用情况,也常用来分析 CPU 上下文切换和中断的次数。
      • 例子(每隔5秒输出1组数据):vmstat 5
      • 关键字段

        • cs(context switch)是每秒上下文切换的次数
        • in(interrupt)则是每秒中断的次数
        • r(Running or Runnable)是就绪队列的长度,也就是正在运行和等待 CPU 的进程数
        • b(Blocked)则是处于不可中断睡眠状态的进程数
    • pidstat

      • 查看每个进程/线程的上下文切换情况
      • 例子(每隔5秒输出1组数据,-w参数表示输出上下文切换指标,而-u参数则表示输出CPU使用指标,-t 表示输出线程维度的指标信息):pidstat -w -u -t 5
      • 关键字段

        • cswch ,表示每秒自愿上下文切换(voluntary context switches)的次数
        • nvcswch ,表示每秒非自愿上下文切换(non voluntary context switches)的次数
      • 关键字段概念

        • 自愿上下文切换,是指进程无法获取所需资源,导致的上下文切换
        • 非自愿上下文切换,则是指进程由于时间片已到等原因,被系统强制调度,进而发生的上下文切换
    • sysbench

      • 多线程基准测试工具,一般用来评估不同系统参数下的数据库负载情况。
      • 例子(以10个线程运行5分钟的基准测试,模拟多线程切换):sysbench --threads=10 --max-time=300 threads run
    • 查看中断信息

      • 命令:watch -d cat /proc/interrupts
  • 排查总结

    • 自愿上下文切换变多了,说明进程都在等待资源,有可能发生了 I/O 等其他问题
    • 非自愿上下文切换变多了,说明进程都在被强制调度,也就是都在争抢 CPU,说明 CPU 的确成了瓶颈
    • 中断次数变多了,说明 CPU 被中断处理程序占用,还需要通过查看 /proc/interrupts 文件来分析具体的中断类型

某个应用的CPU使用率居然达到100%,我该怎么办?

  • CPU使用率

    • 节拍率:单位HZ,表示每秒CPU时间轮转的次数

      • 查看系统节拍率:grep 'CONFIG_HZ=' /boot/config-$(uname -r)
      • 用户空间节拍率:USER_HZ,它总是固定为 100,也就是 1/100 秒
    • CPU常用指标含义

      • user(缩写 us):代表用户态 CPU 时间。注意,它不包括下面的 nice 时间,但包括了 guest 时间。
      • nice(缩写 ni):代表低优先级用户态 CPU 时间,也就是进程的 nice 值被调整为 1-19 之间时的 CPU 时间。这里注意,nice 可取值范围是 -20 到 19,数值越大,优先级反而越低。
      • system(缩写 sys):代表内核态 CPU 时间。
      • idle(缩写 id):代表空闲时间。注意,它不包括等待 I/O 的时间(iowait)。
      • iowait(缩写 wa):代表等待 I/O 的 CPU 时间。
      • irq(缩写 hi):代表处理硬中断的 CPU 时间。
      • softirq(缩写 si):代表处理软中断的 CPU 时间。
      • steal(缩写 st):代表当系统运行在虚拟机中的时候,被其他虚拟机占用的 CPU 时间。
      • guest(缩写 guest):代表通过虚拟化运行其他操作系统的时间,也就是运行虚拟机的 CPU 时间。
      • guest_nice(缩写 gnice):代表以低优先级运行虚拟机的时间。
    • CPU使用率公式

      • CPU 使用率,就是除了空闲时间外的其他时间占总 CPU 时间的百分比。
      • 性能分析工具给出的都是间隔一段时间的平均 CPU 使用率,所以要注意间隔时间的设置。
  • 常用排查工具

    • top

      • top 显示了系统总体的 CPU 和内存使用情况,以及各个进程的资源使用情况。
    • pidstat
    • perf

      • 性能分析工具。它以性能事件采样为基础,不仅可以分析系统的各种事件和内核性能,还可以用来分析指定应用程序的性能问题。
      • perf top

        • 支持参数:-g开启调用关系分析,-p指定特定进程PID
        • 显示占用 CPU 时钟最多的函数或者指令,因此可以用来查找热点函数。
        • 采样数(Samples)、事件类型(event)和事件总数量(Event count)。
        • 第一列 Overhead ,是该符号的性能事件在所有采样中的比例,用百分比来表示。
        • 第二列 Shared ,是该函数或指令所在的动态共享对象(Dynamic Shared Object),如内核、进程名、动态链接库名、内核模块名等。
        • 第三列 Object ,是动态共享对象的类型。比如 [.] 表示用户空间的可执行程序、或者动态链接库,而 [k] 则表示内核空间。
        • 最后一列 Symbol 是符号名,也就是函数名。当函数名未知时,用十六进制的地址来表示。
      • perf record

        • 持续采集数据,直至你强制终止。
      • perf report

        • 打开上面用record采集的离线数据并分析。
  • 经验总结

    • 用户 CPU 和 Nice CPU 高,说明用户态进程占用了较多的 CPU,所以应该着重排查进程的性能问题。
    • 系统 CPU 高,说明内核态占用了较多的 CPU,所以应该着重排查内核线程或者系统调用的性能问题。
    • I/O 等待 CPU 高,说明等待 I/O 的时间比较长,所以应该着重排查系统存储是不是出现了 I/O 问题。
    • 软中断和硬中断高,说明软中断或硬中断的处理程序占用了较多的 CPU,所以应该着重排查内核中的中断服务程序。

【案例】系统的 CPU 使用率很高,但为啥却找不到高 CPU 的应用?

  • 排查经过

    • 通过top、pidstat发现整体CPU使用率高,但每个进程则使用率均很低
    • 发现某些进程虽一直存在,但PID实际在不断变化,说明有两种可能:

      • 第一个原因,进程在不停地崩溃重启,比如因为段错误、配置错误等等,这时,进程在退出后可能又被监控系统自动重启了。
      • 第二个原因,这些进程都是短时进程,也就是在其他应用内部通过 exec 调用的外面命令。这些命令一般都只运行很短的时间就会结束,你很难用 top 这种间隔时间比较长的工具发现。
    • 通过pstree命令,树状查看进程之间关系

【案例】系统中出现大量不可中断进程和僵尸进程怎么办?

  • 进程状态

    • R 是 Running 或 Runnable 的缩写,表示进程在 CPU 的就绪队列中,正在运行或者正在等待运行。
    • D 是 Disk Sleep 的缩写,也就是不可中断状态睡眠(Uninterruptible Sleep),一般表示进程正在跟硬件交互,并且交互过程不允许被其他进程或中断打断。
    • Z 是 Zombie 的缩写,它表示僵尸进程,也就是进程实际上已经结束了,但是父进程还没有回收它的资源(比如进程的描述符、PID 等)。
    • S 是 Interruptible Sleep 的缩写,也就是可中断状态睡眠,表示进程因为等待某个事件而被系统挂起。当进程等待的事件发生时,它会被唤醒并进入 R 状态。
    • I 是 Idle 的缩写,也就是空闲状态,用在不可中断睡眠的内核线程上。前面说了,硬件交互导致的不可中断进程用 D 表示,但对某些内核线程来说,它们有可能实际上并没有任何负载,用 Idle 正是为了区分这种情况。要注意,D 状态的进程会导致平均负载升高, I 状态的进程却不会。
    • s 表示这个进程是一个会话的领导进程,而 + 表示前台进程组
  • 进程状态相关概念

    • 进程组,表示一组相互关联的进程,比如每个子进程都是父进程所在组的成员;

      • 后台运行的命令,构成后台进程组;在前台运行的命令,构成前台进程组
    • 会话,是指共享同一个控制终端的一个或多个进程组。
  • 排查工具

    • dstat,用于实时查看系统所有资源情况,包括CPU、mem、IO、network等。
    • strace,常用的跟踪进程的系统调用的工具。命令范例:strace -p

      • 若遇到返回Operation not permitted,可能是进程已经是僵尸进程导致无法访问。
  • 排查经过

    • iowait分析

      • 症状:整体iowait很高
      • 先top命令,查看处于D状态的进程有哪些
      • pidstat -d 3 10,查看各个进程的磁盘读写情况
      • strace -p ,查看嫌疑进程的系统调用情况
      • perf record -g,perf report。查看CPU调用栈情况。
    • 僵尸进程

      • 解决整理思路:找到它们的根儿,也就是找出父进程,然后在父进程里解决。
      • 使用pstree查看进程之间依赖关系,来找可疑父进程。

怎么理解Linux软中断?

  • 中断概念

    • 中断是系统用来响应硬件设备请求的一种机制,它会打断进程的正常调度和执行,然后调用内核中的中断处理程序来响应设备的请求。
    • 中断其实是一种异步的事件处理机制,可以提高系统的并发处理能力。
    • 中断处理程序在响应中断时,会临时关闭中断。这就会导致上一次中断处理完成之前,其他中断都不能响应,也就是说中断有可能会丢失。
  • 硬件中断&软中断概念

    • 为解决中断处理程序执行过长和中断丢失的问题,Linux 将中断处理过程分成了两个阶段,也就是上半部(硬件中断)和下半部(软中断)
    • 上半部(硬件中断),用来快速处理中断,它在中断禁止模式下运行,主要处理跟硬件紧密相关的或时间敏感的工作。
    • 下半部(软中断),用来延迟处理上半部未完成的工作,通常以内核线程的方式运行。

      • 每个 CPU 都对应一个软中断内核线程,名字为 “ksoftirqd/CPU 编号”。
  • 查看软中断&内核线程

    • /proc/softirqs,提供了软中断的运行情况
    • /proc/interrupts,提供了硬中断的运行情况

【案例】系统的软中断CPU使用率升高,我该怎么办?

  • 使用工具

    • sar,系统活动报告工具,既可以实时查看系统的当前活动,又可以配置保存和报告历史统计数据。

      • 怀疑CPU问题,使用:sar -usar -q

        • sar -u 查看CPU使用率情况
        • sar -q 查看运行队列进程数、平均负载等信息
      • 怀疑内存存在瓶颈,使用:sar -Bsar -rsar -W

        • sar -B 查看内存分页和缓存的使用情况
        • sar -r 查看内存和交换空间的统计信息
        • sar -W 查看系统SWAP交换的统计信息
      • 怀疑I/O存在瓶颈,使用:sar -bsar -usar -d

        • sar -b 查看I/O和传送速率的统计信息
        • sar -d 查看每一个块设备的活动信息
    • tcpdump ,常用的网络抓包工具,常用来分析各种网络问题。
  • 排查经过

    • 使用top查看CPU使用情况。发现其中si(软中断)比例相对较高,且软中断核心线程ksoftirqd/0的CPU使用率相对也较高。
    • 查看所有软中断的次数变化速率情况,所用命令:watch -d cat /proc/softirqs

      • 发现NET_RX(网络数据包接收)变化速率最快
    • 使用sar查看系统的网络收发情况,所用命令:sar -n DEV 1(-n DEV 表示显示网络收发的报告,间隔1秒输出一组数据)

      • 第一列:表示报告的时间
      • 第二列:IFACE 表示网卡
      • 第三、四列:rxpck/s 和 txpck/s 分别表示每秒接收、发送的网络帧数,也就是 PPS
      • 第五、六列:rxkB/s 和 txkB/s 分别表示每秒接收、发送的千字节数,也就是 BPS
      • 排查发现PPS大,而BPS小,说明接收到的都是小包。
    • 使用tcpdump抓包排查,所用命令:tcpdump -i eth0 -n tcp port 80(-i eth0 只抓取eth0网卡,-n不解析协议名和主机名,tcp port 80表示只抓取tcp协议并且端口号为80的网络帧)

【总结】如何迅速分析出系统CPU的瓶颈在哪里?

111.png
112.png
113.png
114.png

  • 工具汇总

    • 系统整体维度

      • top,展示系统整体以及各个进程的资源使用情况。
      • vmstat,查看系统内存、交换区、io、中断、上下文切换、CPU使用情况

        • vmstat 2 10(每2秒输出一次,输出10次)
      • dstat,查看CPU使用、io、网络、交换区(分页)、中断、上下文切换
      • sar,系统所有指标都能看。CPU、IO、内存等等。
    • CPU维度

      • mpstat,查看每个CPU或者整体的使用情况。

        • mpstat -P 0 2 10(查看CPU0的使用情况,每2秒输出一次,输出10次)
      • /proc/softirqs,查看软中断类型和每个CPU上的中断次数

        • watch -d cat /proc/softirqs
      • /proc/interrupts,查看硬件中断类型和每个CPU上的中断次数

        • watch -d cat /proc/interrupts
    • 进程/线程维度

      • pidstat,查看进程的 CPU、内存、I/O 以及上下文切换等性能指标。

        • pidstat -u -r -d -w -t 2 10(-u查看CPU、-r查看内存、-d查看IO、-w查看上下文、-t看线程维度,-p指定进程号,最后每2秒输出一次,输出10次)
      • ps,查看进程状态情况

        • ps -ef,ps -aux
      • pstree,查看进程之间的数状关系

        • pstree -p -a(加-p表示展示进程pid,-a表示展示进程完整指令参数。两者都可不加)
      • strace,查看进程的系统调用。

        • strace -p
      • perf,性能分析工具

        • perf top -g -p (加-g开启调用关系分析,-p则指定分析某个进程)
        • perf record,持续采集数据。
        • perf report,分析所采集的数据。

【总结】CPU 性能优化的几个思路

  • 性能优化方法论

    • 怎么评估性能优化的效果

      • 确定性能的量化指标

        • 不要局限在单一维度的指标上(至少要从应用程序系统资源这两个维度选择指标)
      • 测试优化前的性能指标
      • 测试优化后的性能指标

        • 避免性能测试工具干扰应用程序的性能
        • 避免外部环境的变化影响性能指标的评估
    • 多个性能问题同时存在,要怎么选择

      • 并不是所有的性能问题都值得优化(二八法则,20%代码造成80%的性能问题)
      • 第一,如果发现是系统资源达到了瓶颈,比如 CPU 使用率达到了 100%,那么首先优化的一定是系统资源使用问题。完成系统资源瓶颈的优化后,我们才要考虑其他问题。
      • 第二,针对不同类型的指标,首先去优化那些由瓶颈导致的,性能指标变化幅度最大的问题。比如产生瓶颈后,用户 CPU 使用率升高了 10%,而系统 CPU 使用率却升高了 50%,这个时候就应该首先优化系统 CPU 的使用。
    • 有多种优化方法时,要如何选择

      • 性能优化并非没有成本。性能优化通常会带来复杂度的提升,降低程序的可维护性,还可能在优化一个指标时,引发其他指标的异常。
  • CPU优化

    • 应用程序优化

      • 排除所有不必要的工作,只保留最核心的逻辑
      • 编译器优化,很多编译器都会提供优化选项,适当开启它们
      • 算法优化,使用复杂度更低的算法,可以显著加快处理速度
      • 异步处理,可以避免程序因为等待某个资源而一直阻塞,从而提升程序的并发处理能力
      • 多线程代替多进程,相对于进程的上下文切换,线程的上下文切换并不切换进程地址空间,因此可以降低上下文切换的成本
      • 善用缓存,经常访问的数据或者计算过程中的步骤,可以放到内存中缓存起来,这样在下次用时就能直接从内存中获取,加快程序的处理速度
    • 系统优化

      • CPU 绑定,把进程绑定到一个或者多个 CPU 上,可以提高 CPU 缓存的命中率,减少跨 CPU 调度带来的上下文切换问题
      • CPU 独占,进一步将 CPU 分组,并通过 CPU 亲和性机制为其分配进程。这样,这些 CPU 就由指定的进程独占
      • 优先级调整,使用 nice 调整进程的优先级,正值调低优先级,负值调高优先级
      • 为进程设置资源限制,使用 Linux cgroups 来设置进程的 CPU 使用上限,可以防止由于某个应用自身的问题,而耗尽系统资源
      • NUMA(Non-Uniform Memory Access)优化,支持 NUMA 的处理器会被划分为多个 node,每个 node 都有自己的本地内存空间。NUMA 优化,其实就是让 CPU 尽可能只访问本地内存
      • 中断负载均衡,无论是软中断还是硬中断,它们的中断处理程序都可能会耗费大量的 CPU。开启 irqbalance 服务或者配置 smp_affinity,就可以把中断处理过程自动负载均衡到多个 CPU 上
  • 千万避免过早优化