分类 Linux性能优化实战笔记下的文章

Linux性能优化实战笔记（网络篇）

作者: keary
时间: 2019-12-14
分类: Linux性能优化实战笔记
评论

关于 Linux 网络，你必须知道这些

网络模型（TCP/IP）
- 应用层，负责向用户提供一组应用程序，比如 HTTP、FTP、DNS 等
- 传输层，负责端到端的通信，比如 TCP、UDP 等
- 网络层，负责网络包的封装、寻址和路由，比如 IP、ICMP 等
- 网络接口层，负责网络包在物理网络中的传输，比如 MAC 寻址、错误侦测以及通过网卡传输网络帧等。
Linux网络栈
- 传输层在应用程序数据前面增加了 TCP 头
- 网络层在 TCP 数据包前增加了 IP 头
- 网络接口层，又在 IP 数据包前后分别增加了帧头和帧尾
- （网络接口层定义最大传输单元MTU，若网络层包大小超过该值，则网络层要先做分片后往下交付）
- 总体调用栈：应用程序->系统调用->套接字->TCP/UDP->IP->链路层->igb/bnx->网卡
Linux网络收发流程
- 参见下图

性能指标
- 带宽，表示链路的最大传输速率，单位通常为 b/s
- 吞吐量，表示单位时间内成功传输的数据量，单位通常为 b/s（比特 / 秒）或者 B/s（字节 / 秒）
- 延时，表示从网络请求发出后，一直到收到远端响应，所需要的时间延迟
- PPS，是 Packet Per Second（包 / 秒）的缩写，表示以网络包为单位的传输速率
- 其它包括：网络的可用性（网络能否正常通信）、并发连接数（TCP连接数量）、丢包率、重传率
网络配置
- 查看工具：ifconfig、ip
- 命令：ifconfig eth0、ip -s addr show dev eth0
- 指标介绍
  - 网络接口的状态标志。ifconfig 输出中的 RUNNING ，或 ip 输出中的 LOWER_UP ，都表示物理网络是连通的
  - MTU 的大小。MTU 默认大小是 1500
  - 网络接口的 IP 地址、子网以及 MAC 地址
  - 网络收发的字节数、包数、错误数以及丢包情况
    - errors 表示发生错误的数据包数，比如校验错误、帧同步错误等
    - dropped 表示丢弃的数据包数，即数据包已经收到了 Ring Buffer，但因为内存不足等原因丢包；
    - overruns 表示超限数据包数，即网络 I/O 速度过快，导致 Ring Buffer 中的数据包来不及处理（队列满）而导致的丢包；
    - carrier 表示发生 carrirer 错误的数据包数，比如双工模式不匹配、物理电缆出现问题等；
    - collisions 表示碰撞数据包数。
套接字信息
- 查看工具：netstat、ss
- 命令：netstat -nlp、ss -ltnp
- 指标介绍
  - 接收队列（Recv-Q）和发送队列（Send-Q），通常应该是 0。若不为0说明有网络包的堆积发生
  - syn backlog 是 TCP 协议栈中的半连接队列长度；全连接队列（accept queue）
协议栈统计信息
- 命令：netstat -s、ss -s
网络吞吐&PPS
- 查看工具：sar
- 命令：sar -n DEV 2 10
- 指标介绍
  - rxpck/s 和 txpck/s 分别是接收和发送的 PPS，单位为包 / 秒
  - rxkB/s 和 txkB/s 分别是接收和发送的吞吐量，单位是 KB/ 秒
  - rxcmp/s 和 txcmp/s 分别是接收和发送的压缩数据包数，单位是包 / 秒
连通性&延迟
- 查看工具：ping

C10K 和 C1000K 回顾

定义
- C表示Client的意思，C10K就是单机支持1w的请求；C1000K即单机支持100w请求。
I/O模型优化
- I/O事件通知方式
  - 水平触发：只要文件描述符可以非阻塞地执行 I/O ，就会触发通知。也就是说，应用程序可以随时检查文件描述符的状态，然后再根据状态，进行 I/O 操作
  - 边缘触发：只有在文件描述符的状态发生改变（也就是 I/O 请求达到）时，才发送一次通知。这时候，应用程序需要尽可能多地执行 I/O，直到无法继续读写，才可以停止。
- 使用非阻塞 I/O 和水平触发通知（select和poll）
  - 实现方式：每个线程同时监控一批套接字的文件描述符，轮询遍历出哪些可以执行I/O，再执行真正的网络读写
  - 缺点：轮询耗时、select还有文件描述符数量限制、每次调用都涉及用户态和内核态的两次切换
- 使用非阻塞 I/O 和边缘触发通知，比如 epoll
  - 实现方式
    - epoll 使用红黑树，在内核中管理文件描述符的集合，这样就不需要应用程序在每次操作时都传入、传出这个集合
    - epoll 使用事件驱动的机制，只关注有 I/O 事件发生的文件描述符，不需要轮询扫描整个集合
- 使用异步 I/O（Asynchronous I/O，简称为 AIO）
  - 实现方式：异步 I/O 允许应用程序同时发起很多 I/O 操作，而不用等待这些操作完成。而在 I/O 完成后，系统会用事件通知（比如信号或者回调函数）的方式，告诉应用程序
工作模型优化
- 主进程 + 多个 worker 子进程
  - 实现方式
    - 主进程执行 bind() + listen() 后，创建多个子进程
    - 在每个子进程中，都通过 accept() 或 epoll_wait() ，来处理相同的套接字
  - 惊群问题
    - 定义：当网络 I/O 事件发生时，多个进程被同时唤醒，但实际上只有一个进程来响应这个事件，其他被唤醒的进程都会重新休眠
    - 解决方法：在每个 worker 进程中，都增加一个了全局锁（accept_mutex）。这些 worker 进程需要首先竞争到锁，只有竞争到锁的进程，才会加入到 epoll 中，这样就确保只有一个 worker 子进程被唤醒
- 监听到相同端口的多进程模型
  - 实现方式
    - 所有的进程都监听相同的接口，并且开启 SO_REUSEPORT 选项，由内核负责将请求负载均衡到这些监听进程中去
支撑C1000K的优化措施
- 实现方式
  - 跳过内核协议栈的冗长路径，把网络包直接送到要处理的应用程序那里去（DPDK 和 XDP）
- DPDK
  - 定义：用户态网络的标准，它跳过内核协议栈，直接由用户态进程通过轮询的方式，来处理网络接收。
- XDP
  - 定义：Linux 内核提供的一种高性能网络数据路径。它允许网络包，在进入内核协议栈之前，就进行处理，也可以带来更高的性能

【案例】怎么评估系统的网络性能

Linux网络基于TCP/IP协议栈，因此协议栈每层都可以评估分析其性能
各协议层性能测试
- 网络接口层&网络层（转发能力）
  - 测试工具：pktgen、hping3
  - 使用命令
    - modprobe pktgen
    - ps -ef | grep pktgen | grep -v grep
    - ls /proc/net/pktgen/
- TCP/UDP
  - 测试工具：iperf3
  - 使用方式
    - 在服务端执行：iperf3 -s -i 1 -p 8888
      - （-s表示启动服务端，-i表示汇报间隔，-p表示监听端口）
    - 在客户端执行：iperf3 -c 192.168.0.30 -b 1G -t 15 -P 2 -p 10000
      - （-c表示启动客户端，192.168.0.30为目标服务器的IP，-b表示目标带宽，-t表示测试时间，-P表示并发数，-p表示目标服务器监听端口）
    - 结果指标
      - SUM 行就是测试的汇总结果，包括测试时间、数据传输量以及带宽等
      - 按照发送和接收，这一部分又分为了 sender 和 receiver 两行
- HTTP
  - 测试工具：ab
  - 使用方式
    - 安装命令：yum install -y httpd-tools
    - 执行命令：ab -c 1000 -n 10000 http://192.168.0.30/
      - （-c表示并发请求数为1000，-n表示总的请求数为10000）
  - 结果指标
    - 测试结果分为三个部分，分别是请求汇总、连接时间汇总还有请求延迟汇总
- 应用负载
  - 测试工具：wrk
  - 使用方式
    - 安装命令
      - git clone https://github.com/wg/wrk.git
      - cd wrk
      - apt-get install build-essential -y
      - make
      - sudo cp wrk /usr/local/bin/
    - 执行命令：wrk -c 1000 -t 2 http://192.168.0.30/
      - （-c表示并发连接数1000，-t表示线程数为2）

【案例】DNS 解析时快时慢，我该怎么办

域名与DNS解析
- 查看DNS服务器：cat /etc/resolv.conf
- DNS记录类型
  - A 记录，用来把域名转换成 IP 地址
  - CNAME 记录，用来创建别名
  - NS 记录，表示该域名对应的域名服务器地址
- 查询域名IP与使用的DNS服务器
  - 使用工具：nslookup
  - 执行命令：nslookup www.baidu.com
  - 返回结果：使用的域名服务器及端口信息、域名的非权威查询结果
- DNS查询链路
  - 使用工具：dig
  - 执行命令：dig +trace +nodnssec www.baidu.com
    - （+trace表示开启跟踪查询，+nodnssec表示禁止DNS安全扩展）
  - 返回结果：DNS解析过程中，各级DNS服务器的信息与查询耗时
- （上述两个工具的安装：yum install -y bind-utils）
- 本地DNS解析
  - 执行命令：cat /etc/hosts
DNS解析失败案例分析
- 执行命令：nslookup www.baidu.com，返回connection timed out; no servers could be reached
- 但直接ping IP地址是通的，说明服务器本身没问题
- 再次执行命令：nslookup -debug www.baidu.com，开启debug模式，发现提示127.0.0.1#53(127.0.0.1)连接失败，说明是本地访问DNS服务器有问题
- 执行命令：cat /etc/resolv.conf，发现没有输出，说明是本地没有配置DNS服务器
DNS解析不稳定案例分析
- 执行命令：time nslookup www.baidu.com，发现耗时非常长，且有时候直接超时
- 怀疑可能的问题有
  - DNS 服务器本身有问题，响应慢并且不稳定
  - 客户端到 DNS 服务器的网络延迟比较大
  - DNS 请求或者响应包，在某些情况下被链路中的网络设备弄丢了
- 直接ping DNS服务器，发现耗时确实比较长，且有丢包情况
- 更换DNS服务器后情况好转，或者可以开启DNS缓存：/etc/init.d/dnsmasq start
DNS优化方法
- 对 DNS 解析的结果进行缓存
- 对 DNS 解析的结果进行预取（这是浏览器等 Web 应用中最常用的方法，预取域名的DNS解析结果）
- 使用 HTTPDNS 取代常规的 DNS 解析
- 基于 DNS 的全局负载均衡（GSLB）

【案例】使用 tcpdump 和 Wireshark 分析网络流量

tcpdump
- 仅支持命令行格式使用，常用在服务器中抓取和分析网络包
- 使用范例：tcpdump -nn udp port 53 or host 35.190.27.188
  - -nn ，表示不解析抓包中的域名（即不反向解析）、协议以及端口号
  - udp port 53 ，表示只显示 UDP 协议的端口号（包括源端口和目的端口）为 53 的包
  - host 35.190.27.188 ，表示只显示 IP 地址（包括源地址和目的地址）为 35.190.27.188 的包
  - 这两个过滤条件中间的“ or ”，表示或的关系，也就是说，只要满足上面两个条件中的任一个，就可以展示出来
wireshark
- 除了可以抓包外，还提供了强大的图形界面和汇总分析工具，在分析复杂的网络情景时，尤为简单和实用
- 可以先使用tcpdump抓包并将结果输出，然后用wireshark分析
  - 输出命令：tcpdump -nn udp port 53 or host 35.190.27.188 -w ping.pcap

【案例】怎么缓解 DDoS 攻击带来的性能下降问题

DDoS
- DDoS 的前身是 DoS（Denail of Service），即拒绝服务攻击，指利用大量的合理请求，来占用过多的目标资源，从而使目标服务无法响应正常请求。
- DDoS（Distributed Denial of Service）则是在 DoS 的基础上，采用了分布式架构，利用多台主机同时攻击目标主机。
- 攻击类型
  - 耗尽带宽
  - 耗尽操作系统的资源
  - 消耗应用程序的运行资源
排查经过
- 客户端curl页面发现响应非常慢
- 服务端通过sar命令，查看网络情况
  - 执行命令：sar -n DEV 1
  - 结果发现rxpck/s非常大，而txpck/s则相对较小。说明服务端收到大量的小包请求
- 通过tcpdump抓包排查是什么小包
  - 执行命令：tcpdump -i eth0 -n tcp port 80
  - 结果发现大量数据包是Flags [S]，表示这是一个 SYN 包。大量的 SYN 包表明这是 SYN Flood 攻击
  - SYN Flood的原理，是通过大量TCP的半开连接状态，从而无法建立新的 TCP 连接
- 查看服务端TCP半开连接
  - 执行命令：netstat -n -p | grep SYN_REC
  - 结果发现大量相同的IP占用TCP连接
- 防止SYN Flood攻击手段
  - 禁止某个指定IP的连接
    - 执行命令：iptables -I INPUT -s 192.168.0.2 -p tcp -j REJECT
  - 限制syn并发数为每秒1次
    - 执行命令：iptables -A INPUT -p tcp --syn -m limit --limit 1/s -j ACCEPT
  - 限制单个IP在60秒新建立的连接数为10
    - 执行命令：iptables -I INPUT -p tcp --dport 80 --syn -m recent --name SYN_FLOOD --update --seconds 60 --hitcount 10 -j REJECT
  - 增大半连接的最大数量
    - 执行命令：sysctl -w net.ipv4.tcp_max_syn_backlog=1024
  - 设置SYN_RECV失败时的重试次数
    - 执行命令：sysctl -w net.ipv4.tcp_synack_retries=1
  - 使用TCP SYN Cookies
    - TCP SYN Cookies 也是一种专门防御 SYN Flood 攻击的方法。SYN Cookies 基于连接信息（包括源地址、源端口、目的地址、目的端口等）以及一个加密种子（如系统启动时间），计算出一个哈希值（SHA1），这个哈希值称为 cookie

Linux性能优化实战笔记（I/O篇）

作者: keary
时间: 2019-12-01
分类: Linux性能优化实战笔记
评论

Linux 文件系统是怎么工作的？

索引节点&目录项
- Linux文件系统为每个文件都分配两个数据结构：索引节点（index node）和目录项（directory entry）
- 索引节点，简称为 inode，用来记录文件的元数据，比如 inode 编号、文件大小、访问权限、修改日期、数据的位置等。索引节点和文件一一对应，它跟文件内容一样，都会被持久化存储到磁盘中。索引节点同样占用磁盘空间。
- 目录项，简称为 dentry，用来记录文件的名字、索引节点指针以及与其他目录项的关联关系。多个关联的目录项，就构成了文件系统的目录结构。不过，不同于索引节点，目录项是由内核维护的一个内存数据结构，所以通常也被叫做目录项缓存。
- 目录项本身就是一个内存缓存，而索引节点则是存储在磁盘中的数据，并且也会缓存到内存中加速访问
- 磁盘被划分为三个存储区域：超级块、索引节点区和数据块区
  - 超级块，存储整个文件系统的状态
  - 索引节点区，用来存储索引节点
  - 数据块区，则用来存储文件数据
虚拟文件系统（VFS）
- 为了支持各种不同的文件系统，Linux 内核在用户进程和文件系统的中间，又引入了一个抽象层，也就是虚拟文件系统 VFS
- VFS 定义了一组所有文件系统都支持的数据结构和标准接口。这样，用户进程和内核中的其他子系统，只需要跟 VFS 提供的统一接口进行交互，而不需要再关心底层各种文件系统的实现细节
- 底层文件系统分为三类：基于磁盘、内存、网络的文件系统
  - 基于磁盘的文件系统，即数据直接存储在计算机本地挂载的磁盘中。常见的 Ext4、XFS、OverlayFS 等
  - 基于内存的文件系统，也就是常说的虚拟文件系统。不需要任何磁盘分配存储空间，但会占用内存
  - 网络文件系统，也就是用来访问其他计算机数据的文件系统，比如 NFS、SMB、iSCSI 等
文件系统I/O
- 根据是否利用标准库缓存，可以把文件 I/O 分为缓冲 I/O 与非缓冲 I/O
  - 缓冲 I/O，是指利用标准库缓存来加速文件的访问，而标准库内部再通过系统调度访问文件。
  - 非缓冲 I/O，是指直接通过系统调用来访问文件，不再经过标准库缓存。
- 根据是否利用操作系统的页缓存，可以把文件 I/O 分为直接 I/O 与非直接 I/O
  - 直接 I/O，是指跳过操作系统的页缓存，直接跟文件系统交互来访问文件。
  - 非直接 I/O 正好相反，文件读写时先要经过系统的页缓存，然后再由内核或额外的系统调用，真正写入磁盘。
- 根据应用程序是否阻塞自身运行，可以把文件 I/O 分为阻塞 I/O 和非阻塞 I/O
  - 阻塞 I/O，是指应用程序执行 I/O 操作后，如果没有获得响应，就会阻塞当前线程，自然就不能执行其他任务。
  - 非阻塞 I/O，是指应用程序执行 I/O 操作后，不会阻塞当前的线程，可以继续执行其他的任务，随后再通过轮询或者事件通知的形式，获取调用的结果。
- 根据是否等待响应结果，可以把文件 I/O 分为同步和异步 I/O
  - 同步 I/O，是指应用程序执行 I/O 操作后，要一直等到整个 I/O 完成后，才能获得 I/O 响应。
  - 异步 I/O，是指应用程序执行 I/O 操作后，不用等待完成和完成后的响应，而是继续执行就可以。等到这次 I/O 完成后，响应会用事件通知的方式，告诉应用程序。
性能观测工具
- 容量
  - df。所用命令：df -h（-h用可读性更好的容量单位，-i表示展示索引节点的容量占用情况）
- 缓存
  - cat /proc/meminfo | grep -E "SReclaimable|Cached"
  - cat /proc/slabinfo | grep -E '^#|dentry|inode'
  - slabtop

Linux 磁盘I/O是怎么工作的

虚拟文件系统（VFS）
- 目录项，记录了文件的名字，以及文件与其他目录项之间的目录关系（内存缓存）
- 索引节点，记录了文件的元数据（持久化数据）
- 逻辑块，是由连续磁盘扇区构成的最小读写单元，用来存储文件数据（持久化数据）
- 超级块，用来记录文件系统整体的状态，如索引节点和逻辑块的使用情况等（持久化数据）
磁盘
- 按存储介质分类：机械磁盘（HDD）、固态磁盘（SSD）
  - 机械磁盘
    - 盘片和磁头组成；随机I/O性能慢（要移动磁头）
    - 最小读写单位：扇区（512byte）
  - 固态磁盘
    - 无需寻址，速度快；
    - 最小读写单位：页（通常4KB、8KB）
  - 文件系统会把连续的扇区或页，组成逻辑块，作为最小管理单元
- 按接口分类：IDE、SCSI 、SAS 、SATA 、FC等
  - 不同接口的设备，会分配不同的前缀作为设备名（例如IDE设备以hd开头，SCSI以sd开头）
  - 相同接口的多块设备，再以字母a、b、c等编号（例如sda，sdb）
  - 同一块设备，又可以分为不同的逻辑分区，以数字区分（sda1，sda2）
- 在 Linux 中，磁盘实际上是作为一个块设备来管理的，也就是以块为单位读写数据，并且支持随机读写。
- 每个块设备都会被赋予两个设备号，分别是主、次设备号。主设备号用在驱动程序中，用来区分设备类型；而次设备号则是用来给多个同类设备编号。
I/O栈
- Linux存储系统的I/O栈，从上至下整体分为三个层次：文件系统层、通用块层、设备层
- 文件系统层
  - 包括虚拟文件系统和其他各种文件系统的具体实现。它为上层的应用程序，提供标准的文件访问接口；对下会通过通用块层，来存储和管理磁盘数据
- 通用块层
  - 主要功能
    - 向上，为文件系统和应用程序提供访问块设备的标准接口；向下，把各种异构的磁盘设备抽象为统一的块设备，并提供统一框架来管理这些设备的驱动程序
    - 给上层发来的 I/O 请求排队，并通过重新排序、请求合并等方式，提高磁盘读写的效率
  - 包括块设备 I/O 队列和 I/O 调度器。它会对文件系统的 I/O 请求进行排队，再通过重新排序和请求合并，然后才要发送给下一级的设备层
    - I/O调度算法：NONE、NOOP、CFQ 以及 DeadLine
      - NONE，相当于没算法。它完全不使用任何 I/O 调度器，对上层的 I/O 不做任何处理
      - NOOP ，是最简单的一种 I/O 调度算法。它实际上是一个先入先出的队列，只做一些最基本的请求合并
      - CFQ（Completely Fair Scheduler），也被称为完全公平调度器，是现在很多发行版的默认 I/O 调度器，它为每个进程维护了一个 I/O 调度队列，并按照时间片来均匀分布每个进程的 I/O 请求（支持优先级调度）
      - DeadLine，分别为读、写请求创建了不同的 I/O 队列，可以提高机械磁盘的吞吐量，并确保达到最终期限（deadline）的请求被优先处理
- 设备层
  - 包括存储设备和相应的驱动程序，负责最终物理设备的 I/O 操作
磁盘性能指标
- 使用率，是指磁盘处理 I/O 的时间百分比。过高的使用率（比如超过 80%），通常意味着磁盘 I/O 存在性能瓶颈。
- 饱和度，是指磁盘处理 I/O 的繁忙程度。过高的饱和度，意味着磁盘存在严重的性能瓶颈。当饱和度为 100% 时，磁盘无法接受新的 I/O 请求。
- IOPS（Input/Output Per Second），是指每秒的 I/O 请求数。
- 吞吐量，是指每秒的 I/O 请求大小。
- 响应时间，是指 I/O 请求从发出到收到响应的间隔时间。
磁盘I/O观测工具
- 系统维度：iostat
  - 命令范例：iostat -d -x 2 10（-d显示磁盘情况，-x显示详细信息，每隔2秒输出10次）
  - r/s，每秒发送给磁盘的读请求数量（合并后）
  - w/s，每秒发送给磁盘的写请求数量（合并后）
  - rkB/s，每秒从磁盘读取的数据量（单位kB）
  - wkB/s，每秒写入磁盘的数据量（单位kB）
  - rrqm/s，每秒合并的读请求数（%rrqm表示合并读请求的百分比）
  - wrqm/s，每秒合并的写请求数（%rrqm表示合并写请求的百分比）
  - avgrq-sz，请求队列中的平均大小
  - avgqu-sz，平均请求队列长度
  - r_await，读请求处理完成等待时间（包括队列中的等待时间和设备实际处理实际，单位ms）
  - w_await，写请求处理完成等待时间（包括队列中的等待时间和设备实际处理实际，单位ms）
  - await，即r_await和w_await的平均值
  - svctm，处理I/O请求所需的平均实际（不包括等待时间，单位ms，该时间只是推断）
  - %util，磁盘处理I/O的时间百分比
- 进程维度：pidstat
  - 命令范例：pidstat -d 2 10
  - 每秒读取的数据大小（kB_rd/s），单位是 KB。
  - 每秒发出的写请求数据大小（kB_wr/s），单位是 KB。
  - 每秒取消的写请求数据大小（kB_ccwr/s），单位是 KB。

【案例】如何找出狂打日志的“内鬼”

排查经过
- 通过top，查看系统整体性能
  - （CPU iowait%占比高，内存buffer/cache容量大，说明是I/O问题）
- 通过iostat，查看系统整体I/O性能
  - 命令：iostat -d -x 2 10
  - (sda磁盘的 I/O使用率%util大，wkB/s、w_await数值高，说明sda磁盘有写瓶颈)
- 通过pidstat，查看可疑进程的I/O性能
  - 命令：pidstat -d
  - （某进程的kB_wr/s数值很高，说明该进程一直在写I/O）
- 通过strace，查看某进程的系统调用
  - 命令：strace -p
  - （发现该进程确实在写某个文件）
- 通过lsof，查看进程打开的文件
  - 命令：lsof -p
  - （发现确实在打开某个文件疯狂写入）
- 查看该进程的源代码，定位写文件的代码

【总结】如何迅速分析出系统I/O的瓶颈在哪里

文件系统I/O性能指标
- 存储空间容量、使用量、剩余空间
- 索引节点容量、使用量、剩余空间
- 页缓存、目录项缓存、索引节点缓存、具体文件系统缓存
- IOPS（包括 r/s 和 w/s）、响应时间（延迟）、吞吐量（B/s）
磁盘I/O性能指标
- 使用率，是指磁盘忙处理 I/O 请求的百分比
- IOPS（Input/Output Per Second），是指每秒的 I/O 请求数
- 吞吐量，是指每秒的 I/O 请求大小
- 响应时间，是指从发出 I/O 请求到收到响应的间隔时间
性能工具
- 系统维度
  - df：容量、使用量、剩余空间（加-i表示看索引，不加是磁盘；-h展现更好的容量单位）
  - /proc/meminfo：普通文件系统占用的缓存页Cached、可回收的slab的大小SReclaimable
  - /proc/slabinfo：目录项、索引节点、文件系统的缓存
  - slabtop：同上，但更直观
  - iostat：磁盘I/O使用率、IOPS、吞吐量、响应时间、平均队列长度与大小等等（-d显示磁盘情况，-x显示详细信息）
  - vmstat（加-d展示磁盘状态信息）
- 进程维度
  - pidstat：进程读写I/O大小与延迟（加-d）
  - strace：查看某进程的系统调用
  - lsof：查看进程打开的文件
I/O问题整体分析思路
- 先用 iostat 发现磁盘 I/O 性能瓶颈；
- 再借助 pidstat ，定位出导致瓶颈的进程；
- 随后分析进程的 I/O 行为；
- 最后，结合应用程序的原理，分析这些 I/O 的来源。

【总结】磁盘 I/O 性能优化的几个思路

I/O基准测试
- 基准测试工具：fio
- 命令范例：fio -name=randread -direct=1 -iodepth=64 -rw=randread -ioengine=libaio -bs=4k -size=1G -numjobs=1 -runtime=1000 -group_reporting -filename=/dev/sdb
- 入参选项
  - direct，表示是否跳过系统缓存（1表示跳过）
  - iodepth，表示使用异步 I/O时，同时发出的 I/O 请求上限
  - rw，表示 I/O 模式（ read/write 分别表示顺序读 / 写， randread/randwrite 则分别表示随机读 / 写）
  - ioengine，表示 I/O 引擎，支持同步（sync）、异步（libaio）、内存映射（mmap）、网络（net）等
  - bs，表示 I/O 的大小
  - filename，表示文件路径。它可以是磁盘路径（测试磁盘性能），或文件路径（测试文件系统性能）
- 返回内容
  - slat ，是指从 I/O 提交到实际执行 I/O 的时长（Submission latency）
  - clat ，是指从 I/O 提交到 I/O 完成的时长（Completion latency）
  - lat ，指的是从 fio 创建 I/O 到 I/O 完成的总时长
应用程序优化
- 用追加写代替随机写，减少寻址开销，加快 I/O 写的速度
- 借助缓存 I/O ，充分利用系统缓存，降低实际 I/O 的次数
- 在应用程序内部构建自己的缓存，或者用 Redis 这类外部缓存系统
- 在需要频繁读写同一块磁盘空间时，可以用 mmap 代替 read/write，减少内存的拷贝次数
- 在需要同步写的场景中，尽量将写请求合并，而不是让每个请求都同步写入磁盘，即可以用 fsync() 取代 O_SYNC
- 在多个应用程序共享相同磁盘时，为了保证 I/O 不被某个应用完全占用，推荐使用 cgroups 的 I/O 子系统，来限制进程 / 进程组的 IOPS 以及吞吐量
文件系统优化
- 根据实际负载场景的不同，选择最适合的文件系统
- 优化文件系统的配置选项，包括文件系统的特性（如 ext_attr、dir_index）、日志模式（如 journal、ordered、writeback）、挂载选项（如 noatime）等
  - 调整文件系统的特性（tune2fs）
  - 调整文件系统的日志模式和挂载选项（/etc/fstab，mount）
- 优化文件系统的缓存
  - 优化 pdflush 脏页的刷新频率（设置 dirty_expire_centisecs 和 dirty_writeback_centisecs）
  - 优化脏页的限额（调整 dirty_background_ratio 和 dirty_ratio 等）
- 优化内核回收目录项缓存和索引节点缓存的倾向
  - 调整 /proc/sys/vm/vfs_cache_pressure（默认值 100），数值越大，就表示越容易回收
- 在不需要持久化时，还可以用内存文件系统 tmpfs，以获得更好的 I/O 性能
磁盘优化
- 换用性能更好的磁盘，比如用 SSD 替代 HDD
- 可以使用 RAID ，把多块磁盘组合成一个逻辑磁盘，构成冗余独立磁盘阵列
- 针对磁盘和应用程序 I/O 模式的特征，我们可以选择最适合的 I/O 调度算法
- 可以对应用程序的数据，进行磁盘级别的隔离
- 在顺序读比较多的场景中，我们可以增大磁盘的预读数据
  - 调整内核选项 /sys/block/sdb/queue/read_ahead_kb，默认大小是 128 KB，单位为 KB。
  - 使用 blockdev 工具设置，比如 blockdev --setra 8192 /dev/sdb
- 可以优化内核块设备 I/O 的选项
  - 调整磁盘队列的长度 /sys/block/sdb/queue/nr_requests，适当增大队列长度

Linux性能优化实战笔记（内存篇）

作者: keary
时间: 2019-11-26
分类: Linux性能优化实战笔记
评论

Linux内存是怎么工作的？

内存映射
- 每个进程会有对应的虚拟地址空间
- 虚拟地址空间包括：用户空间（128TB，64位系统）和内核空间（128TB，64位系统）
- 内存映射，其实就是将虚拟内存地址映射到物理内存地址。为了完成内存映射，内核为每个进程都维护了一张页表，记录虚拟地址与物理地址的映射关系
- 页表实际上存储在 CPU 的内存管理单元 MMU 中
- 当进程访问的虚拟地址在页表中查不到时，系统会产生一个缺页异常，进入内核空间分配物理内存、更新进程页表，最后再返回用户空间，恢复进程的运行
- MMU 并不以字节为单位来管理内存，而是规定了一个内存映射的最小单位，也就是页，通常是4KB大小
- 解决页表过大问题：多级页表
  - 把内存分成区块来管理，将原来的映射关系改成区块索引和区块内的偏移
  - Linux 用的是四级页表来管理内存页，虚拟地址被分为5个部分，前4个表项用于选择页，而最后一个索引表示页内偏移
虚拟内存空间分布
- 用户空间内存，地址空间从低到高分别是五种不同的内存段
  - 只读段：包括代码和常量等
  - 数据段：包括全局变量等
  - 堆：包括动态分配的内存，从低地址开始向上增长
  - 文件映射段：包括动态库、共享内存等，从高地址开始向下增长
  - 栈：包括局部变量和函数调用的上下文等。栈的大小是固定的，一般是 8 MB
- 堆和文件映射段的内存是动态分配的
内存分配与回收
- malloc()是C标准库提供的内存分配函数，对应到系统调用上有两种实现方式，即brk()和mmap()
- 对小块内存（小于 128K），C 标准库使用 brk() 来分配
  - 通过移动堆顶的位置来分配内存
  - 这些内存释放后并不会立刻归还系统，而是被缓存起来重复使用
    - 可以减少缺页异常的发生，提高内存访问效率
    - 在内存工作繁忙时，频繁的内存分配和释放会造成内存碎片
- 而大块内存（大于 128K），则直接使用内存映射 mmap() 来分配
  - 在文件映射段找一块空闲内存分配
    - 每次 mmap 都会发生缺页异常
    - 在内存工作繁忙时，频繁的内存分配会导致大量的缺页异常，使内核的管理负担增大
- 当这两种调用发生后，其实并没有真正分配内存。这些内存，都只在首次访问时才分配，也就是通过缺页异常进入内核中，再由内核来分配内存
- 调用 free() 或 unmap() ，来释放不用的内存
- 内存回收方式
  - 回收缓存：比如使用 LRU（Least Recently Used）算法，回收最近使用最少的内存页面
  - 回收不常访问的内存：把不常用的内存通过交换分区SWAP直接写到磁盘中
    - Swap 其实就是把一块磁盘空间当成内存来用
  - 杀死进程：内存紧张时系统还会通过 OOM（Out of Memory），直接杀掉占用大量内存的进程
    - 监控进程的内存使用情况，并且使用 oom_score 为每个进程的内存使用情况进行评分
      - 一个进程消耗的内存越大，oom_score 就越大
      - 一个进程运行占用的 CPU 越多，oom_score 就越小
      - 进程的 oom_score 越大，代表消耗的内存越多，也就越容易被 OOM 杀死
      - 可以手动设置进程的 oom_adj ，从而调整进程的 oom_score
        oom_adj 的范围是 [-17, 15]，数值越大，表示进程越容易被 OOM 杀死
        echo -16 > /proc/$(pidof sshd)/oom_adj
查看内存使用情况
- free
  - 第一列，total 是总内存大小
  - 第二列，used 是已使用内存的大小，包含了共享内存
  - 第三列，free 是未使用内存的大小
  - 第四列，shared 是共享内存的大小
  - 第五列，buff/cache 是缓存和缓冲区的大小
  - 最后一列，available 是新进程可用内存的大小
    - available 不仅包含未使用内存，还包括了可回收的缓存，所以一般会比未使用内存更大
- top
  - VIRT 是进程虚拟内存的大小，只要是进程申请过的内存，即便还没有真正分配物理内存，也会计算在内
  - RES 是常驻内存的大小，也就是进程实际使用的物理内存大小，但不包括 Swap 和共享内存
  - SHR 是共享内存的大小，比如与其他进程共同使用的共享内存、加载的动态链接库以及程序的代码段等
  - %MEM 是进程使用物理内存占系统总内存的百分比

怎么理解内存中的Buffer和Cache？

Buffers
- Buffers 是对原始磁盘块的临时存储，也就是用来缓存磁盘的数据，通常不会特别大（20MB 左右）
Cached
- Cached 是从磁盘读取文件的页缓存，也就是用来缓存从文件读取的数据
SReclaimable
- Slab 包括两部分， SReclaimable 是可回收部分； SUnreclaim是不可回收部分
Buffer 是对磁盘数据的缓存，而 Cache 是文件数据的缓存，它们既会用在读请求中，也会用在写请求中
Buffer/Cache用处
- 从写的角度来说，不仅可以优化磁盘和文件的写入，对应用程序也有好处，应用程序可以在数据真正落盘前，就返回去做其他工作。
- 从读的角度来说，既可以加速读取那些需要频繁访问的数据，也降低了频繁 I/O 对磁盘的压力。
磁盘&文件
- 磁盘是一个块设备，可以划分为不同的分区
- 在分区之上再创建文件系统，挂载到某个目录，之后才可以在这个目录中读写文件
- 在读写普通文件时，会经过文件系统，由文件系统负责与磁盘交互；而读写磁盘或者分区时，就会跳过文件系统，也就是所谓的“裸I/O“

【案例】如何利用系统缓存优化程序的运行效率？

缓存命中率
- 命中率越高，表示使用缓存带来的收益越高，应用程序的性能也就越好。
- 查看系统缓存命中情况的工具：cachestat，cachetop
  - 工具安装：yum install bcc-tools，且要求kernel版本在4.1以上
  - 安装完成后，手动设置PATH目录：export PATH=$PATH:/usr/share/bcc/tools
  - cachestat
    - 提供了整个操作系统缓存的读写命中情况
    - TOTAL ，表示总的 I/O 次数
    - MISSES ，表示缓存未命中的次数
    - HITS ，表示缓存命中的次数
    - DIRTIES，表示新增到缓存中的脏页数
    - BUFFERS_MB 表示 Buffers 的大小，以 MB 为单位
    - CACHED_MB 表示 Cache 的大小，以 MB 为单位
  - cachetop
    - 提供了每个进程的缓存命中情况
    - READ_HIT 和 WRITE_HIT ，分别表示读和写的缓存命中率
查看文件缓存
- 使用pcstat工具（前提需要安装go语言）
  - 安装完go之后，执行以下命令：
    - export GOPATH=~/go
    - export PATH=~/go/bin:$PATH
    - go get golang.org/x/sys/unix
    - go get github.com/tobert/pcstat/pcstat
  - 命令：pcstat <file_url>

【案例】内存泄漏了，我该如何定位和处理？

内存可能出现的问题
- 内存泄漏。没正确回收分配后的内存，导致不仅应用程序自己不能访问，系统也不能把它们再次分配给其他应用。
- 越界访问。访问的是已分配内存边界外的地址，导致程序异常退出
用户空间内存是否会泄漏
- 只读段，包括程序的代码和常量，由于是只读的，不会再去分配新的内存，所以也不会产生内存泄漏。
- 数据段，包括全局变量和静态变量，这些变量在定义时就已经确定了大小，所以也不会产生内存泄漏。
- 内存映射段，包括动态链接库和共享内存，其中共享内存由程序动态分配和管理。所以，如果程序在分配后忘了回收，就会导致跟堆内存类似的泄漏问题。
检测内存泄漏工具：memleak
- 是bcc-tools内的工具之一
- 命令：memleak -p -a

Swap概念

系统内存紧张的处理方式：内存回收、OOM杀死进程
可回收内存的类型：文件页（Buffer和Cache）、匿名页（应用程序动态分配的堆内存）
- 文件页，可直接回收。若数据暂时还未写入磁盘（脏页），则回收前先写入磁盘再回收
  - 应用程序中，通过系统调用 fsync，把脏页同步到磁盘
  - 内核线程 pdflush 负责这些脏页的刷新
- 匿名页，不能直接回收。需要使用swap，将数据写入磁盘中，然后释放内存给其它进程使用。当需要使用这些数据时，再从磁盘中读取即可
swap原理
- Swap 说白了就是把一块磁盘空间或者一个本地文件（以下讲解以磁盘为例），当成内存来使用。
  - 换出，就是把进程暂时不用的内存数据存储到磁盘中，并释放这些数据占用的内存
  - 换入，则是在进程再次访问这些内存的时候，把它们从磁盘读到内存中来
- 系统回收内存的两种方式：直接回收、内核线程定期回收
  - 直接回收：当有新的大块内存分配请求，但是剩余内存不足。这个时候系统就需要回收一部分内存（Buffer、Cache），进而尽可能地满足新内存请求
  - 内核线程定期回收
    - 定期回收内存的内核线程：kswapd0
    - 定义了三个阈值：页最小阈值(pages_min)、页低阈值(pages_low)和页高阈值(pages_high)
      - 剩余内存小于页最小阈值，说明进程可用内存都耗尽了，只有内核才可以分配内存
      - 剩余内存落在页最小阈值和页低阈值中间，说明内存压力比较大，剩余内存不多了。这时 kswapd0 会执行内存回收，直到剩余内存大于高阈值为止
      - 剩余内存落在页低阈值和页高阈值中间，说明内存有一定压力，但还可以满足新内存请求
      - 剩余内存大于页高阈值，说明剩余内存比较多，没有内存压力
    - 查看页最小阈值：cat /proc/sys/vm/min_free_kbytes
    - 其它阈值由最小阈值通过公式计算得出
      - pages_low = pages_min*5/4
      - pages_high = pages_min*3/2
NUMA和Swap
- 在 NUMA 架构下，多个处理器被划分到不同 Node 上，且每个 Node 都拥有自己的本地内存空间
- 而同一个 Node 内部的内存空间，实际上又可以进一步分为不同的内存域（Zone），比如直接内存访问区（DMA）、普通内存区（NORMAL）、伪内存区（MOVABLE）等
- 使用numactl工具，查看每个node的内存使用情况
  - 命令：numactl --hardware
- 查看每个node的各个swap阈值等信息
  - 命令：cat /proc/zoneinfo
swappiness
- 直接回收和Swap两种回收方式，系统如何选择？
- Linux 提供了一个 /proc/sys/vm/swappiness 选项，用来调整使用 Swap 的积极程度
- swappiness 的范围是 0-100，数值越大，越积极使用 Swap，也就是更倾向于回收匿名页；数值越小，越消极使用 Swap，也就是更倾向于回收文件页

【总结】如何“快准狠”找到系统内存的问题

内存性能指标
- 系统维度
  - 已使用内存（Used），即已经使用的内存，包含了共享内存
  - 未使用内存（free），即未使用的内存
  - 可用内存（available），表示进程可以使用的最大内存，其包括未使用内存和可回收缓存
  - 共享内存（shared），其允许两个不相关的进程访问同一个逻辑内存。通过 tmpfs 实现，所以它的大小也就是 tmpfs 使用的内存大小
  - 缓存&缓冲区（Cache&Buffer）
    - 缓存包括两部分：一部分是磁盘读取文件的页缓存，另一部分，是 Slab 分配器中的可回收内存
    - 缓冲区是对原始磁盘块的临时存储，用来缓存将要写入磁盘的数据
- 进程维度
  - 虚拟内存（VIRT），进程申请过的内存，即便还没有真正分配物理内存也会计算在内。包括：只读段、数据段、堆、文件映射段、栈等等。
  - 常驻内存（RES），进程实际使用的物理内存大小，不包括 Swap 和共享内存。
  - 共享内存（SHR），既包括与其他进程共同使用的真实的共享内存，还包括了加载的动态链接库以及程序的代码段等
  - 实际使用的物理内存（PSS），比例分配共享库占用的内存
  - 进程独自占用的物理内存（USS），不包含共享库占用的内存
- 缺页异常
  - 系统调用内存分配请求后，不会立刻为其分配物理内存，而是在请求首次访问时通过缺页异常来分配
    - 可以直接从物理内存中分配时，被称为次缺页异常
    - 需要磁盘 I/O 介入（比如 Swap）时，被称为主缺页异常
- Swap内存
  - 已用空间和剩余空间很好理解，即已经使用和没有使用的内存空间
  - 换入和换出速度，表示每秒钟换入和换出内存的大小
内存性能工具
- 系统整体维度
  - free
  - vmstat
  - cachestat
  - sar
- 进程维度
  - top
  - ps
  - pidstat
  - cachetop
  - memleak
分析思路
- 先用 free 和 top，查看系统整体的内存使用情况
- 再用 vmstat 和 pidstat，查看一段时间的趋势，从而判断出内存问题的类型
- 最后进行详细分析，比如内存分配分析、缓存 / 缓冲区分析、具体进程的内存使用分析等
优化思路
- 最好禁止 Swap。如果必须开启 Swap，降低 swappiness 的值，减少内存回收时 Swap 的使用倾向
- 减少内存的动态分配。比如，可以使用内存池、大页（HugePage）等
- 尽量使用缓存和缓冲区来访问数据。比如，可以使用堆栈明确声明内存空间，来存储需要缓存的数据；或者用 Redis 这类的外部缓存组件，优化数据的访问
- 使用 cgroups 等方式限制进程的内存使用情况。这样，可以确保系统内存不会被异常进程耗尽
- 通过 /proc/pid/oom_adj ，调整核心应用的 oom_score。这样，可以保证即使内存紧张，核心应用也不会被 OOM 杀死

Linux性能优化实战笔记（CPU篇）

作者: keary
时间: 2019-11-19
分类: Linux性能优化实战笔记
评论

到底应该怎么理解“平均负载”？

平均负载定义
- 单位时间内，系统处于可运行状态和不可中断状态的平均进程数，也就是平均活跃进程数。
  - 可运行状态：指正在使用 CPU 或者正在等待 CPU 的进程
  - 不可中断状态：指正处于内核态关键流程中的进程，并且这些流程是不可打断的
当平均负载高于 CPU 数量 70% 的时候，你就应该分析排查负载高的问题
平均负载与 CPU 使用率区别
- 平均负载：不仅包括了正在使用 CPU 的进程，还包括等待 CPU 和等待 I/O 的进程
- CPU使用率：是单位时间内 CPU 繁忙情况的统计
  - CPU 密集型进程，使用大量 CPU 会导致平均负载升高，此时这两者是一致的
  - I/O 密集型进程，等待 I/O 也会导致平均负载升高，但 CPU 使用率不一定很高
  - 大量等待 CPU 的进程调度也会导致平均负载升高，此时的 CPU 使用率也会比较高
测试工具
- stress：Linux 系统压力测试工具
- sysstat：包含了常用的 Linux 性能工具，用来监控和分析系统的性能
  - mpstat 是一个常用的多核 CPU 性能分析工具，用来实时查看每个 CPU 的性能指标，以及所有 CPU 的平均指标
  - pidstat 是一个常用的进程性能分析工具，用来实时查看进程的 CPU、内存、I/O 以及上下文切换等性能指标

经常说的 CPU 上下文切换是什么意思

【CPU上下文】定义：CPU在运行任何任务前，必须的依赖环境。包括：CPU寄存器、程序计数器。
【CPU上下文切换】定义：就是先把前一个任务的 CPU 上下文保存起来，然后加载新任务的上下文到这些寄存器和程序计数器，最后再跳转到程序计数器所指的新位置，运行新任务。
CPU上下文切换的几种场景
- 进程上下文切换
  - 进程的运行空间分为：内核空间、用户空间
    - 内核空间（Ring 0）具有最高权限，可以直接访问所有资源；
    - 用户空间（Ring 3）只能访问受限资源，不能直接访问内存等硬件设备，必须通过系统调用陷入到内核中，才能访问这些特权资源。
  - 系统调用
    - 当我们查看文件内容时，就需要多次系统调用来完成：首先调用 open() 打开文件，然后调用 read() 读取文件内容，并调用 write() 将内容写到标准输出，最后再调用 close() 关闭文件
    - 一次系统调用的过程，会发生了两次 CPU 上下文切换
    - 系统调用过程通常称为特权模式切换，而不是上下文切换
  - 进程上下文包括：内核空间的堆栈、寄存器信息；用户空间的虚拟内存、栈、全局变量等。
  - 切换流程：进程A执行->进程A上下文保存->加载进程B上下文->进程B执行
  - 切换时机：只有在进程调度的时候，才需要切换上下文
    - 进程执行完。则它之前使用的CPU会释放出来，这个时候再从就绪队列里，拿一个新的进程运行
    - CPU按时间片轮转。当某个进程的时间片耗尽了，就会被系统挂起，切换到其它正在等待 CPU 的进程运行
    - 进程在系统资源不足（比如内存不足）时。此时要等到资源满足后才可以运行，这个时候进程也会被挂起，并由系统调度其他进程运行
    - 进程调用sleep睡眠函数。此时进程会将自己主动挂起，自然也会重新调度
    - 有优先级更高的进程运行时。为了保证高优先级进程的运行，当前进程会被挂起，由高优先级进程来运行
    - 发生硬件中断时。此时CPU 上的进程会被中断挂起，转而执行内核中的中断服务程序
- 线程上下文切换
  - 线程是调度的基本单位，而进程则是资源拥有的基本单位。
  - 线程上下文切换分为两种情况
    - 前后两个线程属于不同进程。此时，因为资源不共享，所以切换过程就跟进程上下文切换是一样。
    - 前后两个线程属于同一个进程。此时，因为虚拟内存是共享的，所以在切换时，虚拟内存这些资源就保持不动，只需要切换线程的私有数据、寄存器等不共享的数据。
- 中断上下文切换
  - 为了快速响应硬件的事件，中断处理会打断进程的正常调度和执行，转而调用中断处理程序，响应设备事件。
  - 跟进程上下文不同，中断上下文切换并不涉及到进程的用户态。所以，即便中断过程打断了一个正处在用户态的进程，也不需要保存和恢复这个进程的虚拟内存、全局变量等用户态资源。中断上下文，其实只包括内核态中断服务程序执行所必需的状态，包括 CPU 寄存器、内核堆栈、硬件中断参数等。
  - 对同一个 CPU 来说，中断处理比进程拥有更高的优先级，所以中断上下文切换并不会与进程上下文切换同时发生。
排查工具介绍
- vmstat
  - vmstat 是一个常用的系统性能分析工具，主要用来分析系统的内存使用情况，也常用来分析 CPU 上下文切换和中断的次数。
  - 例子（每隔5秒输出1组数据）：vmstat 5
  - 关键字段
    - cs（context switch）是每秒上下文切换的次数
    - in（interrupt）则是每秒中断的次数
    - r（Running or Runnable）是就绪队列的长度，也就是正在运行和等待 CPU 的进程数
    - b（Blocked）则是处于不可中断睡眠状态的进程数
- pidstat
  - 查看每个进程/线程的上下文切换情况
  - 例子（每隔5秒输出1组数据，-w参数表示输出上下文切换指标，而-u参数则表示输出CPU使用指标，-t 表示输出线程维度的指标信息）：pidstat -w -u -t 5
  - 关键字段
    - cswch ，表示每秒自愿上下文切换（voluntary context switches）的次数
    - nvcswch ，表示每秒非自愿上下文切换（non voluntary context switches）的次数
  - 关键字段概念
    - 自愿上下文切换，是指进程无法获取所需资源，导致的上下文切换
    - 非自愿上下文切换，则是指进程由于时间片已到等原因，被系统强制调度，进而发生的上下文切换
- sysbench
  - 多线程基准测试工具，一般用来评估不同系统参数下的数据库负载情况。
  - 例子（以10个线程运行5分钟的基准测试，模拟多线程切换）：sysbench --threads=10 --max-time=300 threads run
- 查看中断信息
  - 命令：watch -d cat /proc/interrupts
排查总结
- 自愿上下文切换变多了，说明进程都在等待资源，有可能发生了 I/O 等其他问题
- 非自愿上下文切换变多了，说明进程都在被强制调度，也就是都在争抢 CPU，说明 CPU 的确成了瓶颈
- 中断次数变多了，说明 CPU 被中断处理程序占用，还需要通过查看 /proc/interrupts 文件来分析具体的中断类型

某个应用的CPU使用率居然达到100%，我该怎么办？

CPU使用率
- 节拍率：单位HZ，表示每秒CPU时间轮转的次数
  - 查看系统节拍率：grep 'CONFIG_HZ=' /boot/config-$(uname -r)
  - 用户空间节拍率：USER_HZ，它总是固定为 100，也就是 1/100 秒
- CPU常用指标含义
  - user（缩写 us）：代表用户态 CPU 时间。注意，它不包括下面的 nice 时间，但包括了 guest 时间。
  - nice（缩写 ni）：代表低优先级用户态 CPU 时间，也就是进程的 nice 值被调整为 1-19 之间时的 CPU 时间。这里注意，nice 可取值范围是 -20 到 19，数值越大，优先级反而越低。
  - system（缩写 sys）：代表内核态 CPU 时间。
  - idle（缩写 id）：代表空闲时间。注意，它不包括等待 I/O 的时间（iowait）。
  - iowait（缩写 wa）：代表等待 I/O 的 CPU 时间。
  - irq（缩写 hi）：代表处理硬中断的 CPU 时间。
  - softirq（缩写 si）：代表处理软中断的 CPU 时间。
  - steal（缩写 st）：代表当系统运行在虚拟机中的时候，被其他虚拟机占用的 CPU 时间。
  - guest（缩写 guest）：代表通过虚拟化运行其他操作系统的时间，也就是运行虚拟机的 CPU 时间。
  - guest_nice（缩写 gnice）：代表以低优先级运行虚拟机的时间。
- CPU使用率公式
  - CPU 使用率，就是除了空闲时间外的其他时间占总 CPU 时间的百分比。
  - 性能分析工具给出的都是间隔一段时间的平均 CPU 使用率，所以要注意间隔时间的设置。
常用排查工具
- top
  - top 显示了系统总体的 CPU 和内存使用情况，以及各个进程的资源使用情况。
- pidstat
- perf
  - 性能分析工具。它以性能事件采样为基础，不仅可以分析系统的各种事件和内核性能，还可以用来分析指定应用程序的性能问题。
  - perf top
    - 支持参数：-g开启调用关系分析，-p指定特定进程PID
    - 显示占用 CPU 时钟最多的函数或者指令，因此可以用来查找热点函数。
    - 采样数（Samples）、事件类型（event）和事件总数量（Event count）。
    - 第一列 Overhead ，是该符号的性能事件在所有采样中的比例，用百分比来表示。
    - 第二列 Shared ，是该函数或指令所在的动态共享对象（Dynamic Shared Object），如内核、进程名、动态链接库名、内核模块名等。
    - 第三列 Object ，是动态共享对象的类型。比如 [.] 表示用户空间的可执行程序、或者动态链接库，而 [k] 则表示内核空间。
    - 最后一列 Symbol 是符号名，也就是函数名。当函数名未知时，用十六进制的地址来表示。
  - perf record
    - 持续采集数据，直至你强制终止。
  - perf report
    - 打开上面用record采集的离线数据并分析。
经验总结
- 用户 CPU 和 Nice CPU 高，说明用户态进程占用了较多的 CPU，所以应该着重排查进程的性能问题。
- 系统 CPU 高，说明内核态占用了较多的 CPU，所以应该着重排查内核线程或者系统调用的性能问题。
- I/O 等待 CPU 高，说明等待 I/O 的时间比较长，所以应该着重排查系统存储是不是出现了 I/O 问题。
- 软中断和硬中断高，说明软中断或硬中断的处理程序占用了较多的 CPU，所以应该着重排查内核中的中断服务程序。

【案例】系统的 CPU 使用率很高，但为啥却找不到高 CPU 的应用？

排查经过
- 通过top、pidstat发现整体CPU使用率高，但每个进程则使用率均很低
- 发现某些进程虽一直存在，但PID实际在不断变化，说明有两种可能：
  - 第一个原因，进程在不停地崩溃重启，比如因为段错误、配置错误等等，这时，进程在退出后可能又被监控系统自动重启了。
  - 第二个原因，这些进程都是短时进程，也就是在其他应用内部通过 exec 调用的外面命令。这些命令一般都只运行很短的时间就会结束，你很难用 top 这种间隔时间比较长的工具发现。
- 通过pstree命令，树状查看进程之间关系

【案例】系统中出现大量不可中断进程和僵尸进程怎么办？

进程状态
- R 是 Running 或 Runnable 的缩写，表示进程在 CPU 的就绪队列中，正在运行或者正在等待运行。
- D 是 Disk Sleep 的缩写，也就是不可中断状态睡眠（Uninterruptible Sleep），一般表示进程正在跟硬件交互，并且交互过程不允许被其他进程或中断打断。
- Z 是 Zombie 的缩写，它表示僵尸进程，也就是进程实际上已经结束了，但是父进程还没有回收它的资源（比如进程的描述符、PID 等）。
- S 是 Interruptible Sleep 的缩写，也就是可中断状态睡眠，表示进程因为等待某个事件而被系统挂起。当进程等待的事件发生时，它会被唤醒并进入 R 状态。
- I 是 Idle 的缩写，也就是空闲状态，用在不可中断睡眠的内核线程上。前面说了，硬件交互导致的不可中断进程用 D 表示，但对某些内核线程来说，它们有可能实际上并没有任何负载，用 Idle 正是为了区分这种情况。要注意，D 状态的进程会导致平均负载升高， I 状态的进程却不会。
- s 表示这个进程是一个会话的领导进程，而 + 表示前台进程组
进程状态相关概念
- 进程组，表示一组相互关联的进程，比如每个子进程都是父进程所在组的成员；
  - 后台运行的命令，构成后台进程组；在前台运行的命令，构成前台进程组
- 会话，是指共享同一个控制终端的一个或多个进程组。
排查工具
- dstat，用于实时查看系统所有资源情况，包括CPU、mem、IO、network等。
- strace，常用的跟踪进程的系统调用的工具。命令范例：strace -p
  - 若遇到返回Operation not permitted，可能是进程已经是僵尸进程导致无法访问。
排查经过
- iowait分析
  - 症状：整体iowait很高
  - 先top命令，查看处于D状态的进程有哪些
  - pidstat -d 3 10，查看各个进程的磁盘读写情况
  - strace -p ，查看嫌疑进程的系统调用情况
  - perf record -g，perf report。查看CPU调用栈情况。
- 僵尸进程
  - 解决整理思路：找到它们的根儿，也就是找出父进程，然后在父进程里解决。
  - 使用pstree查看进程之间依赖关系，来找可疑父进程。

怎么理解Linux软中断？

中断概念
- 中断是系统用来响应硬件设备请求的一种机制，它会打断进程的正常调度和执行，然后调用内核中的中断处理程序来响应设备的请求。
- 中断其实是一种异步的事件处理机制，可以提高系统的并发处理能力。
- 中断处理程序在响应中断时，会临时关闭中断。这就会导致上一次中断处理完成之前，其他中断都不能响应，也就是说中断有可能会丢失。
硬件中断&软中断概念
- 为解决中断处理程序执行过长和中断丢失的问题，Linux 将中断处理过程分成了两个阶段，也就是上半部（硬件中断）和下半部（软中断）
- 上半部（硬件中断），用来快速处理中断，它在中断禁止模式下运行，主要处理跟硬件紧密相关的或时间敏感的工作。
- 下半部（软中断），用来延迟处理上半部未完成的工作，通常以内核线程的方式运行。
  - 每个 CPU 都对应一个软中断内核线程，名字为 “ksoftirqd/CPU 编号”。
查看软中断&内核线程
- /proc/softirqs，提供了软中断的运行情况
- /proc/interrupts，提供了硬中断的运行情况

【案例】系统的软中断CPU使用率升高，我该怎么办？

使用工具
- sar，系统活动报告工具，既可以实时查看系统的当前活动，又可以配置保存和报告历史统计数据。
  - 怀疑CPU问题，使用：sar -u和sar -q
    - sar -u 查看CPU使用率情况
    - sar -q 查看运行队列进程数、平均负载等信息
  - 怀疑内存存在瓶颈，使用：sar -B、sar -r和sar -W
    - sar -B 查看内存分页和缓存的使用情况
    - sar -r 查看内存和交换空间的统计信息
    - sar -W 查看系统SWAP交换的统计信息
  - 怀疑I/O存在瓶颈，使用：sar -b、sar -u和sar -d
    - sar -b 查看I/O和传送速率的统计信息
    - sar -d 查看每一个块设备的活动信息
- tcpdump ，常用的网络抓包工具，常用来分析各种网络问题。
排查经过
- 使用top查看CPU使用情况。发现其中si（软中断）比例相对较高，且软中断核心线程ksoftirqd/0的CPU使用率相对也较高。
- 查看所有软中断的次数变化速率情况，所用命令：watch -d cat /proc/softirqs
  - 发现NET_RX（网络数据包接收）变化速率最快
- 使用sar查看系统的网络收发情况，所用命令：sar -n DEV 1（-n DEV 表示显示网络收发的报告，间隔1秒输出一组数据）
  - 第一列：表示报告的时间
  - 第二列：IFACE 表示网卡
  - 第三、四列：rxpck/s 和 txpck/s 分别表示每秒接收、发送的网络帧数，也就是 PPS
  - 第五、六列：rxkB/s 和 txkB/s 分别表示每秒接收、发送的千字节数，也就是 BPS
  - 排查发现PPS大，而BPS小，说明接收到的都是小包。
- 使用tcpdump抓包排查，所用命令：tcpdump -i eth0 -n tcp port 80（-i eth0 只抓取eth0网卡，-n不解析协议名和主机名，tcp port 80表示只抓取tcp协议并且端口号为80的网络帧）

【总结】如何迅速分析出系统CPU的瓶颈在哪里？

工具汇总
- 系统整体维度
  - top，展示系统整体以及各个进程的资源使用情况。
  - vmstat，查看系统内存、交换区、io、中断、上下文切换、CPU使用情况
    - vmstat 2 10（每2秒输出一次，输出10次）
  - dstat，查看CPU使用、io、网络、交换区（分页）、中断、上下文切换
  - sar，系统所有指标都能看。CPU、IO、内存等等。
- CPU维度
  - mpstat，查看每个CPU或者整体的使用情况。
    - mpstat -P 0 2 10（查看CPU0的使用情况，每2秒输出一次，输出10次）
  - /proc/softirqs，查看软中断类型和每个CPU上的中断次数
    - watch -d cat /proc/softirqs
  - /proc/interrupts，查看硬件中断类型和每个CPU上的中断次数
    - watch -d cat /proc/interrupts
- 进程/线程维度
  - pidstat，查看进程的 CPU、内存、I/O 以及上下文切换等性能指标。
    - pidstat -u -r -d -w -t 2 10（-u查看CPU、-r查看内存、-d查看IO、-w查看上下文、-t看线程维度，-p指定进程号，最后每2秒输出一次，输出10次）
  - ps，查看进程状态情况
    - ps -ef，ps -aux
  - pstree，查看进程之间的数状关系
    - pstree -p -a（加-p表示展示进程pid，-a表示展示进程完整指令参数。两者都可不加）
  - strace，查看进程的系统调用。
    - strace -p
  - perf，性能分析工具
    - perf top -g -p （加-g开启调用关系分析，-p则指定分析某个进程）
    - perf record，持续采集数据。
    - perf report，分析所采集的数据。

【总结】CPU 性能优化的几个思路

性能优化方法论
- 怎么评估性能优化的效果
  - 确定性能的量化指标
    - 不要局限在单一维度的指标上（至少要从应用程序和系统资源这两个维度选择指标）
  - 测试优化前的性能指标
  - 测试优化后的性能指标
    - 避免性能测试工具干扰应用程序的性能
    - 避免外部环境的变化影响性能指标的评估
- 多个性能问题同时存在，要怎么选择
  - 并不是所有的性能问题都值得优化（二八法则，20%代码造成80%的性能问题）
  - 第一，如果发现是系统资源达到了瓶颈，比如 CPU 使用率达到了 100%，那么首先优化的一定是系统资源使用问题。完成系统资源瓶颈的优化后，我们才要考虑其他问题。
  - 第二，针对不同类型的指标，首先去优化那些由瓶颈导致的，性能指标变化幅度最大的问题。比如产生瓶颈后，用户 CPU 使用率升高了 10%，而系统 CPU 使用率却升高了 50%，这个时候就应该首先优化系统 CPU 的使用。
- 有多种优化方法时，要如何选择
  - 性能优化并非没有成本。性能优化通常会带来复杂度的提升，降低程序的可维护性，还可能在优化一个指标时，引发其他指标的异常。
CPU优化
- 应用程序优化
  - 排除所有不必要的工作，只保留最核心的逻辑
  - 编译器优化，很多编译器都会提供优化选项，适当开启它们
  - 算法优化，使用复杂度更低的算法，可以显著加快处理速度
  - 异步处理，可以避免程序因为等待某个资源而一直阻塞，从而提升程序的并发处理能力
  - 多线程代替多进程，相对于进程的上下文切换，线程的上下文切换并不切换进程地址空间，因此可以降低上下文切换的成本
  - 善用缓存，经常访问的数据或者计算过程中的步骤，可以放到内存中缓存起来，这样在下次用时就能直接从内存中获取，加快程序的处理速度
- 系统优化
  - CPU 绑定，把进程绑定到一个或者多个 CPU 上，可以提高 CPU 缓存的命中率，减少跨 CPU 调度带来的上下文切换问题
  - CPU 独占，进一步将 CPU 分组，并通过 CPU 亲和性机制为其分配进程。这样，这些 CPU 就由指定的进程独占
  - 优先级调整，使用 nice 调整进程的优先级，正值调低优先级，负值调高优先级
  - 为进程设置资源限制，使用 Linux cgroups 来设置进程的 CPU 使用上限，可以防止由于某个应用自身的问题，而耗尽系统资源
  - NUMA（Non-Uniform Memory Access）优化，支持 NUMA 的处理器会被划分为多个 node，每个 node 都有自己的本地内存空间。NUMA 优化，其实就是让 CPU 尽可能只访问本地内存
  - 中断负载均衡，无论是软中断还是硬中断，它们的中断处理程序都可能会耗费大量的 CPU。开启 irqbalance 服务或者配置 smp_affinity，就可以把中断处理过程自动负载均衡到多个 CPU 上
千万避免过早优化

分类 Linux性能优化实战笔记下的文章

Linux性能优化实战笔记（网络篇）

关于 Linux 网络，你必须知道这些

C10K 和 C1000K 回顾

【案例】怎么评估系统的网络性能

【案例】DNS 解析时快时慢，我该怎么办

【案例】使用 tcpdump 和 Wireshark 分析网络流量

【案例】怎么缓解 DDoS 攻击带来的性能下降问题

Linux性能优化实战笔记（I/O篇）

Linux 文件系统是怎么工作的？

Linux 磁盘I/O是怎么工作的

【案例】如何找出狂打日志的“内鬼”

【总结】如何迅速分析出系统I/O的瓶颈在哪里

【总结】磁盘 I/O 性能优化的几个思路

Linux性能优化实战笔记（内存篇）

Linux内存是怎么工作的？

怎么理解内存中的Buffer和Cache？

【案例】如何利用系统缓存优化程序的运行效率？

【案例】内存泄漏了，我该如何定位和处理？

Swap概念

【总结】如何“快准狠”找到系统内存的问题

Linux性能优化实战笔记（CPU篇）

到底应该怎么理解“平均负载”？

经常说的 CPU 上下文切换是什么意思

某个应用的CPU使用率居然达到100%，我该怎么办？

【案例】系统的 CPU 使用率很高，但为啥却找不到高 CPU 的应用？

【案例】系统中出现大量不可中断进程和僵尸进程怎么办？

怎么理解Linux软中断？

【案例】系统的软中断CPU使用率升高，我该怎么办？

【总结】如何迅速分析出系统CPU的瓶颈在哪里？

【总结】CPU 性能优化的几个思路

最新文章

最近回复

分类

归档

其它

分类 Linux性能优化实战笔记 下的文章

Linux性能优化实战笔记（网络篇）

关于 Linux 网络，你必须知道这些

C10K 和 C1000K 回顾

【案例】怎么评估系统的网络性能

【案例】DNS 解析时快时慢，我该怎么办

【案例】使用 tcpdump 和 Wireshark 分析网络流量

【案例】怎么缓解 DDoS 攻击带来的性能下降问题

Linux性能优化实战笔记（I/O篇）

Linux 文件系统是怎么工作的？

Linux 磁盘I/O是怎么工作的

【案例】如何找出狂打日志的“内鬼”

【总结】如何迅速分析出系统I/O的瓶颈在哪里

【总结】磁盘 I/O 性能优化的几个思路

Linux性能优化实战笔记（内存篇）

Linux内存是怎么工作的？

怎么理解内存中的Buffer和Cache？

【案例】如何利用系统缓存优化程序的运行效率？

【案例】内存泄漏了，我该如何定位和处理？

Swap概念

【总结】如何“快准狠”找到系统内存的问题

Linux性能优化实战笔记（CPU篇）

到底应该怎么理解“平均负载”？

经常说的 CPU 上下文切换是什么意思

某个应用的CPU使用率居然达到100%，我该怎么办？

【案例】系统的 CPU 使用率很高，但为啥却找不到高 CPU 的应用？

【案例】系统中出现大量不可中断进程和僵尸进程怎么办？

怎么理解Linux软中断？

【案例】系统的软中断CPU使用率升高，我该怎么办？

【总结】如何迅速分析出系统CPU的瓶颈在哪里？

【总结】CPU 性能优化的几个思路

最新文章

最近回复

分类

归档

其它

分类 Linux性能优化实战笔记下的文章