第二十一章-性能监控与调优概述

一、背景说明

1. 生产环境中的问题

  • 生产环境发生了内存溢出该如何处理?

  • 生产环境应该给服务器分配多少内存合适?

  • 如何对垃圾回收器的性能进行调优?

  • 生产环境CPU负载飙高该如何处理?

  • 生产环境应该给应用分配多少线程合适?

  • 不加log,如何确定请求是否执行了某一行代码?

  • 不加log,如何实时查看某个方法的入参与返回值?

2. 为什么要调优

  • 防止出现OOM

  • 解决OOM

  • 减少Full GC出现的频率

3. 不同阶段的考虑

  • 上线前

  • 项目运行阶段

  • 线上出现OOM

二、调优概述

1. 监控的依据

  • 运行日志

  • 异常堆栈

  • GC日志

  • 线程快照

  • 堆转储快照

2. 调优的大方向

  • 合理地编写代码

  • 充分并合理的使用硬件资源

  • 合理地进行JVM调优

三、性能优化的步骤

第1步:性能监控

  • GC频繁

  • cpu load过高

  • OOM

  • 内存泄露

  • 死锁

  • 程序响应时间较长

第2步:性能分析

  • 打印GC日志,通过 GCviewer 或者 http://gceasy.io 来分析异常信息

  • 灵活运用命令行工具、jstack、jmap、jinfo等

  • dump出堆文件,使用内存分析工具分析文件

  • 使用阿里Arthas、jconsole、JVisualVM来实时查看JVM状态

  • jstack查看堆栈信息

第3步:性能调优

  • 适当增加内存,根据业务背景选择垃圾回收器

  • 优化代码,控制内存使用

  • 增加机器,分散节点压力

  • 合理设置线程池线程数量

  • 使用中间件提高程序效率,比如缓存、消息队列等

  • 其他……

四、性能评价/测试指标

1. 停顿时间(或响应时间)

提交请求和返回该请求的响应之间使用的时间,一般比较关注平均响应时间。常用操作的响应时间列表:

操作 响应时间
打开一个站点 几秒
数据库查询一条记录(有索引) 十几毫秒
机械磁盘一次寻址定位 4毫秒
从机械磁盘顺序读取1M数据 2毫秒
从SSD磁盘顺序读取1M数据 0.3毫秒
从远程分布式换成Redis 读取一个数据 0.5毫秒
从内存读取 1M数据 十几微妙
Java程序本地方法调用 几微妙
网络传输2Kb数据 1 微妙

在垃圾回收环节中:

  • 暂停时间:执行垃圾收集时,程序的工作线程被暂停的时间。

  • -XX:MaxGCPauseMillis (设置最大暂停时间)

2. 吞吐量

  • 对单位时间内完成的工作量(请求)的量度

  • 在GC中:运行用户代码的事件占总运行时间的比例(总运行时间:程序的运行时间+内存回收的时间)

  • 吞吐量为1-1/(1+n),其中-XX::GCTimeRatio=n

    • parallel scavenge 收集器参数, 即: 垃圾收集时间占总时间的比率, 默认值: 99

3. 并发数

  • 同一时刻,对服务器有实际交互的请求数
    • 1000个人同时在线,估计并发数在5%-15%之间,也就是同时并发量:50-150之间。

4. 内存占用

  • Java堆区所占的内存大小

转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 george_95@126.com