一、背景说明
1. 生产环境中的问题
生产环境发生了内存溢出该如何处理?
生产环境应该给服务器分配多少内存合适?
如何对垃圾回收器的性能进行调优?
生产环境CPU负载飙高该如何处理?
生产环境应该给应用分配多少线程合适?
不加log,如何确定请求是否执行了某一行代码?
不加log,如何实时查看某个方法的入参与返回值?
2. 为什么要调优
防止出现OOM
解决OOM
减少Full GC出现的频率
3. 不同阶段的考虑
上线前
项目运行阶段
线上出现OOM
二、调优概述
1. 监控的依据
运行日志
异常堆栈
GC日志
线程快照
堆转储快照
2. 调优的大方向
合理地编写代码
充分并合理的使用硬件资源
合理地进行JVM调优
三、性能优化的步骤
第1步:性能监控
GC频繁
cpu load过高
OOM
内存泄露
死锁
程序响应时间较长
第2步:性能分析
打印GC日志,通过 GCviewer 或者 http://gceasy.io 来分析异常信息
灵活运用命令行工具、jstack、jmap、jinfo等
dump出堆文件,使用内存分析工具分析文件
使用阿里Arthas、jconsole、JVisualVM来实时查看JVM状态
jstack查看堆栈信息
第3步:性能调优
适当增加内存,根据业务背景选择垃圾回收器
优化代码,控制内存使用
增加机器,分散节点压力
合理设置线程池线程数量
使用中间件提高程序效率,比如缓存、消息队列等
其他……
四、性能评价/测试指标
1. 停顿时间(或响应时间)
提交请求和返回该请求的响应之间使用的时间,一般比较关注平均响应时间。常用操作的响应时间列表:
操作 | 响应时间 |
---|---|
打开一个站点 | 几秒 |
数据库查询一条记录(有索引) | 十几毫秒 |
机械磁盘一次寻址定位 | 4毫秒 |
从机械磁盘顺序读取1M数据 | 2毫秒 |
从SSD磁盘顺序读取1M数据 | 0.3毫秒 |
从远程分布式换成Redis 读取一个数据 | 0.5毫秒 |
从内存读取 1M数据 | 十几微妙 |
Java程序本地方法调用 | 几微妙 |
网络传输2Kb数据 | 1 微妙 |
在垃圾回收环节中:
暂停时间:执行垃圾收集时,程序的工作线程被暂停的时间。
-XX:MaxGCPauseMillis (设置最大暂停时间)
2. 吞吐量
对单位时间内完成的工作量(请求)的量度
在GC中:运行用户代码的事件占总运行时间的比例(总运行时间:程序的运行时间+内存回收的时间)
吞吐量为1-1/(1+n),其中-XX::GCTimeRatio=n
- parallel scavenge 收集器参数, 即: 垃圾收集时间占总时间的比率, 默认值: 99
3. 并发数
- 同一时刻,对服务器有实际交互的请求数
- 1000个人同时在线,估计并发数在5%-15%之间,也就是同时并发量:50-150之间。
4. 内存占用
- Java堆区所占的内存大小
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 george_95@126.com