高并发问题定位

张

张建站

2026/5/15 20:46:23

10分钟阅读

问题现象工作中遇到一个并发现象我们的自动化测试平台包含任务列表、脚本管理、远程真机、用户管理和机柜大屏等多个功能模块。随着今年用户量激增服务器压力明显增大导致页面响应出现卡顿现象虽然不影响核心功能执行。特别值得注意的是当打开机柜大屏时系统会在2分钟内出现严重卡顿直接影响平台脚本列表的查询功能。分析过程1、页面分析首先打开页面通过控制台F12将时间倒叙排序观察页面接口调用直至卡顿出现。观察后发现随着大屏监控的开启某一个接口耗时逐步增加从100ms到1s再到10s且数量越来越多。2、kube分析注意这步的排查思路跑偏了写在文档里只是提供一种拓展的思路以及对kube观察的理解。我们观察了脚本所在服务、任务所在服务、设备所在服务的pod,以及es、mongodb、mysql、redis等数据库资源。在这块走了不少弯路甚至排查方向一度出现问题。由于测试环境无法重现生产环境的并发问题我们使用JMeter对卡顿接口脚本列表和任务列表进行了压力测试直到页面出现卡顿直至崩溃的现象。随后排查MySQL慢SQL时发现虽然存在慢查询但并未出现大量积压的SQL请求因此排除了这个主要原因。不过通过这次排查我们也发现了一些平台需要优化的地方比如脚本列表查询和任务查询等慢SQL问题。以下是详细的排查过程1、使用jemeter压测工具将脚本列表查询接口的并发线程数提升至100后页面在1分钟内即出现明显卡顿现象。2、观察pod资源我们观察到user-e服务的CPU 2939%CPU/R 146说明CPU 已经超出 request 很多了已远超申请配额。同时filesystem 服务也存在类似情况。经分析 pod 运行状态后我们决定优先排查 user-e 服务 pod 中的线程竞争和锁冲突等并发问题。3、进入pod中查询jvm问题首先输入jps -l查询进程 ID输出为 6然后输入jstat -gcutil 6 1000命令每秒钟输出一次 GC 状态。观察到 FGC垃圾回收次数始终保持在 2 且没有异常增长说明 JVM 内存运行正常。因此将排查重点转向线程阻塞和数据库问题。4、查询线程阻塞情况执行命令top -Hp 6其中6为进程IDThreads: 68 total 5 running 63 sleeping说明线程数并不高这很重要因为如果是线程池爆炸、请求堆积或连接池耗尽你通常会看到几百上千个线程但你这里只有68个线程说明不是线程数量失控。此处CPU结构也很关键数据显示63%CPU空闲这意味着并不是 CPU 真被打满了27.3 us 63.0 id指标含义us用户态CPUidCPU空闲分析到这思路已经偏离很远了但排查JVM和线程状态对单个服务的问题定位仍有必要。然而当前涉及多个前后端服务这种单一维度的排查方案存在局限性。即便后续排查了MySQL慢查询等问题仍未找到根本原因此处不再详述。接下来我们将引入Arthas监控诊断工具结合页面分析结果通过该工具辅助定位问题根源最终解决问题。3、Arthas分析Arthas诊断工具可以通过全局视角实时查看应用 load、内存、gc、线程的状态信息并能在不修改应用代码的情况下对业务问题进行诊断包括查看方法调用的出入参、异常监测方法执行耗时类加载信息等大大提升线上问题排查效率。https://arthas.aliyun.com/doc/quick-start.html1、下载Arthas至服务器由于我们是内网系统开发所以是从官网下载导入到服务器的如果你所在的服务可联网可以直接通过官网提供的命令行安装。2、启动Arthas解压后使用java -jar arthas-boot.jar命令启动3、trace查询追踪调用链路获取1-页面分析中卡顿接口在代码中的路径使用trace命令查询链路耗时一步一步查询卡顿所在trace --skipJDKMethod false cn.testin.service.report.Report listDeviceReport #cost 200通过上图分析可以看出具体方法及各步骤的耗时情况其中某一步骤调用频繁且耗时较高。经代码排查发现该步骤调用次数过多占据了程序大部分执行时间导致其他接口调用被迫等待从而引发页面卡顿。后将此处代码优化后页面卡顿现象得到解决。

RK3576边缘AI实战：ResNet50从训练到NPU部署全流程解析

1. 项目概述：从边缘AI芯片到模型落地最近在折腾一个边缘计算的项目，客户要求把ResNet50模型塞进一个功耗和成本都卡得很死的嵌入式设备里，同时还得保证推理的实时性。选型阶段，瑞芯微的RK3576进入了我的视野。这枚芯片在边缘AI领域…...

2026/5/15 20:39:21 阅读更多 →

基于帕尔贴效应的智能冷饮机制作：从热电制冷原理到嵌入式控制实践

1. 项目概述与核心思路在炎热的夏天，没有什么比一杯冰镇饮料更让人舒爽的了。但传统的加冰方式往往会稀释饮料的风味，而市面上的小型制冷设备要么体积庞大，要么价格不菲。作为一名热衷于将电子技术与生活创意结合的爱好者，我一直在…...

2026/5/15 20:38:20 阅读更多 →

大语言模型辅助的软件需求分析与原型生成，大语言模型辅助的软件需求分析与原型生成：从模糊想法到可运行代码的全新路径

目录第一部分：为什么大语言模型特别适合需求分析？ 1.1 传统需求分析的核心痛点 1.2 大语言模型的三项关键能力 1.3 新范式：大模型辅助的需求工程第二部分：核心技术栈与提示词工程 2.1 推荐的工具链 2.2 提示词设计的核心原则 2.3 一个完整的提示词模板（可直接使…...

2026/5/15 20:36:06 阅读更多 →

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…...

2026/5/14 15:34:04 阅读更多 →

CANN/catlass TLA张量详解

TLA Tensors 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 本文介绍 TLA 中的 Tensor。如果说 Layout 负责描述“逻辑坐标如何映射到内存”&#xf…...

2026/5/15 4:35:33 阅读更多 →

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / …...

2026/5/15 1:45:17 阅读更多 →