Docker里Postgres内存爆了？从一次‘数据库系统处于恢复模式’报错，聊聊Linux内存管理和OOM Killer

张

张建站

2026/5/19 7:44:33

10分钟阅读

Docker里Postgres内存爆了？从一次‘数据库系统处于恢复模式’报错，聊聊Linux内存管理和OOM Killer

Docker中Postgres内存溢出问题深度解析从OOM Killer到Linux内存管理优化1. 问题现象与初步排查那天早上团队Slack频道突然炸开了锅——多个微服务同时报告数据库连接失败。作为负责基础设施的工程师我第一时间查看了Postgres容器的日志发现大量database system is in recovery mode的报错信息。这种报错通常意味着数据库正在从异常状态恢复但奇怪的是没有人手动重启过服务。通过docker logs命令查看容器日志我注意到一个关键时间点2023-11-15 09:23:17 UTC [1] LOG: received fast shutdown request 2023-11-15 09:23:17 UTC [1] LOG: aborting any active transactions 2023-11-15 09:23:17 UTC [1] LOG: background worker logical replication launcher (PID 89) exited with exit code 1 2023-11-15 09:23:17 UTC [1] LOG: shutting down 2023-11-15 09:23:17 UTC [1] LOG: database system is shut down这明显是Postgres被强制终止的迹象。进一步检查宿主机系统日志/var/log/messages真相开始浮出水面Nov 15 09:23:17 hostname kernel: Out of memory: Kill process 12345 (postgres) score 933 or sacrifice child Nov 15 09:23:17 hostname kernel: Killed process 12345 (postgres) total-vm:102400kB, anon-rss:100200kB, file-rss:0kB, shmem-rss:0kB关键发现容器内存限制为100MB通过docker run -m 100m设置Postgres实际内存使用量达到了限制值Linux OOM Killer机制介入强制终止了Postgres进程2. Linux内存管理机制深度剖析2.1 OOM Killer工作原理Linux内核中的OOM KillerOut-Of-Memory Killer是一个最后防线机制。当系统内存严重不足且无法通过常规手段回收时它会根据特定算法选择并终止一个或多个进程以释放内存。OOM Killer的决策基于每个进程的badness评分计算公式大致如下badness_score memory_usage_in_pages * oom_score_adj其中oom_score_adj可以通过/proc/[pid]/oom_score_adj文件调整范围-1000到1000。影响评分的因素进程占用的物理内存量进程运行时间长时间运行的进程得分更高进程优先级nice值是否为特权进程是否直接与用户交互2.2 内存分配策略vm.overcommit_memoryLinux提供了三种内存分配策略通过vm.overcommit_memory参数控制值策略风险适用场景0启发式过度分配中等通用场景1总是过度分配高科学计算等内存密集型应用2禁止过度分配低关键任务系统检查我们的环境$ sysctl vm.overcommit_memory vm.overcommit_memory 02.3 Swap与vm.swappinessSwap空间是磁盘上的一块区域用作内存的扩展。vm.swappiness参数控制内核使用Swap的倾向程度值范围0-100默认值60较低值更倾向于保留物理内存较高值更积极使用Swap在我们的案例中异常环境的配置存在严重问题# 异常环境 $ free -m total used free shared buff/cache available Mem: 31628 12498 267 1473 18862 17259 Swap: 0 0 0 $ sysctl vm.swappiness vm.swappiness 603. Docker内存管理特性3.1 容器内存限制机制Docker通过cgroups实现内存限制主要涉及以下参数-m或--memory硬性内存限制--memory-swap内存Swap总限制--memory-reservation软性内存限制--oom-kill-disable是否禁用OOM Killer常见误区只设置-m不设置--memory-swap时Swap可用空间等于-m值设置--memory-swap-1表示不限制Swap使用危险3.2 容器内存统计解读docker stats命令输出示例CONTAINER ID NAME CPU % MEM USAGE / LIMIT MEM % NET I/O BLOCK I/O PIDS e6f0729869fc postgres 0.14% 85.48MiB / 100MiB 85.48% 633MB/626MB 0B/0B 44关键指标MEM USAGE当前内存使用量包括缓存LIMIT内存限制值MEM %使用百分比4. 系统级优化方案4.1 内核参数调优针对Postgres容器的推荐配置# 启用适度的内存过度分配 sudo sysctl -w vm.overcommit_memory0 # 降低swappiness减少Swap使用 sudo sysctl -w vm.swappiness10 # 设置合理的overcommit_ratio物理内存的百分比 sudo sysctl -w vm.overcommit_ratio50 # 使配置永久生效 echo vm.overcommit_memory 0 /etc/sysctl.conf echo vm.swappiness 10 /etc/sysctl.conf echo vm.overcommit_ratio 50 /etc/sysctl.conf4.2 Swap空间配置为没有Swap的宿主机添加Swap空间# 创建4GB的Swap文件 sudo fallocate -l 4G /swapfile sudo chmod 600 /swapfile sudo mkswap /swapfile sudo swapon /swapfile # 永久生效 echo /swapfile none swap sw 0 0 | sudo tee -a /etc/fstab4.3 Docker运行参数优化Postgres容器的推荐启动参数docker run -d \ --name postgres \ -m 2g \ # 内存限制 --memory-swap3g \ # 内存Swap总限制 --memory-reservation1.5g \ # 软限制 --oom-kill-disablefalse \ # 允许OOM Killer介入 -e POSTGRESQL_SHARED_BUFFERS512MB \ # PG专用参数 -e POSTGRESQL_EFFECTIVE_CACHE_SIZE1GB \ postgres:latest重要参数对比参数原配置优化配置说明内存限制100MB2GB根据实际负载调整Swap总限制100MB3GB允许1GB Swap使用内存软限制无1.5GB更平滑的限制OOM Killer启用启用安全防护5. Postgres专用内存配置5.1 关键内存参数在postgresql.conf中需要关注的内存相关参数shared_buffers 512MB # 共享内存缓冲区 work_mem 16MB # 每个操作的内存 maintenance_work_mem 128MB # 维护操作的内存 effective_cache_size 1GB # 预计可用于缓存的内存5.2 容器环境特殊考量在容器中运行Postgres时需要特别注意共享内存大小docker run --shm-size1g ...透明大页(THP)问题echo never /sys/kernel/mm/transparent_hugepage/enabledNUMA架构影响docker run --numa-node0 ...6. 监控与预警机制6.1 关键监控指标需要持续监控的指标包括容器内存使用率Swap使用量OOM Kill事件计数Postgres的活跃连接数查询响应时间6.2 Prometheus监控配置示例# postgres_exporter配置 - name: postgres_memory rules: - alert: HighMemoryUsage expr: (container_memory_usage_bytes{container_label_com_docker_swarm_service_namepostgres} / container_spec_memory_limit_bytes{container_label_com_docker_swarm_service_namepostgres}) 0.8 for: 5m labels: severity: warning annotations: summary: Postgres container memory usage high ({{ $value }}%) description: Postgres container is using {{ $value }}% of its memory limit6.3 日志分析策略建议配置日志收集系统如ELK捕获以下日志/var/log/messages中的OOM事件Postgres的postgresql.logDocker守护进程日志使用类似如下的grep命令快速定位问题# 查找OOM事件 grep -i out of memory /var/log/messages # 查找被杀的Postgres进程 journalctl -k | grep -E -i killed process.*postgres7. 真实案例与经验分享去年我们在Kubernetes集群上遇到过一个类似但更隐蔽的问题。Postgres Pod会不定期重启但内存使用量看起来并不高。经过深入排查发现是Pod的内存限制设置过低1GB没有设置memory_reservationKubernetes的memory.available指标触发节点级别的驱逐Postgres被优先驱逐因为它的priorityClassName设置不当解决方案是resources: limits: memory: 4Gi requests: memory: 3Gi同时调整了Kubernetes的驱逐阈值kubeletArguments: eviction-hard: - memory.available500Mi eviction-minimum-reclaim: - memory.available1Gi这个案例教会我们在容器环境中内存管理需要同时考虑应用层、容器运行时和编排系统三个层面的配置。

从Maven Central迁移到自建JFrog Artifactory：一个Android SDK团队的踩坑与选型思考

从Maven Central迁移到自建JFrog Artifactory：一个Android SDK团队的踩坑与选型思考在快速迭代的移动开发领域，依赖管理如同城市的地下管网——平时无人关注，一旦出现问题却能让整个团队陷入瘫痪。我们团队在经历了三次因Maven Central服务不…...

2026/5/19 7:44:29 阅读更多 →

技术人的读书方法：高效阅读与知识转化

技术人的读书方法：高效阅读与知识转化引言作为一名技术人，阅读是获取知识的重要方式。但很多人读书效率不高，读完就忘。今天就来分享一下我的读书方法。为什么读书效率不高常见问题很多人读书时会遇到以下问题： 只读不思考&a…...

2026/5/19 7:44:28 阅读更多 →

基于MagTag与NeoPixel的智能光影盒：时间驱动灯光艺术

1. 项目概述与核心思路几年前，我痴迷于制作各种氛围灯，从简单的变色LED到复杂的智能灯带，但总觉得少了点“灵魂”。它们要么是单调的循环，要么需要手动App控制，缺乏一种与环境、与时间自然对话的“生命力”。直到我开始…...

2026/5/19 7:43:51 阅读更多 →

单相光伏发电并网控制【附代码】

✨ 长期致力于光伏电池、整流控制、逆变控制、最大功率点跟踪技术研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）自适应变步长电导增量法最大功率点跟…...

2026/5/18 5:24:09 阅读更多 →

【代码】hot100

Easy 两数之和两数之和 class Solution:def twoSum(self, nums: List[int], target: int) -> List[int]:xdict{}for i in range(len(nums)):jtarget-nums[i]if j in xdict.keys():return [i,xdict[j]]else:xdict[nums[i]]i 有效的括号有效的括号 class Soluti…...

2026/5/19 3:45:22 阅读更多 →

G-Helper终极教程：华硕笔记本轻量级性能控制神器

G-Helper终极教程：华硕笔记本轻量级性能控制神器【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenbook, Expertb…...

2026/5/18 5:24:10 阅读更多 →