动态与公告
- 产品动态
- 公告
- 产品发布记录
产品简介
购买指南
- 购买指引
- 购买 TKE 标准集群
- 购买原生节点
- 购买超级节点
快速入门
- 新手指引
- 快速创建一个标准集群
- 入门示例
- 容器应用部署 Check List
集群配置
- 标准集群概述
- 集群管理
- 网络管理
- 存储管理
- 节点管理
- GPU 资源管理
- 远程终端
应用配置
- 工作负载管理
- 服务和配置管理
- 组件和应用管理
- 弹性伸缩
- 容器登录方式
可观测配置
- 运维可观测性
- 成本洞察和优化
调度配置
- 调度组件概述
- 资源利用率优化调度
- 业务优先级保障调度
- Qos 感知调度
安全和稳定性
- 容器服务安全组设置
- 身份验证和授权
- 应用安全
多集群管理
- 计划升级
- 备份中心
云原生服务指南
- 云原生 etcd
- Prometheus 监控服务
- TKE Serverless 集群指南
- TKE 注册集群指南
实践教程
- 集群
- Serverless 集群
- 调度
- 安全
- 服务部署
- 网络
- 发布
- 日志
- 监控
- 运维
- Terraform
- DevOps
- 弹性伸缩
- 容器化
- 成本管理
- 混合云
- AI
故障处理
API 文档
- History
- Introduction
- API Category
- Making API Requests
- Elastic Cluster APIs
- Resource Reserved Coupon APIs
- Cluster APIs
- Third-party Node APIs
- Relevant APIs for Addon
- Network APIs
- Node APIs
- Node Pool APIs
- TKE Edge Cluster APIs
- Cloud Native Monitoring APIs
- Scaling group APIs
- Super Node APIs
- Other APIs
- Data Types
- Error Codes
- TKE API 2022-05-01
常见问题
- TKE 标准集群
- TKE Serverless 集群
- 运维类
- 隐患处理
- 服务类
- 镜像仓库类
- 远程终端类
- 事件类
- 资源管理类
服务协议
- TKE Service Level Agreement
- TKE Serverless Service Level Agreement
联系我们
词汇表

OOMGuard 说明

Download

聚焦模式

字号

最后更新时间： 2024-02-05 16:08:29

简介
说明：
该组件在用户态降低了由于 cgroup 内存回收失败而产生的各种内核故障的发生几率，仅适用于解决操作系统版本为 CenteOS 7.2/7.6的原生内核缺陷，其他镜像版本无需安装。
组件介绍
内存溢出（Out of Memory，OOM）是指应用系统中存在无法回收的内存或使用的内存过多，最终使得程序运行要用到的内存大于能提供的最大内存。当 cgroup 内存不足时，Linux 内核会触发 cgroup OOM 来选择一些进程终止，以便能回收一些内存从而尽量继续保持系统继续运行。但 Linux 内核（尤其是3.10等低版本内核）对 cgroup OOM 的处理存在很多问题，频繁的 cgroup OOM 经常会带来节点故障（例如卡死、重启或进程异常但无法终止）的情况。
OOM-Guard 是容器服务 TKE 提供的在用户态处理容器 cgroup OOM 的组件。当 cgroup OOM 情况出现时，在系统内核终止相关容器进程之前，OOM-Guard 组件会直接在用户空间终止超过内存限制的容器，从而减少了在内核态回收内存失败而触发各种节点故障的概率。
在触发阈值进行 OOM 之前，OOM-Guard 会先通过写入 memory.force_empty 触发相关 cgroup 的内存回收，如果 memory.stat 显示还有较多 cache，则不会触发后续处理策略。在 cgroup OOM 终止掉容器后，会向 Kubernetes 上报 OomGuardKillContainer 事件，可以通过 kubectl get event 命令进行查看。
原理介绍
核心思想是在发生内核 cgroup OOM kill 之前，在用户空间终止掉超限的容器， 减少走到内核 cgroup 内存回收失败后的代码分支从而触发各种内核故障的机会。
oom-guard 会给 memory cgroup 设置 threshold notify，接受内核的通知。详情见 threshold notify。
示例
假如一个 pod 设置的 memory limit 是1000M，oom-guard 会根据配置参数计算出 margin。
margin = 1000M * margin_ratio = 20M //缺省 margin_ratio 是 0.02
另外 margin 最小不小于 min_margin（缺省1M），最大不大于 max_margin（缺省为50M）。如果超出范围，则取 min_margin 或 max_margin。
然后计算 threshold：
threshold = limit - margin //即 1000M - 20M = 980M
把980M作为阈值设置给内核。当这个 pod 的内存使用量达到980M时，oom-guard 会收到内核的通知。
在触发阈值之前，oom-gurad 会先通过 memory.force_empty 触发相关 cgroup 的内存回收。另外，如果触发阈值时，相关 cgroup 的 memory.stat 显示还有较多 cache，则不会触发后续处理策略，这样当 cgroup 内存达到 limit 时，内核还是会触发 cgroup OOM。
达到阈值后的处理策略
通过--policy参数来控制处理策略。目前有以下三个策略，缺省策略是 container。
策略
描述
process
采用跟内核 cgroup OOM killer 相同的策略，在该 cgroup 内部，选择一个 oom_score 得分最高的进程终止。通过 oom-guard 发送 SIGKILL 来终止掉进程。
container
在该 cgroup 下选择一个 docker 容器，终止掉整个容器。
noop
只记录日志，并不采取任何措施。
部署在集群内的 Kubernetes 对象
Kubernetes 对象名称
类型
默认占用资源
所属 Namespaces
oomguard
ServiceAccount
-
kube-system
system:oomguard
ClusterRoleBinding
-
-
oom-guard
DaemonSet
0.02核 CPU，120MB内存
kube-system
使用场景
应用于节点内存压力比较大，业务容器经常发生 OOM 导致节点故障的 Kubernetes 集群。
限制条件
没有修改 containerd 服务 socket 路径，保持 TKE 的默认路径：
docker 运行时：/run/docker/containerd/docker-containerd.sock
containerd 运行时：/run/containerd/containerd.sock
没有修改 cgroup 内存子系统挂载点，保持默认挂载点：/sys/fs/cgroup/memory
组件权限说明
权限说明
该组件权限是当前功能实现的最小权限依赖。
OOM guard 需要在出现 OOM 时通过 event 发送 OOM 的情况，因此需要 event 的 create/patch/update 权限。
权限定义
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: system:oomguard
rules:
- apiGroups:
  - ''
  resources:
  - 'events'
  verbs:
  - create
  - patch
  - update
使用方法
1. 登录 容器服务控制台，在左侧导航栏中选择集群。
2. 在集群列表中，单击目标集群 ID，进入集群详情页。
3. 选择左侧导航中的组件管理，在组件管理页面单击新建。
4. 在新建组件管理页面中勾选 OOM-Guard。
5. 单击完成即可安装组件。

帮助和支持

本页内容是否解决了您的问题？

您也可以联系销售或提交工单以寻求帮助。

填写满意度调查问卷，共创更好文档体验。

文档反馈

策略	描述
process	采用跟内核 cgroup OOM killer 相同的策略，在该 cgroup 内部，选择一个 oom_score 得分最高的进程终止。通过 oom-guard 发送 SIGKILL 来终止掉进程。
container	在该 cgroup 下选择一个 docker 容器，终止掉整个容器。
noop	只记录日志，并不采取任何措施。

Kubernetes 对象名称	类型	默认占用资源	所属 Namespaces
oomguard	ServiceAccount	-	kube-system
system:oomguard	ClusterRoleBinding	-	-
oom-guard	DaemonSet	0.02核 CPU，120MB内存	kube-system

tencent cloud

容器服务

OOMGuard 说明

简介

组件介绍

原理介绍

示例

达到阈值后的处理策略

部署在集群内的 Kubernetes 对象

使用场景

限制条件

组件权限说明

权限说明

权限定义

使用方法

帮助和支持