tencent cloud

腾讯云可观测平台

动态与公告
产品动态
产品简介
产品概述
产品优势
基本功能
基本概念
应用场景
使用限制
购买指南
云产品监控
应用性能监控
终端性能监控
前端性能监控
云拨测
Prometheus 监控服务
Grafana 服务
事件总线
云压测
快速入门
监控概览
实例分组
云产品监控
应用性能监控
云拨测
云压测
Prometheus 监控服务
Grafana 服务
创建 Dashboard
事件总线
告警服务
云产品监控
云产品监控指标
控制台操作指南
云服务器监控组件
云产品监控对接 Grafana
故障处理
实践教程
应用性能监控
应用性能监控简介
接入指南
控制台操作指南
实践教程
参考信息
常见问题
终端性能监控
终端性能监控概述
控制台操作指南
接入指南
实践教程
前端性能监控
前端性能监控简介
控制台操作指南
接入指南
常见问题
云拨测
产品简介
控制台操作指南
常见问题
云压测
云压测概述
控制台操作指南
实践教程
JavaScript API 列表
常见问题
Prometheus 监控
Prometheus 监控简介
接入指南
控制台操作指南
实践教程
Terraform
常见问题
Grafana 服务
产品简介
控制台操作指南
Grafana 平台常用功能指引
常见问题
Dashboard
什么是 Dashboard
控制台操作指南
告警管理
控制台操作指南
故障处理
常见问题
事件总线
事件总线简介
控制台操作指南
实践教程
常见问题
报表管理
常见问题
腾讯云可观测平台常见问题
告警服务相关
一般性问题
监控图表相关
云服务器监控组件相关
动态阈值告警相关
云监控对接 Grafana 相关
文档阅读指南
相关协议
应用性能监控服务等级协议
APM 隐私协议
APM 数据处理和安全协议
前端性能监控服务等级协议
终端性能监控服务等级协议
云拨测服务等级协议
Prometheus 监控服务服务等级协议
Grafana 服务服务等级协议
云压测服务等级协议
云压测使用限制
Cloud Monitor Service Level Agreement
API 文档
History
Introduction
API Category
Making API Requests
Monitoring Data Query APIs
Alarm APIs
Legacy Alert APIs
Notification Template APIs
TMP APIs
Grafana Service APIs
Event Center APIs
TencentCloud Managed Service for Prometheus APIs
Monitoring APIs
Data Types
Error Codes
词汇表

默认告警策略

PDF
聚焦模式
字号
最后更新时间: 2024-01-27 17:37:34

概述

目前默认策略仅支持云服务器-基础监控、云数据库 MongoDB、云数据库-Mysql-主机监控、云数据库 Redis、云数据库-CynosDB-MySQL、云数据库-CynosDB-PostgreSQL、消息服务CKafka-实例、Elasticsearch服务、数据传输服务和弹性 MapReduce、负载均衡 CLB。
当您首次成功购买默认策略支持的云产品,腾讯云可观测平台会为您自动创建默认告警策略。如需了解默认策略支持的指标/事件或告警规则,请参见 默认策略说明
您也可以手动创建告警策略,设为默认告警策略。设置成功后新购买的实例会自动关联默认策略,无需您手动添加。



默认指标说明

产品名称
告警类型
指标/事件名称
告警规则
云服务器
指标告警
CPU 利用率
统计粒度为1分钟;阈值为>95%;持续监控数据点为5个监控数据点
内存利用率
统计粒度为1分钟;阈值为>95%;持续监控数据点为5个监控数据点
磁盘利用率
统计粒度为1分钟;阈值为>95%;持续监控数据点为5个监控数据点
外网带宽利用率
统计粒度为1分钟;阈值为>95%;持续监控数据点为5个监控数据点
事件告警
磁盘只读
-
云数据库 Mysql-主机监控
指标告警
磁盘利用率
统计粒度为1分钟;阈值为>80%;持续监控数据点为5个监控数据点
CPU 利用率
统计粒度为1分钟;阈值为>80%;持续监控数据点为5个监控数据点
事件告警
内存 OOM
-
云数据库MongoDB
指标告警
磁盘使用率
统计粒度为1分钟;阈值为>80%;持续监控数据点为5个监控数据点
连接使用率
统计粒度为1分钟;阈值为>80%;持续监控数据点为5个监控数据点
云数据库Redis-CKV 版本/社区版
指标告警
容量使用率
统计粒度为1分钟;阈值为>80%;持续监控数据点为5个监控数据点
云数据库 CynosDB-MySQL
事件告警
内存 OOM
-
实例只读(硬盘超限)
云数据库CynosDB-PostgreSQL
事件告警
内存不足
-
内存 OOM
消息服务 CKafka-实例
指标告警
磁盘使用百分比
统计粒度为1分钟;阈值为>85%;持续监控数据点为5个监控数据点
Elasticsearch 服务
指标告警
平均磁盘使用率
统计粒度为1分钟;阈值为>80%;持续监控数据点为5个监控数据点
平均 CPU 使用率
统计粒度为1分钟;阈值为>90%;持续监控数据点为5个监控数据点
平均 JVM 内存使用率
统计粒度为1分钟;阈值为>85%;持续监控数据点为5个监控数据点
集群健康状态
统计粒度为1分钟;阈值为>=1;持续监控数据点为5个监控数据点
数据传输服务
事件告警
数据迁移任务中断
-
数据同步任务中断
-
数据订阅任务中断
-
弹性 MapReduce-主机监控-磁盘
指标告警
磁盘空间使用率(used_all)
统计粒度1分钟,阈值为>80%,连续5次满足条件则只告警一次
inode 使用率
统计粒度1分钟,阈值为>50%,连续5次满足条件则只告警一次
弹性 MapReduce-主机监控-CPU
指标告警
CPU 使用率(idle)
统计粒度1分钟,阈值为<2%,连续5次满足条件则只告警一次
弹性 MapReduce-主机监控-内存
指标告警
内存使用占比(used_percent)
统计粒度1分钟,阈值为>95%,连续5次满足条件则只告警一次
弹性 MapReduce-主机监控-网络
事件告警
元数据库 Ping 失败
-
弹性 MapReduce-集群监控
事件告警
弹性扩缩容失败
-
弹性 MapReduce-HBASE-概览
指标告警
集群 RS 数量(numDeadRegionServers)
统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次
集群处于 RIT Region 个数(ritCountOverThreshold)
统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次
弹性 MapReduce-HBASE-HMaster
指标告警
GC 时间(FGCT)
统计粒度1分钟,阈值为>5s,连续5次满足条件则只告警一次
弹性 MapReduce-HBASE-RegionServer
指标告警
GC 时间(FGCT)
统计粒度1分钟,阈值为>5s,连续5次满足条件则只告警一次
Region 个数(regionCount)
统计粒度1分钟,阈值为>600Count,连续5次满足条件则只告警一次
操作队列请求数(compactionQueueLength)
统计粒度1分钟,阈值为>500Count,连续5次满足条件则只告警一次
弹性 MapReduce-HDFS-NameNode
指标告警
GC 时间(FGCT)
统计粒度1分钟,阈值为>5s,连续5次满足条件则只告警一次
缺失块统计(NumberOfMissingBlocks)
统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次
事件告警
NameNode 发生主备切换
-
弹性 MapReduce-HDFS-DataNode
指标告警
XCEIVER 数量(XceiverCount)
统计粒度1分钟,阈值为>1000Count,连续5次满足条件则只告警一次
GC 时间(FGCT)
统计粒度1分钟,阈值为>5s,连续5次满足条件则只告警一次
弹性 MapReduce-HDFS-概览
指标告警
磁盘故障
统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次
集群数据节点(NumDeadDataNodes)
统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次
集群数据节点(NumStaleDataNodes)
统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次
HDFS 存储空间使用率(capacityusedrate)
统计粒度1分钟,阈值为90%,连续5次满足条件则只告警一次
弹性 MapReduce-PRESTO-Presto_Coordinator
指标告警
GC 时间(FGCT)
统计粒度1分钟,阈值为>5s,连续5次满足条件则只告警一次
弹性 MapReduce-PRESTO-Presto_Worker
指标告警
GC 时间(FGCT)
统计粒度1分钟,阈值为>5s,连续5次满足条件则只告警一次
弹性 MapReduce-PRESTO-概览
指标告警
节点数量(Failed)
统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次
弹性 MapReduce-CLICKHOUSE-Sever
指标告警
partitions 中最大的活跃数据块的数量
统计粒度1分钟,阈值为>250Count,连续5次满足条件则只告警一次
弹性 MapReduce-HIVE-HiveMetaStore
指标告警
GC 时间(FGCT)
统计粒度1分钟,阈值为>5s,连续5次满足条件则只告警一次
DaemonThreadCount
统计粒度1分钟,阈值为>2000Count,连续5次满足条件则只告警一次
ThreadCount
统计粒度1分钟,阈值为>2000Count,连续5次满足条件则只告警一次
弹性 MapReduce-HIVE-HiveSever2
指标告警
GC 时间(FGCT)
统计粒度1分钟,阈值为:>5s,连续5次满足条件则只告警一次
DaemonThreadCount
统计粒度1分钟,阈值为>2000Count,连续5次满足条件则只告警一次
ThreadCount
统计粒度1分钟,阈值为>2000Count,连续5次满足条件则只告警一次
弹性 MapReduce-YARN-概览
指标告警
节点个数(NumUnhealthyNMs)
统计粒度1分钟,阈值为:>0Count,连续5次满足条件则只告警一次
节点个数(NumLostNMs)
统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次
弹性 MapReduce-YARN-NodeManager
指标告警
GC 时间(FGCT)
统计粒度1分钟,阈值为>5s,连续5次满足条件则只告警一次
弹性 MapReduce-YARN-ResourceManger
指标告警
GC 时间(FGCT)
统计粒度1分钟,阈值为>5s,连续5次满足条件则只告警一次
事件告警
ResourceManager 发生主备切换
-
弹性 MapReduce-Zookeeper-Zookeeper
指标告警
GC 时间(FGCT)
统计粒度1分钟,阈值为>5s,连续5次满足条件则只告警一次
ZNODE 个数(zk_znode_count)
统计粒度1分钟,阈值为>100000Count,连续5次满足条件则只告警一次
排队请求数(zk_outstanding_requests)
统计粒度1分钟,阈值为>50Count,连续5次满足条件则只告警一次
负载均衡-公网负载均衡实例
指标告警
丢弃连接数
统计粒度1分钟,阈值为>10个,连续3次满足条件则只告警一次
丢弃流入数据包
统计粒度1分钟,阈值为>10个,连续3次满足条件则只告警一次
丢弃入带宽
统计粒度1分钟,阈值为>10MB,连续3次满足条件则只告警一次
丢弃出带宽
统计粒度1分钟,阈值为>10MB,连续3次满足条件则只告警一次
入带宽利用率
统计粒度1分钟,阈值为>80%,连续3次满足条件则只告警一次
出带宽利用率
统计粒度1分钟,阈值为>80%,连续3次满足条件则只告警一次


帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈