tencent cloud

消息队列 MQTT 版

动态与公告
新功能发布记录
产品简介
TDMQ 产品系列介绍与选型
什么是消息队列 MQTT 版
应用场景
技术架构
产品系列
MQTT 协议兼容说明
开源对比
高可用
产品约束与使用配额
基本概念
开服地域
购买指南
计费概述
续费说明
查看消费明细
欠费说明
退费说明
快速入门
入门流程指引
准备工作
公网接入
VPC 网络接入
用户指南
使用流程指引
配置账号权限
新建集群
管理 Topic
连接集群
查询消息
管理客户端
管理集群
查看监控和配置告警
数据集成
集成数据到云函数 SCF
集成数据到 CKafka
集成数据到 RocketMQ
开发指南
MQTT 5 高级特性
数据面 HTTP 接口说明
配置自定义域名
配置 SQL 过滤
配置点对点订阅
MQTT over QUIC
管理客户端订阅
消息增强规则
实践教程
MQTT 客户端开发注意事项
可观测能力
Topic 与通配符订阅
API 参考
History
Introduction
API Category
Making API Requests
Cluster APIs
Topic APIs
Authorization Policy APIs
User APIs
Client APIs
Message Enhancement Rule APIs
Message APIs
Data Types
Error Codes
SDK 参考
接入点格式
Java SDK
C SDK
Javascript/Node.JS/小程序
Go SDK
iOS SDK
JavaScript SDK
Dart SDK
Python SDK
.NET
安全与合规
权限管理
常见问题
相关协议
隐私协议
数据处理和安全协议
消息队列 MQTT 版服务等级协议
联系我们

配置告警

PDF
聚焦模式
字号
最后更新时间: 2026-01-30 15:10:03

操作场景

TDMQ MQTT 版不仅为运行中的资源提供了多项监控指标,用于监测集群的运行情况,还提供了关键指标的配置告警功能。您可以为监控指标配置告警规则,创建的告警会将一定周期内监控的指标与给定阈值的情况进行比对,当监控指标达到设定的报警阈值时,可观测平台可以通过邮件、短信、微信、电话等方式通知您,您可以及时采取相应的预防或补救措施,合理地配置告警规则能帮助您提高应用程序的健壮性和可靠性。

告警配置建议

本节为您介绍在使用 TDMQ MQTT 版过程中需要重点关注的一些指标及其告警配置建议:
指标名称
单位
推荐告警策略
说明
告警处理建议
消息收发负载
%
统计周期1分钟,>80%,持续5个周期,每10分钟告警一次
集群的消息收发负载 = 当前分钟级峰值 TPS / 集群 TPS 峰值* 100%,TPS 按照计费概述进行折算。百分比超出100%后会导致消息发送被限流或消息订阅延迟,影响消息实时性。
通过调整集群规格可以降低负载,避免发生限流和消息收发延迟。
连接负载
%
统计周期1分钟,>80%,持续5个周期,每10分钟告警一次
集群的连接数负载 = 当前在线连接数 /连接数规格*100%,百分比超出100%后会导致新建的客户端连接被拒绝。
通过调整集群规格可以降低负载,避免新连接的客户端被拒绝。
CONNECT 被限流次数
统计周期1分钟,>0,持续5个周期,每10分钟告警一次
因为流控机制而连接失败的 CONNECT Packet 的数量,如连接数超出集群规格或实际公网带宽超出集群公网配置。
通过调整集群规格可以避免新连接的客户端被拒绝。
PUBLISH 被限流次数
统计周期1分钟,>0,持续5个周期,每10分钟告警一次
因为流控机制而连接失败的 PUBLISH Packet 的数量,如收发消息 TPS 超出集群规格。
通过调整集群规格可以避免发送消息被限流。
SUBSCRIBE 被限流次数
统计周期1分钟,>0,持续5个周期,每10分钟告警一次
因为流控机制而连接失败的 SUBSCRIBE Packet 的数量,如收发消息 TPS 超出集群规格。
通过调整集群规格可以避免订阅消息被限流。
客户端消费消息错误次数
统计周期1分钟,>0,持续5个周期,每10分钟告警一次
客户端消费指定消息时产生错误码的总次数。
首先查看服务端其他监控,如生产和消费流量有无显著变化,排除服务端异常的原因。之后查看具体报错的客户端,查看查询客户端事件,日志和错误码等,排查具体的问题。如无法解决可以通过工单联系我们
认证失败次数
统计周期1分钟,>0,持续5个周期,每10分钟告警一次
客户端连接服务端时认证不通过的次数,认证包含多种方式的认证,如用户名+密码认证,X.509 证书认证,外部 HTTP 服务认证和 JWT 认证等,详见认证方式概述
查看具体报错的客户端,查看客户端日志和错误码等,排查具体的问题。如无法解决可以通过工单联系我们
授权失败次数
统计周期1分钟,>0,持续5个周期,每10分钟告警一次
客户端连接,生产和消费消息时鉴权失败的次数,详见配置数据面授权
查看具体报错的客户端和 Topic 等信息,查看授权策略列表相关的策略配置,检查是否权限策略配置错误。

进入配置告警页面

入口一:登录 TDMQ MQTT 版控制台,在监控大盘页面,单击右上角的配置告警按钮可以跳转到告警配置页面,页面默认设定的告警对象是跳转前监控数据对应的集群。

入口二:登录腾讯云可观测平台控制台,在告警配置页面可以查看所有预设策略和自定义策略,单击新建策略,监控类型选择云产品监控,策略类型选择消息队列TDMQ/MQTT/集群

配置告警策略

1. 进入告警策略配置页面后,选择好策略类型,页面会自动展示当前资源类型提供的策略,您可以在默认告警策略基础上根据实际业务需求自定义配置告警策略。
2. 选择您要设置告警的对象。
所属标签:可以根据标签批量筛选您想配置告警策略的资源。
告警对象:选择需要配置告警策略的 MQTT 资源。
3. 设置告警触发条件,支持选择模板手动配置,默认选择手动配置。
手动配置
选择模板
指标:例如“在线客户端数量”,选择统计粒度为1分钟,则在1分钟内,在线客户端数量连续 N 个数据点超过阈值,就会触发告警。
告警频次:例如“每30分钟警告一次”,指每30分钟内,连续多个统计周期指标都超过了阈值,如果有一次告警,30分钟内就不会再次进行告警,直到下一个30分钟,如果指标依然超过阈值,才会再次告警。
1. 勾选选择模板后,单击新建触发条件模板,跳转到设置触发条件模板页面。
2. 在左上角单击新建触发条件模板,在新建模板页面,配置告警策略。
策略类型:选择消息队列TDMQ/MQTT/集群
触发条件:根据您实际的业务需求,设置好告警策略。

3. 确认无误后,单击保存,返回新建告警策略页,单击刷新,就会出现刚配置的告警策略模板。
说明:
关于配置告警策略功能的更多介绍,请参考配置指标告警文档。
4. 单击下一步:配置告警通知,配置告警通知人。

配置告警通知

在配置告警通知页面,您可以选择系统预设的通知模板,预设模板的告警对象通常为主账号负责人。如您需要通知到实例负责人或其他人员,也可以单击新建模板来新建通知模板,设置告警接收对象和接收渠道。
新建通知模板的详细操作请参考新建通知模板



帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈