tencent cloud

弹性 MapReduce

动态与公告
产品动态
产品公告
安全公告
产品简介
产品概述
产品优势
产品架构
产品功能
应用场景
约束与限制
技术支持范围
产品发行版
购买指南
EMR on CVM 计费说明
EMR on TKE 计费说明
EMR Serverless HBase 计费说明
快速入门
EMR on CVM 快速入门
EMR on TKE 快速入门
EMR on CVM 操作指南
规划集群
管理权限
配置集群
管理集群
管理服务
监控告警
智能管家
EMR on TKE 操作指南
EMR on TKE 简介
配置集群
管理集群
管理服务
监控运维
应用分析
EMR Serverless HBase 操作指南
EMR Serverless HBase 产品简介
配额与限制
规划实例
管理实例
监控告警
开发指南
EMR 开发指南
Hadoop开发指南
Spark 开发指南
HBASE开发指南
Phoenix on Hbase 开发指南
Hive 开发指南
Presto开发指南
Sqoop 开发指南
Hue 开发指南
Oozie 开发指南
Flume 开发指南
Kerberos 开发指南
Knox 开发指南
Alluxio 开发指南
Kylin 开发指南
Livy 开发指南
Kyuubi 开发指南
Zeppelin 开发指南
Hudi 开发指南
Superset 开发指南
Impala 开发指南
Druid 开发指南
Tensorflow 开发指南
Kudu 开发指南
Ranger 开发指南
Kafka 开发指南
Iceberg 开发指南
StarRocks 开发指南
Flink 开发指南
JupyterLab 开发指南
MLflow 开发指南
实践教程
EMR on CVM 运维实践
数据迁移实践
自定义伸缩实践教程
API 文档
History
Introduction
API Category
Cluster Resource Management APIs
Cluster Services APIs
User Management APIs
Data Inquiry APIs
Scaling APIs
Configuration APIs
Other APIs
Serverless HBase APIs
YARN Resource Scheduling APIs
Making API Requests
Data Types
Error Codes
常见问题
EMR on CVM常见问题
服务等级协议
联系我们

智能管家概述

PDF
聚焦模式
字号
最后更新时间: 2025-09-02 17:19:49
弹性 MapReduce 据智能管家是一款全面 EMR 的自动化治理产品,宗旨是通过结合先进的 AI 技术,实现覆盖大数据 EMR 集群系统运行过程中的数据采集、异常识别预测、根因分析、集群治理和成本优化。其目标是通过日渐成熟的智能AI能力替代高开销的人工成本,通过不断迭代的高速算法计算缩短问题发现时效和异常的处理实效,从而提供集群的稳定性。

智能管家能力介绍

资源洞察:资源洞察功能可以帮助用户全面了解系统的资源使用情况,通过存储洞察和队列资源洞察帮助用户优化资源使用,提高资源的使用率同时提升查询引擎执行效率。
异常中心:涵盖基础诊断、资源洞察等汇各维度的异常问题按时间统一呈现异常信息、诊断结果及处理意见,同时通过对历史和当前监控数据的分析预测技术,预测可能出现的异常,提前进行预警和干预。
策略中心:丰富的引擎预警配置策略,用户可根据业务属性需求和集群资源情况灵活调整适配的策略诊断阈值、存储文件及表的冷热时间以及计算作业的洞察参数等。
根因分析:帮助用户快速找出集群中表象问题同时通过多维度分析,辨别本质的问题根因,针对性提供专家经验的处理方案,提高系统的稳定性和提升运维时效。

智能管家架构图

智能管家的产品结构图如下图所示:

主要有运维数据仓库、规则与 AI 算法及按戏份应用场景提供应用能力三部分构成:
数据仓库:集中采集集群多维度的基础监控指标、Query 应用、计算存储资源、系统业务日志以及定制化事件等多维度的海量数据,经过清洗、整合和建模后,为上层应用提供高质量、统一的数据基础。
规则与 AI 算法:利用预设的业务策略规则和人工智能算法对异常进行识别,通过多维度的数据进行根因分析及故障预测,生成洞察优化策略和处理决策方案。
应用场景:将数据和算法能力转化为实际业务解决方案,覆盖实时检测、智能推荐、异常检测、自动化决策等多样化场景,驱动业务优化和运维简易。

智能管家作为开源大数据集群的在线管家,功能目标如下:

大数据智能管家通过融合 AI 能力和高效的算法,实现大数据产品的全链路自动化治理,提高运维效率,降低运维成本。
通过各层级的全面巡检,提供关键引擎的优化建议,不断提供集群资源及引擎长效稳定。
通过资源及存储等关键引擎的充分洞察,提供面向存储的有效治理建议、面向资源的合理分配策略,以保证集群资源的高效利用。
充分分析查询执行引擎的多维度数据,提出可操作的 SQL 优化策略、参数调优策略。支持调度层面任务链路及同源任务识别,保证数据处理和计算拓扑良好运行。

集群运维功能使用注意事项:

集群稳定性:覆盖基础诊断及大数据重点在离线引擎的良性状态诊断、不良查询识别。例如 YARN、HDFS、Hive、Spark、Trino 等。
集群高效性:集群存储资源计算资源的高效使用,查询任务的高效运行,需要及时处理已识别的异常查询及 badSQL。
功能开启说明:智能管家当前为灰度发布版本,若需要开启该请 提交工单申请开启功能。


帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈