tencent cloud

数据湖计算

产品动态
产品简介
产品概述
产品优势
应用场景
购买指南
计费概述
退费说明
欠费说明
调整配置费用说明
快速入门
新用户开通全流程
DLC 数据导入指引
一分钟入门 DLC 数据分析
一分钟入门 DLC 权限管理
一分钟入门分区表
开启数据优化
跨源分析 EMR Hive 数据
标准引擎配置指引
配置数据访问策略
操作指南
控制台操作介绍
开发指南
运行环境
SparkJar 作业开发指南
PySpark 作业开发指南
查询性能优化指南
UDF 函数开发指南
系统约束
客户端访问
JDBC 访问
TDLC 命令行工具访问
第三方软件联动
Python 访问
实践教程
通过 Power BI 访问 DLC 数据操作指南
建表实践
使用 Apache Airflow 调度 DLC 引擎提交任务
StarRocks 直接查询 DLC 内部存储
Spark 计算成本优化实践
DATA + AI
使用 DLC 分析 CLS 日志
使用角色 SSO 访问 DLC
资源级鉴权指南
在 DLC 中实现 TCHouse-D 读写操作
DLC 原生表
SQL 语法
SuperSQL 语法
标准 Spark 语法概览
标准 Presto 语法概览
保留字
API 文档
History
Introduction
API Category
Making API Requests
Data Table APIs
Task APIs
Metadata APIs
Service Configuration APIs
Permission Management APIs
Database APIs
Data Source Connection APIs
Data Optimization APIs
Data Engine APIs
Resource Group for the Standard Engine APIs
Data Types
Error Codes
通用类参考
错误码
配额与限制
第三方软件连接DLC操作指南
常见问题
权限类常见问题
引擎类常见问题
功能类常见问题
Spark 作业类常见问题
DLC 政策
隐私协议
数据处理和安全协议
服务等级协议
联系我们

历史任务实例

PDF
聚焦模式
字号
最后更新时间: 2025-06-12 12:01:45
历史任务实例聚焦于记录和管理用户在 DLC 中执行的各类任务,以便于后续的追踪、复查和优化。通过历史任务实例功能,用户可以迅速查看任务的执行情况,包括任务的开始和结束时间、执行状态(如成功或失败)、输入和输出细节以及生成的日志或错误信息。给用户提供了审计和检索的便利,帮助用户识别任务健康状态、潜在的问题和优化资源配置等。

操作步骤

2. 进入历史任务实例页面,管理员可查看近45天所有的历史运行任务,普通用户可查询与自己相关的近45天的任务。
3. 支持对任务类型、执行状态、创建人、任务时间范围、任务名称、ID、内容、子渠道等方式的筛选查看。
4. 单击任务ID/名称,支持查看任务详情,包含基本信息、运行结果、任务洞察、任务日志等模块。
5. 支持用户点击修改任务配置,快捷进入作业详情调整配置来调优。

历史任务实例列表

说明:
*字段需开启洞察功能后支持(需等任务完成后才可统计),开启方法请参见 如何开启洞察功能
字段名称
描述
任务ID
任务的唯一标识。
任务名称
前缀_yyyymmddhhmmss_八位uuid,其中 yyyymmddhhmmss 为任务执行时间。
前缀规则:
1. 控制台提交的作业任务,前缀为作业名,如用户创建作业为 customer_segmentation_job, 于2024.11.26 21:25:10执行,则任务id为 customer_segmentation_job_20241126212510_f2a65wk1。根据目前数据格式限制,作业名称<=100字符。
2. 数据探索页面提交的 SQL 类型,前缀为 sql_query,样例:sql_query_20241126212510_f2a65wk1。
3. 数据优化任务,根据优化任务不同的子类型的前缀,其中:
3.1 优化器前缀仅 optimizer。
3.2 优化实例 SQL 类型为 optimizer_sql。
3.3 优化实例批类型为 optimizer_batch。
3.4 配置数据优化策略时创建的配置任务 optimizer_config。
4. 导入数据任务,前缀为 import,样例:import_20241126212510_f2a65wk1。
5. 导出数据任务,前缀为 export,样例:export_20241126212510_f2a65wk1。
6. Wedata 提交,前缀为 wd,样例:wd_20241126212510_f2a65wk1。
7. 其他接口提交,前缀为customized,样例:customized_20241126212510_f2a65wk1。
8. 元数据管理页面对元数据进行操作所创建的任务,前缀为 metadata,样例:metadata_20241126212510_f2a65wk1。
任务类型
启动中
执行中
排队中
成功
失败
已取消
已过期
任务超时
任务内容
任务的详细内容。作业类型任务为作业详情超链接;SQL 类型任务为完整 SQL 语句。
任务类型
分为作业类型、SQL 类型。
任务来源
该任务的产生来源。支持数据探索任务、数据作业任务、数据优化任务、导入任务、导出任务、元数据管理、Wedata 任务、接口提交任务。
子渠道
用户从接口提交任务时,可自定义子渠道。
计算资源
运行该任务所用的计算引擎/资源组。
* 累计 CPU * 时(消耗CU*时)
统计参与计算所用 Spark Executor 每个 core 的 CPU 执行时长总和,单位小时(不等价集群拉起机器的时长,因机器拉起后不一定会参与到任务计算,最终集群消耗 CU 计费以账单为准)。
在 Spark 场景下约等于 Spark Task 执行时长串行加和 (秒) /3600 (单位小时)
(该指标需等任务完成后才可统计)
* 计算耗时
1. 若该任务有洞察结果,则为引擎内执行耗时,反映真正用于计算所需的耗时,即从 Spark 任务第一个 Task 开始执行到任务结束之间的耗时。
具体的:会统计任务的每个 Spark Stage 第一个 Task 到最后一个 Task 完成时长之和,不包含任务开始的排队耗时(即剔除从任务提交到 Spark Task 开始执行之间的调度等其他耗时),也不包含任务执行过程中多个 Spark Stage 之间因 executor 资源不足而等待执行 Task 所消耗的时间。
(该指标需等任务完成后才可统计)
2. 若该任务不支持洞察或暂无洞察结果:
2.1 如果是 Spark SQL 任务,为平台调度时间 + 引擎内的排队耗时 + 引擎内执行耗时。
2.2 如果是 Spark 作业任务,为平台调度时间 + 引擎启动耗时+引擎内的排队耗时 + 引擎内执行耗时。
* 数据扫描量
该任务从存储读取的物理数据量,在 Spark 场景下约等于 Spark UI 中 Stage Input Size 之和。
* 数据扫描条数
该任务从存储读取的物理数据条数,在 Spark 场景下约等于 Spark UI 中 Stage Input Records 之和。
创建人
若为作业类型任务,为该作业的创建人。
执行人
运行该任务的用户。
提交时间
用户提交任务的时间。
*引擎执行时间
任务第一次抢占 CPU 开始执行的时间,Spark 引擎内开始执行的第一个 task 时间。
(该指标需等任务完成后才可统计)
*输出文件个数
该指标的收集需要 Spark 引擎内核升级至 2024.11.16之后的版本。
任务通过 Insert 等语句写出的文件个数总和
(该指标需等任务完成后才可统计)
*输出小文件个数
该指标的收集需要 Spark 引擎内核升级至 2024.11.16 之后的版本。
小文件定义:输出的单个文件大小 < 4MB 则定义为小文件(参数 spark.dlc.monitorFileSizeThreshold 控制,默认 4MB,引擎全局或任务级别均可支持配置)
本指标定义:任务通过 insert 等语句写出的小文件个数总和。
(该指标需等任务完成后才可统计)
*输出总行数
该任务处理完数据后输出的记录数量,在 Spark 场景下约等于 Spark UI中Stage Output Records 之和。
*输出总大小
该任务处理完数据后输出的记录大小,在 Spark 场景下约等于 Spark UI中Stage Ouput Size 之和。
*数据shuffle行数
在Spark场景下约等于 Spark UI 中 Stage Shuffle Read Records 之和
(该指标需等任务完成后才可统计)
*数据shuffle大小
在Spark场景下约等于 Spark UI 中 Stage Shuffle Read Size 之和
(该指标需等任务完成后才可统计)
*健康状态
对任务进行分析判断任务健康状态看是否需要优化。详情请参见任务洞察
(该指标需等任务完成后才可统计)

历史任务实例详情

基本信息

1. 用户可在执行内容中查看具体的任务内容。SQL 任务,可查看完整 SQL 语句;作业任务,可查看作业详情及作业参数。
2. 用户可在资源消耗中查看任务资源相关内容,包括消耗 CU*时、计算耗时、数据扫描量、计算资源、内核版本、Driver 资源、Executor 资源、Executor 个数。
3. 用户可在基本信息中查看任务的基本信息,包括任务名称、任务 ID、任务类型、任务来源、创建人、执行人、提交时间、引擎执行时间。
4. 若为 SuperSQL SparkSQL 或 SuperSQL Presto 引擎运行的任务,则用户可在查询统计中查看任务运行进度条,包含创建任务、调度任务、执行任务、获取结果等阶段的耗时。

运行结果

任务完成后用户可在运行结果页面查询任务的结果,任务结果有两类:
1. 写入文件信息:对于 SuperSQL、标准引擎 Spark 内核引擎运行写入文件任务,支持用户查看写入文件信息。
文件平均大小
最小文件大小
最大文件大小
文件总大小
2. 执行结果:SQL 任务查询语句,可展现当前任务的查询结果,支持用户下载查询结果。

任务洞察

任务完成后,用户可在任务洞察页面查看任务洞察结果。支持分析每个任务执行过的汇总 metrics 以及洞察出可优化的问题。根据当前任务的实际执行情况,DLC 任务洞察将结合数据分析及算法规则,给出相应的调优建议。详情请参见任务洞察

任务日志

用户可在任务日志页面查看当前任务的日志。
说明:
仅作业类型支持任务日志查看。
1. 支持通过 POD 名称切换不同集群节点的日志,包含 Driver、Executor 等。
2. 支持三种日志级别筛选:All、Error、Warn。
3. 该页面仅展示近1000条日志,若需查看所有日志记录,可导出日志。
4. 支持查看日志导出记录及导出任务的状态。在日志导出记录中用户可保存日志文件至本地。

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈