tencent cloud

Data Lake Compute

製品概要
プロダクト概要
製品の強み
適用シーン
購入ガイド
課金概要
返金説明
支払い期限切れ説明
設定調整費用の説明
クイックスタート
新規ユーザー開通フルプロセス
DLC データインポートガイド
DLCデータ分析の1分間入門
DLC権限管理の1分間入門
パーティションテーブル1分間入門
データ最適化をオンにする
クロスソース分析 EMR Hive データ
標準エンジン構成ガイド
操作ガイド
コンソール操作紹介
開発ガイド
実行環境
SparkJar ジョブ開発ガイド
PySparkジョブ開発ガイド
「クエリパフォーマンス最適化ガイド」
UDF 関数開発ガイド
システム制約
クライアントアクセス
JDBCアクセス
TDLC コマンドラインツールにアクセス
サードパーティソフトウェア連携
Python にアクセス
実践チュートリアル
DLC を Power BI に接続
テーブル作成の実践
Apache Airflowを使用してDLCエンジンのタスクをスケジュールして送信する
StarRocks は DLC 内部ストレージを直接クエリします
Spark の計算コスト最適化プラクティス
DATA + AI
ロールSSOを使用してDLCにアクセスする
SQL構文
SuperSQL構文
標準 Spark 構文概要
標準 Presto 構文の概要
予約語
API Documentation
History
Introduction
API Category
Making API Requests
Data Table APIs
Task APIs
Metadata APIs
Service Configuration APIs
Permission Management APIs
Database APIs
Data Source Connection APIs
Data Optimization APIs
Data Engine APIs
Resource Group for the Standard Engine APIs
Data Types
Error Codes
一般クラスリファレンス
エラーコード
クォータと制限
サードパーティソフトウェアでDLCに接続する操作ガイド
よくあるご質問
権限に関するよくあるご質問
エンジン類のよくある質問
機能に関するよくあるご質問
Sparkジョブクラスに関するよくある質問
DLC ポリシー
プライバシーポリシー
データプライバシーとセキュリティ契約
お問い合わせ

タスクインサイト

PDF
포커스 모드
폰트 크기
마지막 업데이트 시간: 2025-12-25 10:46:40
タスクインサイトはタスク視点に基づき、ユーザーが完了したタスクの最適化分析と改善提案を迅速に特定できるように支援します。

前提条件

1. SuperSQL SparkSQL、Sparkジョブエンジン:
1.1 2024年7月18日以降に新規購入したエンジンは、デフォルトでタスクインサイトがオンになります。
1.2 2024年7月18日以前のSparkカーネルバージョンでは、エンジンカーネルをアップグレード後にタスクインサイトを有効にできます。アップグレード方法については、以下のインサイト機能の有効化方法をご参照ください。
2. 標準Sparkエンジン:
2.1 2024年12月20日以降に購入したエンジンは、デフォルトでタスクインサイトをサポートします。
2.2 2024年12月20日以前に購入したエンジンは、ユーザーが手動でタスクインサイトを有効にすることはできません。サポートチケットを提出して、アフターサービスにご連絡ください。
その他のタイプのエンジンは、現在タスクインサイトをサポートしていません。

操作手順

データレイクコンピューティング DLC コンソールにログインし、インサイト管理機能を選択した後、タスクインサイトページに切り替えてください。


インサイト概要

日次の統計インサイトから得られた最適化待ちタスクの分布状況とトレンド分布は、日々のタスクをより直感的に理解するのに役立ちます。


タスクインサイト

タスクインサイト機能は、各タスクで実行された集計メトリクスの分析と、最適化可能な問題の洞察をサポートします。
タスクの実行が完了したら、ユーザーは洞察が必要なタスクを確認し、操作欄でタスクインサイトをクリックするだけで確認できます。

現在のタスクの実際の実行状況に基づいて、DLCタスクインサイトはデータ分析とアルゴリズムルールを組み合わせ、適切なチューニングの提案を提供します。


洞察機能を有効にする方法

既存のSuperSQLエンジンはカーネルイメージをアップグレードする必要があります

注意:
2024年7月18日以降に新規購入したエンジン、または既存のエンジンが2024年7月18日以降のカーネルバージョンにアップグレードされている場合、インサイトは自動的に有効になっているため、この手順をスキップできます。

操作手順

1. SuperSQLエンジンリストページに進み、インサイトが必要なエンジンを選択します。

2. エンジン詳細ページで、カーネル管理 > バージョンアップをクリックします(デフォルトで最新カーネルにアップグレードされます)。


インサイト重点指標の概要

リストの指標名
指標の意味
エンジン実行時間
Sparkエンジンが実行する最初のタスクの時間(つまり、タスクが初めてCPUを奪取し実行を開始する時間)
エンジン内実行所要時間
Sparkタスクの最初のタスクの実行開始からタスク終了までの実際の計算所要時間を反映します。
具体的:タスクの各Spark Stageの最初のTaskから最後のTaskの完了までの時間の合計を統計します。タスク開始時の待ち時間(つまり、タスクの提出からSpark Taskの実行開始までのスケジューリングなどの時間)は含まれず、また、タスク実行中に複数のSpark Stage間でexecutorリソース不足によりTaskの実行待ちに費やされた時間も含まれません。
待ち時間(実行待ち時間)
タスクの提出から最初のSpark Taskの実行開始までの時間で、以下のような時間が含まれる可能性があります:エンジンの初回実行時のコールドスタート時間、タスクの同時実行上限による待ち時間、エンジン内でリソースが不足しているためexecutorリソースを待つ時間、Spark実行プランの生成と最適化にかかる時間など。
消費CU * 時間
Spark Executorの各コアのCPU実行時間の合計を統計し、単位は時間(クラスタの起動マシンの時間と等価ではなく、マシンが起動後にタスク計算に参加するとは限らないため、最終的なクラスタのCU消費料金は請求書を基準とする)。
Sparkシナリオでは、Spark Taskの実行時間の直列合計(秒)/3600(単位:時間)にほぼ等しいです。
データスキャンサイズ
このタスクがストレージから読み取った物理データ量は、Sparkシナリオでは、Spark UIのStage Input Sizeの合計にほぼ相当します。
出力総サイズ
そのタスクがデータを処理した後に出力するレコードのサイズは、SparkシナリオではSpark UIのStage Output Sizeの合計にほぼ等しくなります。
データシャッフルサイズ
Spark シナリオでは、Spark UI の Stage Shuffle Read Records の合計にほぼ相当します。
出力ファイル数
(この指標の収集には、sparkエンジンカーネルを2024.11.16以降のバージョンにアップグレードする必要があります)
insertなどのステートメントによって書き出されたファイルの総数
出力小ファイル数
(この指標の収集には、sparkエンジンカーネルを2024.11.16以降のバージョンにアップグレードする必要があります)
小ファイルの定義:出力された単一ファイルのサイズが4MB未満の場合、小ファイルと定義されます(パラメータspark.dlc.monitorFileSizeThresholdで制御、デフォルトは4MB、エンジングローバルまたはタスクレベルで設定可能)
本指標の定義:insertなどのステートメントによって書き出された小ファイルの総数
並列タスク
タスクの並列実行状況を表示し、影響を受けるタスクを分析しやすくします(最大200件)

インサイトアルゴリズム概要

インサイトタイプ
アルゴリズムの説明(アルゴリズムは継続的に改善および追加されています)
リソースの先取り
sqlの実行を開始したタスクの遅延時間がステージの提出時間を1分超える、または遅延時間が総実行時間の20%を超える場合(異なる実行時間とデータ量のタスクに対して、閾値の計算式は動的に調整されます)
シャッフル異常
ステージ実行時にシャッフル関連のエラースタック情報が発生しました
遅いタスク
ステージ内のタスクの所要時間 > ステージ内の他のタスクの平均所要時間の2倍(異なる実行時間とデータ量のタスクに対して、閾値の式は動的に調整されます)
データの偏り
タスクシャッフルデータ > タスク平均シャッフルデータサイズの2倍(異なる実行時間とデータ量のタスクに対して、閾値式は動的に調整されます)
ディスクまたはメモリ不足
ステージ実行エラースタック情報には、oomまたはディスク不足の情報、またはcos帯域幅制限のエラーが含まれています
出力される小ファイル数が多い
(この洞察タイプの収集には、Sparkエンジンカーネルを2024.11.16以降のバージョンにアップグレードする必要があります)
参照リスト内の指標「出力小ファイル数」について、以下のいずれかの条件を満たす場合、「多数の小ファイルが出力されている」と判定されます:
1. パーティションテーブルで、特定のパーティションに書き込まれる小ファイルが200個を超える場合
2. 非パーティションテーブルで、出力される小ファイルの総数が1000個を超える
3. パーティション、非パーティションテーブルで書き出されるファイルが3000個を超え、平均ファイルサイズが4MB未満の場合

도움말 및 지원

문제 해결에 도움이 되었나요?

피드백