プロダクト概要
製品の強み
適用シーン
リストの指標名 | 指標の意味 |
エンジン実行時間 | Sparkエンジンが実行する最初のタスクの時間(つまり、タスクが初めてCPUを奪取し実行を開始する時間) |
エンジン内実行所要時間 | Sparkタスクの最初のタスクの実行開始からタスク終了までの実際の計算所要時間を反映します。 具体的:タスクの各Spark Stageの最初のTaskから最後のTaskの完了までの時間の合計を統計します。タスク開始時の待ち時間(つまり、タスクの提出からSpark Taskの実行開始までのスケジューリングなどの時間)は含まれず、また、タスク実行中に複数のSpark Stage間でexecutorリソース不足によりTaskの実行待ちに費やされた時間も含まれません。 |
待ち時間(実行待ち時間) | タスクの提出から最初のSpark Taskの実行開始までの時間で、以下のような時間が含まれる可能性があります:エンジンの初回実行時のコールドスタート時間、タスクの同時実行上限による待ち時間、エンジン内でリソースが不足しているためexecutorリソースを待つ時間、Spark実行プランの生成と最適化にかかる時間など。 |
消費CU * 時間 | Spark Executorの各コアのCPU実行時間の合計を統計し、単位は時間(クラスタの起動マシンの時間と等価ではなく、マシンが起動後にタスク計算に参加するとは限らないため、最終的なクラスタのCU消費料金は請求書を基準とする)。 Sparkシナリオでは、Spark Taskの実行時間の直列合計(秒)/3600(単位:時間)にほぼ等しいです。 |
データスキャンサイズ | このタスクがストレージから読み取った物理データ量は、Sparkシナリオでは、Spark UIのStage Input Sizeの合計にほぼ相当します。 |
出力総サイズ | そのタスクがデータを処理した後に出力するレコードのサイズは、SparkシナリオではSpark UIのStage Output Sizeの合計にほぼ等しくなります。 |
データシャッフルサイズ | Spark シナリオでは、Spark UI の Stage Shuffle Read Records の合計にほぼ相当します。 |
出力ファイル数 | (この指標の収集には、sparkエンジンカーネルを2024.11.16以降のバージョンにアップグレードする必要があります) insertなどのステートメントによって書き出されたファイルの総数 |
出力小ファイル数 | (この指標の収集には、sparkエンジンカーネルを2024.11.16以降のバージョンにアップグレードする必要があります) 小ファイルの定義:出力された単一ファイルのサイズが4MB未満の場合、小ファイルと定義されます(パラメータspark.dlc.monitorFileSizeThresholdで制御、デフォルトは4MB、エンジングローバルまたはタスクレベルで設定可能) 本指標の定義:insertなどのステートメントによって書き出された小ファイルの総数 |
並列タスク | タスクの並列実行状況を表示し、影響を受けるタスクを分析しやすくします(最大200件) |
インサイトタイプ | アルゴリズムの説明(アルゴリズムは継続的に改善および追加されています) |
リソースの先取り | sqlの実行を開始したタスクの遅延時間がステージの提出時間を1分超える、または遅延時間が総実行時間の20%を超える場合(異なる実行時間とデータ量のタスクに対して、閾値の計算式は動的に調整されます) |
シャッフル異常 | ステージ実行時にシャッフル関連のエラースタック情報が発生しました |
遅いタスク | ステージ内のタスクの所要時間 > ステージ内の他のタスクの平均所要時間の2倍(異なる実行時間とデータ量のタスクに対して、閾値の式は動的に調整されます) |
データの偏り | タスクシャッフルデータ > タスク平均シャッフルデータサイズの2倍(異なる実行時間とデータ量のタスクに対して、閾値式は動的に調整されます) |
ディスクまたはメモリ不足 | ステージ実行エラースタック情報には、oomまたはディスク不足の情報、またはcos帯域幅制限のエラーが含まれています |
出力される小ファイル数が多い | (この洞察タイプの収集には、Sparkエンジンカーネルを2024.11.16以降のバージョンにアップグレードする必要があります) 参照リスト内の指標「出力小ファイル数」について、以下のいずれかの条件を満たす場合、「多数の小ファイルが出力されている」と判定されます: 1. パーティションテーブルで、特定のパーティションに書き込まれる小ファイルが200個を超える場合 2. 非パーティションテーブルで、出力される小ファイルの総数が1000個を超える 3. パーティション、非パーティションテーブルで書き出されるファイルが3000個を超え、平均ファイルサイズが4MB未満の場合 |
피드백