tencent cloud

数据开发治理平台 WeData

产品动态
动态发布记录(2026年)
产品简介
产品概述
产品优势
产品架构
产品功能
应用场景
购买指南
计费概述
产品版本购买说明
执行资源购买说明
购买方式
欠费说明
退费说明
准备工作
账号和权限管理概述
添加白名单/安全组(可选)
通过 Microsoft Entra ID(Azure AD)单点登录(SSO)WeData
操作指南
管理控制台
项目管理
数据集成
Studio
数据开发
数据分析
数据科学
数据治理(with Unity Semantics)
API 文档
History
Introduction
API Category
Making API Requests
Smart Ops Related Interfaces
Project Management APIs
Resource Group APIs
Data Development APIs
Data Asset - Data Dictionary APIs
Data Development APIs
Ops Center APIs
Data Operations Related Interfaces
Data Exploration APIs
Asset APIs
Metadata Related Interfaces
Task Operations APIs
Data Security APIs
Instance Operation and Maintenance Related Interfaces
Data Map and Data Dictionary APIs
Data Quality Related Interfaces
DataInLong APIs
Platform Management APIs
Data Source Management APIs
Data Quality APIs
Platform Management APIs
Asset Data APIs
Data Source Management APIs
Data Types
Error Codes
WeData API 2025-08-06
服务等级协议
相关协议
隐私协议
数据处理和安全协议
联系我们
词汇表

DLC PySpark

PDF
聚焦模式
字号
最后更新时间: 2024-11-01 16:21:57
注意:
需要绑定 DLC 引擎。目前 DLC PySpark 支持 Spark 作业引擎。引擎内核详情可参见 DLC 引擎内核版本

功能说明

在 WeData 中创建一个 DLC PySpark 的任务,提交到 WeData 调度平台以及 DLC 引擎执行。

任务参数说明

在 DLC PySpark 的任务属性中可以添加 DLC PySpark 任务数据访问策略、入口参数、依赖资源、Spark 任务的 conf 参数以及任务镜像。
参数名称
参数说明
数据访问策略
必填,任务执行过程中访问cos数据的安全策略,详情可参考 DLC 配置数据访问策略
入口参数
非必填,程序的入口参数,支持填写多个。多个参数使用“空格”分割。
依赖资源
非必填,支持选择 --py-files、--files、--archives,每一种资源可以输入多个 cos 路径,多个路径用逗号 (,) 分割。
conf 参数
非必填,spark. 开头的参数,按照 k=v 格式填写,多个参数换行填写。示例:spark.network.timeout=120s。
任务镜像
任务执行的镜像,如果任务要使用特定的镜像可以选择 DLC 内置镜像和自定义镜像。
资源配置
使用集群资源配置:使用集群默认的资源配置参数。
自定义:自定义任务的资源使用参数,包括 executor 大小、driver 大小、executor 个数。

示例代码

from os.path import abspath

from pyspark.sql import SparkSession

if __name__ == "__main__":
spark = SparkSession \\
.builder \\
.appName("Operate DB Example") \\
.getOrCreate()
# 1.建数据库
spark.sql("CREATE DATABASE IF NOT EXISTS `DataLakeCatalog`.`dlc_db_test_py` COMMENT 'demo test' ")
# 2.建内表
spark.sql("CREATE TABLE IF NOT EXISTS `DataLakeCatalog`.`dlc_db_test_py`.`test`(`id` int,`name` string,`age` int) ")
# 3.写内数据
spark.sql("INSERT INTO `DataLakeCatalog`.`dlc_db_test_py`.`test` VALUES (1,'Andy',12),(2,'Justin',3) ")
# 4.查内数据
spark.sql("SELECT * FROM `DataLakeCatalog`.`dlc_db_test_py`.`test` ").show()
# 5.建外表
spark.sql("CREATE EXTERNAL TABLE IF NOT EXISTS `DataLakeCatalog`.`dlc_db_test_py`.`ext_test`(`id` int, `name` string, `age` int) ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe' STORED AS TEXTFILE LOCATION 'cosn://cos-bucket-name/ext_test' ")
# 6.写外数据
spark.sql("INSERT INTO `DataLakeCatalog`.`dlc_db_test_py`.`ext_test` VALUES (1,'Andy',12),(2,'Justin',3) ")
# 7.查外数据
spark.sql("SELECT * FROM `DataLakeCatalog`.`dlc_db_test_py`.`ext_test` ").show()
spark.stop()


帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈