プロダクト概要
製品の強み
適用シーン

{"name":"Michael"}{"name":"Andy", "age":30}{"name":"Justin", "age":3}{"name":"WangHua", "age":19}{"name":"ZhangSan", "age":10}{"name":"LiSi", "age":33}{"name":"ZhaoWu", "age":37}{"name":"MengXiao", "age":68}{"name":"KaiDa", "age":89}
import sysfrom pyspark.sql import SparkSessionfrom pyspark.sql import Rowif __name__ == "__main__":spark = SparkSession\\.builder\\.appName("Operate data on cos")\\.getOrCreate()# 1. cos上のデータを読み取る。json、csv、parquet、orc、textなど、さまざまなタイプのファイルをサポートしています。read_path = "cosn://dlc-demo-1305424723/people.json"peopleDF = spark.read.json(read_path)# 2. データを操作するpeopleDF.createOrReplaceTempView("people")data_src = spark.sql("SELECT * FROM people WHERE age BETWEEN 13 AND 19")data_src.show()# 3. データを書き込むwrite_path = "cosn://dlc-demo-1305424723/people_output"data_src.write.csv(path=write_path, header=True, sep=",", mode='overwrite')spark.stop()
from os.path import abspathfrom pyspark.sql import SparkSessionif __name__ == "__main__":spark = SparkSession \\.builder \\.appName("Operate DB Example") \\.getOrCreate()# 1. データベースを作成spark.sql("CREATE DATABASE IF NOT EXISTS `DataLakeCatalog`.`dlc_db_test_py` COMMENT 'demo test' ")# 2. 内部テーブルを作成spark.sql("CREATE TABLE IF NOT EXISTS `DataLakeCatalog`.`dlc_db_test_py`.`test`(`id` int,`name` string,`age` int) ")3. 内部データを書き込むspark.sql("INSERT INTO `DataLakeCatalog`.`dlc_db_test_py`.`test` VALUES (1,'Andy',12),(2,'Justin',3) ")# 4. 内部データの照会spark.sql("SELECT * FROM `DataLakeCatalog`.`dlc_db_test_py`.`test` ").show()# 5. 外部テーブルの作成spark.sql("CREATE EXTERNAL TABLE IF NOT EXISTS `DataLakeCatalog`.`dlc_db_test_py`.`ext_test`(`id` int, `name` string, `age` int) ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe' STORED AS TEXTFILE LOCATION 'cosn://cry-1305424723/ext_test' ")# 6. 外部データを書き込むspark.sql("INSERT INTO `DataLakeCatalog`.`dlc_db_test_py`.`ext_test` VALUES (1,'Andy',12),(2,'Justin',3) ")# 7. 外部データの照会spark.sql("SELECT * FROM `DataLakeCatalog`.`dlc_db_test_py`.`ext_test` ").show()spark.stop()
設定パラメータ | 説明 |
作業名 | カスタム Spark 作業名、例:cosn_py |
作業タイプ | バッチ処理タイプを選択 |
データエンジン | リソース作成手順で作成された dlc-demo 計算エンジンを選択 |
プログラムパッケージ | COSを選択し、pyファイルをCOSにアップロード手順でpyファイルをアップロード: COSからデータを読み書きするには、以下を選択します: cosn://dlc-demo-1305424723/cos.py DLCでデータベースやテーブルを作成するには、以下を選択します: cosn://dlc-demo-1305424723/db.py |
データアクセスポリシー | この手順の前に作成したポリシー qcs::cam::uin/100018379117:roleName/dlc-demo を選択します |
フィードバック