数据目录(Catalog)是多模态智能数据湖 TCLake 中用户可操作的元数据顶层逻辑实体,采用层级化结构组织元数据资源。可以用于不同业务,不同用户之间元数据隔离与权限管控。本文为您介绍数据目录(Catalog)的基本操作。
数据目录层级模型
在 TCLake 中,所有元数据都在一个元数据存储(Metalake)中进行注册和存储,Metalake 本身对用户不可见。任何统一目录的元数据对象层级结构分为三个级别,当您引用表、数据卷、模型和函数时,会以三级命名空间(Catalog.Schema.Table 等)的形式呈现。
第一级:Catalog
数据目录用于组织不同形式的数据资产,目前腾讯云多模态智能数据湖 TCLake 中数据目录分为以下类型。
|
内置数据目录 | LakeHouse Catalog | 结构化数据目录,内置 TCIceberg 批流一体开放表格式托管。 |
| Volume Catalog | 面向非结构化数据的数据卷(Volume)目录,可将对象存储等文件系统中的图片、视频、音频关联到 Volume 中,实现对非结构化数据的元信息统一管理。 |
| Model Catalog | 面向 ML 模型文件的内置数据目录,可将 MLFlow 等 MLOps 框架中训练好的 ML 模型注册到Catalog中,实现 ML 模型文件的全生命周期管理(本部分功能开发中)。 |
外部数据目录 | MySQL、EMR、DLC、TCHouse 等 | 指通过 JDBC 等方式建立与如 MySQL 等外部数据源的连接,实时获取到该数据源的元数据信息。 |
第二级:Schema
Schema(也可称为架构)是数据目录下的二级对象,可根据具体的数据目录类型包含表、视图、数据卷、ML 模型和函数等具象化的实体数据资源。Schema 将数据和 AI 资产组织成比目录更细化的逻辑类别。
第三级:具体数据资源
数据目录模型的第三级,根据具体数据目录类型不同可为 Table、Volume、Model 等具象化的实体数据资源。
表(Table)/视图(View)
表是托管到 TCLake 服务中、按行和列组织数据集合的具体库表。视图是针对一个或多个表保存的查询。
数据卷(Volume)
数据卷是用于关联对象存储或HDFS等文件系统中非结构化数据的逻辑卷。例如,将一个对象存储路径 examplebucket.cos.ap-guangzhou.myqcloud.com/folder/ 下的文件(假设有a.jpg/b.csv两个文件)关联到 MyCatalog.MyScehma.MyVolume 后,计算引擎通过 MyCatalog.MyScehma.MyVolume/a.jpg 即可直接访问到图片a。
注意:
数据卷(Volume)仅可在类型为 Volume 的数据目录中创建。
模型(Model)
模型是从 MLflow 注册到 Catalog 中的 ML 模型,本功能正在开发中。
注意:
模型仅可在类型为 Model 的数据目录中创建。
函数(Function)
函数是用户保存到 Catalog 的自定义函数(UDF),可返回如一个标量值或一组行(本功能规划中)。
新建数据目录
2. 在数据目录列表页面,使用在 TCLake 中拥有 Admin 角色用户,单击创建数据目录。
3. 在弹出对话框中输入以下内容:
|
目录名称 | 必须,唯一标识,不可重名。只能包含字母、数字、下划线,且长度为1-64个字符 |
描述 | 可选 |
存储类型 | 目前仅支持标准存储 |
开启多AZ冗余 | 说明: 该功能目前未全量开放,如有需要请 提交工单 与我们联系。 默认不开启。开启后,数据将存储在同地域内的不同可用区(AZ),提供同城容灾功能。 多 AZ 冗余开启后不可关闭,提供更高数据可靠性同时,存储容量费用也会有所增加,建议在数据有更高可靠性要求的情况下开启。 |
4、阅读并勾选计费说明,创建数据目录。
查看数据目录
在服务左侧菜单栏,选择数据目录,在树状数据目录浏览器可选择对应数据目录以及旗下如 Schema、Table 等层级进行查看。
编辑数据目录
1. 在数据目录列表页面,找到需要修改的数据目录,在右侧操作选项中选择编辑。
2. 在弹出对话框中修改对应数据目录的设置信息。
删除数据目录
在数据目录列表页面,找到需要修改的数据目录,在右侧操作选项中选择删除。
注意:
为避免数据误删,对于数据托管存储在 TClake 中的数据目录类型(Lakehouse、Volume、Model),需提前手动删除 Default Schema 以外所有元数据资源,才可删除数据目录。