本文为您介绍通过多模态智能数据湖 TCLake 控制台,快速创建数据服务的操作流程。
准备工作
1. 多模态智能数据湖 TCLake 服务目前仅为受邀用户开放,您可通过填写 申请表单 申请邀测资格。 注意:
单击开通服务后,系统将为您自动创建专属元数据服务资源组,需要等待约10分钟时间。
3. 服务开通后,首次开通服务的用户以及腾讯云主账号,将成为多模态智能数据湖 TCLake 的管理员,为避免出现不必要的报错,我们建议 TCLake 普通用户(腾讯 CAM 子账号)在管理员配置完成后,再进行使用,若 CAM 子账号需使用 TCLake 并管理数据目录,需具备以下权限:
3.1 云 API 权限:CAM 普通用户需要具备 QcloudTccatalogFullAccess 权限。
3.2 数据权限:仅腾讯主账号,TCLake Admin 角色具备创建数据目录权限,其他用户需由 TCLake Admin 角色用户授予必要的数据权限。
创建数据目录
数据目录按照来源可分为内置数据目录和外部数据目录两种,内置数据目录的元数据信息内置存储于腾讯云 TCLake 服务中,支持结构化表数据目录服务(LakeHouse)和数据卷(Volume)、模型(Model)三种类型;外部数据目录是指通过 JDBC 等方式建立与如 MySQL 等外部数据源的连接,实时获取到该数据源的元数据信息。关于数据目录的进一步详细介绍可参见 数据目录。 |
内置数据目录 | LakeHouse Catalog | 结构化数据目录,内置 TCIceberg 批流一体表格式、Lance 多模态格式等开放格式托管。 |
| Volume Catalog | 面向非结构化数据的数据卷(Volume)目录,可将对象存储等文件系统中的图片、视频、音频关联到 Volume 中,实现对非结构化数据的元信息统一管理。 |
| Model Catalog | 面向 ML 模型文件的内置数据目录,可将 MLflow 等 MLOps 框架中训练好的 ML 模型注册到 TC-Catalog 中,实现 ML 模型文件的全生命周期管理(本部分功能开发中)。 |
外部数据目录 | MySQL、EMR、DLC、TCHouse 等 | 指通过 JDBC 等方式建立与如 MySQL 等外部数据源的连接,实时获取到该数据源的元数据信息。 |
接下来以创建一个类型为 LakeHouse 的数据目录为例,介绍如何创建一个新的数据目录。
创建一个 LakeHouse 目录
2. 数据目录类型选择 LakeHouse,配置以下信息:
|
目录名称 | 必须,唯一标识,不可重名。只能包含字母、数字、下划线,且长度为1-64个字符 |
描述 | 可选 |
存储类型 | 目前仅支持标准存储 |
开启多 AZ 冗余 | 说明: 该功能目前未全量开放,如有需要请 提交工单 与我们联系。 默认不开启。开启后,数据将存储在同地域内的不同可用区(AZ),提供同城容灾功能。 多 AZ 冗余开启后不可关闭,提供更高数据可靠性的同时,存储容量费用也会有所增加,建议在数据有更高可靠性要求的情况下开启。 |
3. 更多关于 Catalog 的操作详情请参见 数据目录。 管理权限
多模态智能数据湖 TCLake 的权限体系分为 云 API 权限与数据权限,如果您要通过控制台访问 TCLake 的页面及查看数据目录中的元数据,需要通过这两层权限校验。
云 API 权限:控制 TCLake 所有云 API 的访问权限,主要用于控制台查看及通过云 API 执行元数据操作。如果没有 TCLake 云 API 权限,您可以联系腾讯云主账号用户 或 拥有 CAM 管理员角色的用户,为您添加 QcloudTccatalogFullAccess(TCLake 云 API 全读写)或 QcloudTccatalogReadOnlyAccess (TCLake 云 API 只读)权限。
TCLake 数据权限:TCLake 提供跨数据目录细化的元数据、数据资源使用与访问控制。涵盖数据目录、Schema、数据表、数据卷、模型等细粒度访问权限。确保即使在 CAM 云 API 权限允许的前提下,用户对具体元数据、数据资源的操作仍需遵循更为细致的授权规则,实现数据级别的精密保护,您可前往 TCLake 控制台 > 权限与安全 模块进行设置。
TCLake 服务开通后,首次开通服务的用户以及腾讯云主账号,将自动成为多模态智能数据湖 TCLake 的管理员,拥有 Admin 角色。
在 TCLake 中被赋予 Admin 角色的用户,具备所有的数据权限及授权权限,以及添加和删除角色、新建 Catalog 权限。
您可以联系具备 TCLake Admin 角色的用户,为您添加必要的数据权限。