模块 | 核心功能 |
模型实验 | 在 Studio 中启用 MLflow 服务,可以在实验中通过调用 MLflow 的相关函数来记录每一次实验的参数、指标和结果,并在实验管理中进行查看,从而实现实验的追踪和可复现性。 并且提供了 AutoML 能力,支持进行无代码开发。 |
特征管理 | 在 Studio 中使用 WeData 所提供的特征处理 API,可以创建、写入、读取、查找、同步、消费特征表,并在特征管理中进行查看、管理特征,实现特征统一管理、统一消费。 |
模型管理 | 在 Studio 中启用 MLflow 服务,可以在实验中通过调用 MLflow 的相关函数来注册模型,或者在实验管理中执行可视化的模型注册。支持查看模型的关键信息,以及与实验/运行、服务等关联关系。 |
模型服务 | 支持从模型管理中的模型创建 API 服务,并进行服务监控等功能,并可查看与模型的关联关系,方便进行信息回溯。 |
模块 | 核心功能 |
Studio | AI 开发最主要的工作区,用户可在 Studio 中编辑、调试、运行代码,并且调用 MLflow 和特征工程 API,实现特征表增删改查、模型训练、模型注册等操作。 |
工作流 | 自动化流程主要的工作区,用户可在 Studio 中调试好代码后,提交至工作流设置周期性调度,实现模型的自动化、周期性生产。 |
数据质量 | 模型服务推理表、特征表、训练数据表都可以通过发起数据质量任务,查看相应的字段分析、漂移分析、模型指标等质量信息。 |
引擎 | 数据科学对接了 DLC 和 EMR 两种引擎,作为 AI 开发的数据来源、离线特征存储和训练资源。 |
类型 | 说明 |
引擎支持 | DLC 标准引擎 可用于模型训练、模型实验上报、特征管理、模型注册等操作 注意,只有 DLC 引擎建资源组时选择“wedata-data-science”镜像,才可以用于 AutoML 实验 EMR on CVM、EMR on TKE 可用于模型训练、模型实验上报、特征管理、模型注册等操作 注意,不可用于 AutoML 实验 EMR:Ray on TKE 可用于模型训练、模型实验上报、模型注册等操作 注意:不可用于 AutoML 实验、特征处理 |
MLflow 版本 | WeData 的实验管理默认兼容 MLflow 的2.17.2版本,相关镜像已经预装,连接 Studio 运行环境后可执行命令进行检查:
|
离线特征存储 | WeData 所管理的离线特征表,目前仅支持 DLC 的 Iceberg 表和 EMR 的 Hive 表,且注册特征表时必须指定表的主键及时间戳键,后续操作时将以所指定的主键和时间戳键进行特征索引。 |
表操作权限 | DLC: 如果开通了 Catalog,需在 DLC 中对用户授权对应库表权限,并在 WeData 的“数据资产-Catalog 目录”中的对应的 Catalog 对用户进行授权 如果没有开通 Catalog,需要在 DLC 中对用户授权对应库表权限 EMR: 在 WeData 的“项目管理 > 存算引擎设置”中设置引擎访问账号和账号映射,来确定访问库表的权限 |
模型操作权限 | DLC: 如果开通了 Catalog,需要在 WeData 的“数据资产 > Catalog 目录”中的对应 Catalog 对用户进行授权 如果没有开通 Catalog,则按照项目粒度管理权限 EMR: 按照项目粒度管理权限 |
在线特征存储 | WeData 支持 Redis 作为在线特征存储。准备如下: 地域、网络需要注意和调度资源组、所使用的引擎(DLC 或者 EMR)保持一致。 第二步:在 WeData 的“项目管理 > 数据源管理”添加 Redis 数据源,测试可连通调度资源组。 第三步:在 WeData 的特征管理中添加默认特征库(在线)。 |
特征工程包 | 连接引擎后执行如下命令,即可安装最新的特征工程包:
如果使用 DLC 引擎,构建资源组时选择“wedata-data-science”镜像,已经预安装特征工程包。可执行命令检查版本:
|
密钥管理说明 |
文档反馈