本文介绍如何在 Azure AI Studio 中创建和管理数据。 数据可用作 Azure AI Studio 中的索引源。
当你需要以下功能时,数据会提供帮助:
- 版本控制:支持数据版本控制。
- 可再现性:数据版本一经创建,便是不可变的。 无法修改或删除。 因此,可以再现使用数据的作业或提示流管道。
- 可审核性:由于数据版本是不可变的,因此可跟踪资产版本以及更新版本的人员/时间。
- 世系:对于任何给定的数据,可查看哪些作业或提示流管道使用了数据。
- 易于使用:Azure AI Studio 数据与 Web 浏览器书签(收藏夹)类似。 可以创建数据版本,然后使用易记名称访问该资产版本,而不必记住引用 Azure 存储上的常用数据的长存储路径。
先决条件
若要创建和使用数据,需要做好以下准备:
- Azure 订阅。 如果没有订阅,请在开始之前创建一个免费帐户
- 一个 AI Studio 项目
创建数据
创建数据时,需要设置数据类型。 AI Studio 支持三种数据类型:
类型 | 场景 |
---|---|
file 引用单个文件 | 读取 Azure 存储上的单个文件(该文件可采用任何格式)。 |
folder 引用文件夹 | 将 parquet/CSV 文件的文件夹读取到 Pandas/Spark 中。 读取文件夹中的非结构化数据(例如图像、文本和音频)。 |
Azure AI Studio 显示支持的源路径。 可以从文件夹或文件创建数据:
如果选择文件夹类型,可以选择文件夹 URL 格式。 Azure AI Studio 显示支持的文件夹 URL 格式。 可以创建数据资源,如下所示:
如果选择文件类型,则可以选择文件 URL 格式。 支持的文件 URL 格式显示在 Azure AI Studio 中。 可以创建数据资源,如下所示:
创建数据:文件类型
文件 (uri_file
) 数据资源类型指向存储上的单个文件(例如 CSV 文件)。
以下步骤说明如何在 Azure AI Studio 中创建文件类型的数据:
从左侧的折叠菜单中,选择“组件”下的“数据”。 选择“新建数据”。
选择你的数据源。 可以通过三个选项来选择数据源。
- 可以从“现有连接”中选择数据。
- 如果有指向存储帐户或公共可访问 HTTPS 服务器的直接 URL,可以选择“使用存储 URL 获取数据”
- 可以选择“上传文件/文件夹”以从本地驱动器上传文件夹。
现有连接:可以选择现有连接并浏览到此连接,然后选择所需的文件。 如果现有连接不适合你,请选择右上角的“新建连接”按钮。
使用存储 URL 获取数据:可以选择“文件”类型,然后根据页面中列出的受支持 URL 格式提供 URL。
上传文件/文件夹:可以选择“上传文件或文件夹”,然后选择“上传文件”,然后选择要上传的本地文件。 该文件将上传到默认的“workspaceblobstore”连接。
选择数据源后,选择“下一步”。
输入数据的自定义名称,然后选择“创建”。
创建数据:文件夹类型
文件夹 (uri_folder
) 数据源类型指向存储资源上的文件夹(例如,包含多个图像子文件夹的文件夹)。 使用以下步骤在 Azure AI Studio 中创建文件夹类型数据资源:
导航到 Azure AI Studio
从左侧的折叠菜单中,选择“组件”下的“数据”。 选择“新建数据”。
选择你的数据源。 有三个数据源选项:
从“现有连接”中选择数据
如果有指向存储帐户或公共可访问 HTTPS 服务器的直接 URL,请选择“使用存储 URL 获取数据”
选择“上传文件/文件夹”以从本地驱动器上传文件夹
现有连接:可以选择现有连接并浏览到此连接,然后选择所需的文件。 如果现有连接不适合你,你可以选择右上角的“新建连接”按钮。
使用存储 URL 获取数据:可以选择“文件夹”类型,然后根据该页面上列出的受支持 URL 格式提供 URL。
上传文件/文件夹:可以选择“上传文件或文件夹”,然后选择“上传文件”,然后选择要上传的本地文件。 文件资源将上传到默认的“workspaceblobstore”连接。
选择数据源后,选择“下一步”。
输入数据的自定义名称,然后选择“创建”。
管理数据
删除数据
重要
不支持删除数据。 AI Studio 中的数据不可变。 创建数据版本后,无法对其进行修改或删除。 在创建生产工作负载的团队中运行时,这种不可变性提供了一定程度的保护。
如果 AI Studio 允许删除数据,会产生以下不利影响:
- 使用后来删除的数据的生产作业将失败。
- 机器学习试验的重现将变得更加困难。
- 作业世系会中断,因为无法查看已删除的数据版本。
- 不再可以正确地跟踪和审核,因为版本可能会丢失。
如果错误地创建了数据资源(例如,名称、类型或路径错误),Azure AI 会提供解决方案来处理这种情况,不会造成删除操作带来的负面影响:
展开表
你可能想要删除数据的原因 | 解决方案 |
---|---|
名称不正确 | 将数据存档 |
团队不再使用该数据 | 将数据存档 |
它使数据列表变得混乱 | 将数据存档 |
路径不正确 | 使用正确路径创建(同名)数据的新版本。 有关详细信息,请阅读创建数据。 |
其类型不正确 | 目前,Azure AI 不允许创建与初始版本类型不同的新版本。 (1) 将数据存档 (2) 使用正确的类型和不同的名称创建新数据。 |
将数据存档
默认情况下,将数据资源存档后,该数据将不在列表查询(例如在 CLI az ml data list
)中显示,也不在 Azure AI Studio 的数据列表中显示。 你仍可继续在工作流中引用和使用已存档的数据资源。 可存档以下任一项:
- 采用给定名称的数据的所有版本
- 特定数据版本
将数据的所有版本存档
目前,Azure AI Studio 不支持以给定的名称存档数据资源的所有版本。
将特定的数据版本存档
目前,Azure AI Studio 不支持存档特定版本的数据资源。
还原已存档的数据
可还原已存档的数据资源。 如果数据的所有版本都已存档,则无法还原数据的单个版本 - 必须还原所有版本。
还原数据的所有版本
目前,Azure AI Studio 不支持还原给定名称的数据的所有版本。
还原特定的数据版本
重要
如果所有数据版本都已存档,则无法还原数据的单个版本 - 必须还原所有版本。
目前,Azure AI Studio 不支持还原特定的数据版本。
添加数据标记
数据标记是以键值对的形式应用于数据的额外元数据。 数据标记提供许多优势:
- 数据质量说明。 例如,如果你的组织使用奖牌湖屋 (medallion lakehouse) 体系结构,可使用
medallion:bronze
(原始)、medallion:silver
(已验证)和medallion:gold
(已扩充)来标记资产。 - 提供高效的数据搜索和筛选来帮助数据发现。
- 帮助识别敏感的个人数据,以正确管理和治理数据访问。 例如
sensitivity:PII
/sensitivity:nonPII
。 - 确认数据是否经过负责任 AI (RAI) 审核的批准。 例如
RAI_audit:approved
/RAI_audit:todo
。
可以向现有数据添加标记。
数据预览
可以在“数据详细信息”页中浏览文件夹结构并预览文件。 我们支持以下类型的数据预览:
- 数据文件类型将通过预览 API 获得支持:“.tsv”、“.csv”、“.parquet”、“.jsonl”。
- 对于其他文件类型,Studio UI 将尝试本机预览浏览器中的文件。 因此,支持的文件类型可能取决于浏览器本身。 对于图像,一般支持以下文件类型:“.png”、“.jpg”、“.gif”。 通常还支持以下文件类型:“.ipynb”、“.py”、“.yml”、“.html”。