如何在 Azure AI Studio 项目中添加和管理数据

发布于: 13 June, 2024
分享:

本文介绍如何在 Azure AI Studio 中创建和管理数据。 数据可用作 Azure AI Studio 中的索引源。

当你需要以下功能时,数据会提供帮助:

  • 版本控制:支持数据版本控制。
  • 可再现性:数据版本一经创建,便是不可变的。 无法修改或删除。 因此,可以再现使用数据的作业或提示流管道。
  • 可审核性:由于数据版本是不可变的,因此可跟踪资产版本以及更新版本的人员/时间。
  • 世系:对于任何给定的数据,可查看哪些作业或提示流管道使用了数据。
  • 易于使用:Azure AI Studio 数据与 Web 浏览器书签(收藏夹)类似。 可以创建数据版本,然后使用易记名称访问该资产版本,而不必记住引用 Azure 存储上的常用数据的长存储路径。

先决条件

若要创建和使用数据,需要做好以下准备:

  • Azure 订阅。 如果没有订阅,请在开始之前创建一个免费帐户
  • 一个 AI Studio 项目

创建数据

创建数据时,需要设置数据类型。 AI Studio 支持三种数据类型:

类型场景
file   
引用单个文件
读取 Azure 存储上的单个文件(该文件可采用任何格式)。
folder   
引用文件夹
将 parquet/CSV 文件的文件夹读取到 Pandas/Spark 中。   

读取文件夹中的非结构化数据(例如图像、文本和音频)。

 

Azure AI Studio 显示支持的源路径。 可以从文件夹或文件创建数据:

如果选择文件夹类型,可以选择文件夹 URL 格式。 Azure AI Studio 显示支持的文件夹 URL 格式。 可以创建数据资源,如下所示:

文件夹 URL 格式的屏幕截图。

如果选择文件类型,则可以选择文件 URL 格式。 支持的文件 URL 格式显示在 Azure AI Studio 中。 可以创建数据资源,如下所示:

文件 URL 格式的屏幕截图。

创建数据:文件类型

文件 (uri_file) 数据资源类型指向存储上的单个文件(例如 CSV 文件)。

以下步骤说明如何在 Azure AI Studio 中创建文件类型的数据:

从左侧的折叠菜单中,选择“组件”下的“数据”。 选择“新建数据”。 

屏幕截图突出显示了“数据”选项卡中的“添加数据”。

选择你的数据源。 可以通过三个选项来选择数据源。

  • 可以从“现有连接”中选择数据。
  • 如果有指向存储帐户或公共可访问 HTTPS 服务器的直接 URL,可以选择“使用存储 URL 获取数据”
  • 可以选择“上传文件/文件夹”以从本地驱动器上传文件夹。

现有连接:可以选择现有连接并浏览到此连接,然后选择所需的文件。 如果现有连接不适合你,请选择右上角的“新建连接”按钮。 

此屏幕截图显示如何创建与外部资产的新连接。

使用存储 URL 获取数据:可以选择“文件”类型,然后根据页面中列出的受支持 URL 格式提供 URL。 

此屏幕截图显示如何预配指向文件的 URL。

上传文件/文件夹:可以选择“上传文件或文件夹”,然后选择“上传文件”,然后选择要上传的本地文件。 该文件将上传到默认的“workspaceblobstore”连接。 

此屏幕截图显示了上传文件/文件夹的步骤。

选择数据源后,选择“下一步”。

输入数据的自定义名称,然后选择“创建”。

创建数据:文件夹类型

文件夹 (uri_folder) 数据源类型指向存储资源上的文件夹(例如,包含多个图像子文件夹的文件夹)。 使用以下步骤在 Azure AI Studio 中创建文件夹类型数据资源:

导航到 Azure AI Studio

从左侧的折叠菜单中,选择“组件”下的“数据”。 选择“新建数据”。

屏幕截图突出显示了“数据”选项卡中的“添加数据”。

选择你的数据源。 有三个数据源选项:

从“现有连接”中选择数据

如果有指向存储帐户或公共可访问 HTTPS 服务器的直接 URL,请选择“使用存储 URL 获取数据”

选择“上传文件/文件夹”以从本地驱动器上传文件夹

此屏幕截图显示了现有连接。

现有连接:可以选择现有连接并浏览到此连接,然后选择所需的文件。 如果现有连接不适合你,你可以选择右上角的“新建连接”按钮。

此屏幕截图显示了从现有连接中选择文件夹的步骤。

使用存储 URL 获取数据:可以选择“文件夹”类型,然后根据该页面上列出的受支持 URL 格式提供 URL。

此屏幕截图显示了提供指向文件夹的 URL 的步骤。

上传文件/文件夹:可以选择“上传文件或文件夹”,然后选择“上传文件”,然后选择要上传的本地文件。 文件资源将上传到默认的“workspaceblobstore”连接。

此屏幕截图显示了上传文件/文件夹的步骤。

选择数据源后,选择“下一步”。

输入数据的自定义名称,然后选择“创建”。

命名数据的屏幕截图。

管理数据

删除数据

重要

不支持删除数据。 AI Studio 中的数据不可变。 创建数据版本后,无法对其进行修改或删除。 在创建生产工作负载的团队中运行时,这种不可变性提供了一定程度的保护。

如果 AI Studio 允许删除数据,会产生以下不利影响:

  • 使用后来删除的数据的生产作业将失败。
  • 机器学习试验的重现将变得更加困难。
  • 作业世系会中断,因为无法查看已删除的数据版本。
  • 不再可以正确地跟踪和审核,因为版本可能会丢失。

如果错误地创建了数据资源(例如,名称、类型或路径错误),Azure AI 会提供解决方案来处理这种情况,不会造成删除操作带来的负面影响:

展开表

你可能想要删除数据的原因解决方案
名称不正确将数据存档
团队不再使用该数据将数据存档
它使数据列表变得混乱将数据存档
路径不正确使用正确路径创建(同名)数据的新版本。 有关详细信息,请阅读创建数据
其类型不正确目前,Azure AI 不允许创建与初始版本类型不同的新版本。   
(1) 将数据存档   
(2) 使用正确的类型和不同的名称创建新数据

 

将数据存档

默认情况下,将数据资源存档后,该数据将不在列表查询(例如在 CLI az ml data list)中显示,也不在 Azure AI Studio 的数据列表中显示。 你仍可继续在工作流中引用和使用已存档的数据资源。 可存档以下任一项:

  • 采用给定名称的数据的所有版本
  • 特定数据版本

将数据的所有版本存档

目前,Azure AI Studio 不支持以给定的名称存档数据资源的所有版本。

将特定的数据版本存档

目前,Azure AI Studio 不支持存档特定版本的数据资源。

还原已存档的数据

可还原已存档的数据资源。 如果数据的所有版本都已存档,则无法还原数据的单个版本 - 必须还原所有版本。

还原数据的所有版本

目前,Azure AI Studio 不支持还原给定名称的数据的所有版本。

还原特定的数据版本

重要

如果所有数据版本都已存档,则无法还原数据的单个版本 - 必须还原所有版本。

目前,Azure AI Studio 不支持还原特定的数据版本。

添加数据标记

数据标记是以键值对的形式应用于数据的额外元数据。 数据标记提供许多优势:

  • 数据质量说明。 例如,如果你的组织使用奖牌湖屋 (medallion lakehouse) 体系结构,可使用 medallion:bronze(原始)、medallion:silver(已验证)和 medallion:gold(已扩充)来标记资产。
  • 提供高效的数据搜索和筛选来帮助数据发现。
  • 帮助识别敏感的个人数据,以正确管理和治理数据访问。 例如 sensitivity:PII/sensitivity:nonPII
  • 确认数据是否经过负责任 AI (RAI) 审核的批准。 例如 RAI_audit:approved/RAI_audit:todo

可以向现有数据添加标记。

数据预览

可以在“数据详细信息”页中浏览文件夹结构并预览文件。 我们支持以下类型的数据预览:

  • 数据文件类型将通过预览 API 获得支持:“.tsv”、“.csv”、“.parquet”、“.jsonl”。
  • 对于其他文件类型,Studio UI 将尝试本机预览浏览器中的文件。 因此,支持的文件类型可能取决于浏览器本身。 对于图像,一般支持以下文件类型:“.png”、“.jpg”、“.gif”。 通常还支持以下文件类型:“.ipynb”、“.py”、“.yml”、“.html”。
分享:

0 留言

留言

您的留言将被人工审核,请勿发表色情、反动言论。

您可能感兴趣

TensorFlow 和 PyTorch 哪个更适合 Transformer 模型

TensorFlow 适合生产部署和大规模应用,而 PyTorch 在研究和快速原型开发中更受欢迎。

如何更新 Ollama

保持 Ollama 最新版本