果博东方客服电话【微4766168】
介绍
在为 ETL(提取、转换、加载)管道构建强大的基础时,Azure 数据工厂或 Azure Synapse Analytics、Azure Batch 和 Azure 存储这三者不可或缺。这些工具可实现跨不同数据源的高效数据移动、转换和处理,从而帮助我们实现战略目标。
本文档提供了有关如何使用 SAMI 对 Azure Batch 和使用 Synapse SAMI 对 Azure Storage 进行身份验证的全面指南。这可以实现用户驱动的存储连接,从而促进数据提取。此外,它还允许使用自定义活动(例如高性能计算 (HPC))来处理提取的数据。
这些功能的关键推动因素是 Synapse Pipeline。作为主要的协调器,Synapse Pipeline 擅长以安全的方式集成各种 Azure 资源。其功能可以扩展到 Azure 数据工厂 (ADF),从而提供更广泛的数据管理和转换范围。
通过本指南,您将深入了解如何利用这些强大的 Azure 服务来优化您的数据处理工作流程。
服务概述
在此过程中,我们将使用不同的服务,下面您可以找到有关每种服务的详细信息。
Azure Synapse 分析/数据工厂
Azure Synapse Analytics 是一项企业分析服务,可加快跨数据仓库和大数据系统的洞察速度。 Azure Synapse 汇集了企业数据仓库中使用的最佳 SQL 技术、用于大数据的 Spark 技术、用于日志和时间序列分析的数据资源管理器、用于数据集成和 ETL/ELT 的管道,以及与其他 Azure 服务(如 Power BI、CosmosDB 和 AzureML)的深度集成。文档:什么是 Azure Synapse Analytics? – Azure Synapse Analytics | Microsoft LearnAzure 数据工厂简介 – Azure 数据工厂 | Microsoft Learn
Azure 批处理
Azure Batch 是一种功能强大的平台服务,旨在在云中运行大规模并行和高性能计算 (HPC) 应用程序。文档:Azure Batch 在云中运行大型并行作业 – Azure Batch | Microsoft Learn
Azure 存储
Azure 存储为各种数据类型提供可扩展且安全的存储服务,包括Azure Blob 存储、 Azure 表存储和 Azure 队列存储等服务 。文档:Azure 存储简介 – Azure 上的云存储 | Microsoft Learn
托管标识
Azure 托管标识是 Azure Active Directory 的一项功能,可自动管理应用程序在连接到支持 Azure AD 身份验证的资源时使用的凭据。它们消除了开发人员管理机密、凭据、证书和密钥的需要。托管标识有两种类型:系统分配:与您的应用程序相关。用户分配:可分配给你的应用的独立 Azure 资源文档: Azure 资源的托管标识 – Azure 资源的托管标识 | Microsoft Learn
设想
运行 ADF/Synapse 管道,提取位于存储帐户中的脚本,并使用用户分配的托管标识 (UAMI) 将其执行到批处理节点中以对存储进行身份验证,并使用系统分配的托管标识 (SAMI) 对批处理进行身份验证。
先决条件
ADF/Synapse 工作区文档:快速入门:创建 Synapse 工作区 – Azure Synapse Analytics | Microsoft LearnUA 管理身份文档:管理用户分配的托管标识 – Azure 资源的托管标识 | Microsoft Learn博客文档:https://techcommunity.microsoft.com/t5/azure-data-factory-blog/support-for-user-assigned-managed-ide…存储帐户Storage Account文档:创建存储帐户 – Azure 存储 | Microsoft Learn
程序概述
在此过程中,我们将逐步完成以下操作:
创建 UAMI 凭证为存储和批处理帐户创建链接服务将 UAMI 和 SAMI 添加到存储和批处理账户创建、配置和执行 ADF/Synapse 管道为了避免冗余,在所有练习和示例中,我们将把 ADF(门户、工作区、管道、作业、链接服务)称为 Synapse。调试
程序
创建 UAMI 凭证
1. 在您的 Synapse Portal 中,转到管理 -> 凭据 -> 新建并填写详细信息,然后单击创建。
为存储和批处理创建链接服务连接
2. 在 Synapse 门户中,转到“管理 – 链接服务”->“新建”->“Azure Blob 存储”->“继续”并填写表格
a. 身份验证类型:UAMI
b. Azure 订阅:选择您的订阅
c. 存储帐户名称:选择要使用的脚本所在的存储帐户
d. 凭证:选择在步骤 #1 中创建的
e. 点击创建
3. 在 Azure 门户中,转到您的批处理帐户 -> 密钥,并复制下一步要使用的批处理帐户名称和帐户端点,还要复制此示例要使用的池名称。
4. 在 Synapse 门户中,转到“管理”->“链接服务”->“新建”->“Azure Batch”->“继续”并填写信息
a. 身份验证方法:SAMI(复制托管身份名称,稍后会用到)
b. 账户名称、批处理 URL 和池名称:在此处粘贴从步骤 3 复制的值
c.存储链接服务名称:选择步骤#2中创建的名称
5. 发布所有更改
将 UAMI RBAC 角色添加到存储帐户
6. 在 Azure 门户中,转到您的存储帐户 -> 访问控制 (IAM)
a. 单击“添加选项”,然后单击“添加角色分配”并搜索“存储 Blob 数据贡献者”,然后单击“下一步”。
b. 选择托管身份并选择您的 UAMI,单击选择,然后单击下一步、下一步和审核 + 分配。
介绍在为 ETL(提取、转换、加载)管道构建强大的基础时,Azure 数据工厂或 Azure Synapse Analytics、Azure Batch 和 Azure 存储这三者不可或缺。这些工具可实现跨不同数据源的高效数据移动、转换和处理,从而帮助我们实现战略目标。 本文档提供了有关如何使用 SAMI 对 Azure Batch 和使用 Synapse SAMI 对 Azure Storage 进行身份验证的全面指南。这可以实现用户驱动的存储连接,从而促进数据提取。此外,它还允许使用自定义活动(例如高性能计算 (HPC))来处理提取的数据。 这些功能的关键推动因素是 Synapse Pipeline。作为主要的协调器,Synapse Pipeline 擅长以安全的方式集成各种 Azure 资源。其功能可以扩展到 Azure 数据工厂 (ADF),从而提供更广泛的数据管理和转换范围。 通过本指南,您将深入了解如何利用这些强大的 Azure 服务来优化您的数据处理工作流程。 服务概述在此过程中,我们将使用不同的服务,下面您可以找到有关每种服务的详细信息。 Azure Synapse 分析/数据工厂Azure Synapse Analytics 是一项企业分析服务,可加快跨数据仓库和大数据系统的洞察速度。 Azure Synapse 汇集了企业数据仓库中使用的最佳 SQL 技术、用于大数据的 Spark 技术、用于日志和时间序列分析的数据资源管理器、用于数据集成和 ETL/ELT 的管道,以及与其他 Azure 服务(如 Power BI、CosmosDB 和 AzureML)的深度集成。文档:什么是 Azure Synapse Analytics? – Azure Synapse Analytics | Microsoft LearnAzure 数据工厂简介 – Azure 数据工厂 | Microsoft Learn Azure 批处理Azure Batch 是一种功能强大的平台服务,旨在在云中运行大规模并行和高性能计算 (HPC) 应用程序。文档:Azure Batch 在云中运行大型并行作业 – Azure Batch | Microsoft Learn Azure 存储Azure 存储为各种数据类型提供可扩展且安全的存储服务,包括Azure Blob 存储、 Azure 表存储和 Azure 队列存储等服务 。文档:Azure 存储简介 – Azure 上的云存储 | Microsoft Learn托管标识Azure 托管标识是 Azure Active Directory 的一项功能,可自动管理应用程序在连接到支持 Azure AD 身份验证的资源时使用的凭据。它们消除了开发人员管理机密、凭据、证书和密钥的需要。托管标识有两种类型:系统分配:与您的应用程序相关。用户分配:可分配给你的应用的独立 Azure 资源文档: Azure 资源的托管标识 – Azure 资源的托管标识 | Microsoft Learn 设想运行 ADF/Synapse 管道,提取位于存储帐户中的脚本,并使用用户分配的托管标识 (UAMI) 将其执行到批处理节点中以对存储进行身份验证,并使用系统分配的托管标识 (SAMI) 对批处理进行身份验证。 先决条件ADF/Synapse 工作区文档:快速入门:创建 Synapse 工作区 – Azure Synapse Analytics | Microsoft LearnUA 管理身份文档:管理用户分配的托管标识 – Azure 资源的托管标识 | Microsoft Learn博客文档:https://techcommunity.microsoft.com/t5/azure-data-factory-blog/support-for-user-assigned-managed-ide…存储帐户Storage Account文档:创建存储帐户 – Azure 存储 | Microsoft Learn 程序概述在此过程中,我们将逐步完成以下操作: 创建 UAMI 凭证为存储和批处理帐户创建链接服务将 UAMI 和 SAMI 添加到存储和批处理账户创建、配置和执行 ADF/Synapse 管道为了避免冗余,在所有练习和示例中,我们将把 ADF(门户、工作区、管道、作业、链接服务)称为 Synapse。调试 程序创建 UAMI 凭证1. 在您的 Synapse Portal 中,转到管理 -> 凭据 -> 新建并填写详细信息,然后单击创建。 为存储和批处理创建链接服务连接2. 在 Synapse 门户中,转到“管理 – 链接服务”->“新建”->“Azure Blob 存储”->“继续”并填写表格a. 身份验证类型:UAMIb. Azure 订阅:选择您的订阅c. 存储帐户名称:选择要使用的脚本所在的存储帐户d. 凭证:选择在步骤 #1 中创建的e. 点击创建 3. 在 Azure 门户中,转到您的批处理帐户 -> 密钥,并复制下一步要使用的批处理帐户名称和帐户端点,还要复制此示例要使用的池名称。 4. 在 Synapse 门户中,转到“管理”->“链接服务”->“新建”->“Azure Batch”->“继续”并填写信息a. 身份验证方法:SAMI(复制托管身份名称,稍后会用到)b. 账户名称、批处理 URL 和池名称:在此处粘贴从步骤 3 复制的值c.存储链接服务名称:选择步骤#2中创建的名称 5. 发布所有更改 将 UAMI RBAC 角色添加到存储帐户6. 在 Azure 门户中,转到您的存储帐户 -> 访问控制 (IAM)a. 单击“添加选项”,然后单击“添加角色分配”并搜索“存储 Blob 数据贡献者”,然后单击“下一步”。 b. 选择托管身份并选择您的 UAMI,单击选择,然后单击下一步、下一步和审核 + 分配。 Read More