Accéder aux documents contenus dans une bibliothèque SharePoint comme source de données pour Azure Data Factory – Partie 3

Dans cette série d’articles, nous verrons comment accéder aux documents contenus dans une bibliothèque SharePoint comme source de données pour Azure Data Factory. Azure Data Factory permet en standard de charger les données issues des listes SharePoint. Mais ici, je vais détailler comment lire les données de fichiers Excel et/ou CSV contenus dans une bibliothèque SharePoint car la procédure n’est pas aisée.

Comme cette procédure n’est pas en standard dans Azure Data Factory, les étapes à réaliser sont nombreuses et il est important de les suivre attentivement.

Voici les différentes étapes à réaliser

  1. Enregistrer une application dans Azure Active Directory
  2. Enregistrer les éléments de l’application enregistrée dans un Azure Key Vault
  3. Créer un environnement Azure Data Factory (cet article)
  4. Donner les droits d’accès dans le site SharePoint
  5. Créer le pipeline pour récupérer les informations contenues dans un document
  6. Bonus : accéder à une série de documents dans la bibliothèque SharePoint (article à venir)

Dans l’article précédent, nous avons créé un groupe de ressources dans Azure et une ressource Azure Key Vault. Dans ce dernier, nous avons créés trois secrets qui contiennent les valeurs nécessaires pour permettre de se connecter à la bibliothèque SharePoint que nous créerons prochainement.

Comme le groupe de ressources a été créé dans l’article précédent, nous allons maintenant créer une ressource Azure Data Factory.

Optionnellement, nous créerons aussi une ressource Azure SQL Database, pour servir de destination aux données contenues dans les fichiers SharePoint.

Si vous disposez déjà d’une ressource Azure Data Factory, vous pouvez sauter cette étape et aller directement à la section où nous enregistrons les alias des secrets d’Azure Key Vault.

Lancement de la création d'Azure Data Factory
Lancement de la création d’Azure Data Factory

Dans la liste des ressources disponible, il faut trouver « Data Factory ». Je vous donne aussi l’URL pour lancer la création : https://portal.azure.com/#create/Microsoft.DataFactory.

Pour la création d’Azure Data Factory, il y a lieu de préciser à minima le nom de la ressource. La version retenue est évidemment la version 2.

Premier écran de la création de la ressource Azure Data Factory
Premier écran de la création de la ressource Azure Data Factory

Pour la configuration Git, nous s’activons cette option car dans le cadre de cet exercice, nous n’avons de prévoir une sauvegarde dans un gestionnaire de code source. Toutefois, pour un projet pérenne, la configuration correcte de Git est importante.

Configuration Git d'Azure Data Factory
Configuration Git d’Azure Data Factory

Les autres options peuvent être laissées avec les valeurs par défaut. La ressource peut donc être créée avec les valeurs saisies.

Ecran de validation pour la création de la ressource
Ecran de validation pour la création de la ressource

Une fois Azure Data Factory créé, il est possible d’accéder à la ressource. Les manipulations suivantes se feront dans Azure Data Factory Studio

Page d’accueil d’Azure Data Factory

L’accès du studio d’Azure Data Factory se fait via l’URL suivante : https://adf.azure.com/fr/datafactories.

Depuis le site Azure Data Factory Studio, nous allons déclarer les libellés des secrets d’Azure Key Vault.

Création des paramètres globaux dans Azure Data Factory Studio

Pour chacun des secrets créés dans Azure Key Vault, nous allons créer un paramètre global dans notre Azure Data Factory. Le champ valeur contient le nom du secret. Ces paramètres globaux seront utilisés dans les pipelines.

Création d'un paramètre global dans Azure Data Factory
Création d’un paramètre global dans Azure Data Factory

La création des paramètres globaux est faite pour chacun des secrets et nous ajoutons le nom de l’annuaire (tenant) pour identifier plus tard le nom du site SharePoint et l’URL de notre ressource Azure Key Vault.

Liste des paramètres globaux créés
Liste des paramètres globaux créés

Pour savoir comment récupérer l’URL du Azure Key Vault, il suffit d’afficher la page Vue d’ensemble de la ressource et de copier la valeur associée à l’URI du Coffre :

Page de la vue d'ensemble d'Azure Key Vault
Page de la vue d’ensemble d’Azure Key Vault

Pour que notre ressource Azure Data Factory puisse accéder aux secrets stockés dans la ressource Azure Key Vault, nous allons donner les droits dans Azure Key Vault.

Tant que nous sommes sur la page Vue d’ensemble de notre ressource Azure Key Vault, nous sélectionnons l’entrée Stratégie d’accès du menu et cliquer sur la commande Ajouter une stratégie d’accès :

Commande pour ajouter un droit dans Azure Ket Vault
Commande pour ajouter un droit dans Azure Ket Vault

Sur la page de l’ajout d’une stratégie, nous allons ajouter l’autorisation Obtenir dans la ligne Autorisations du secret et sélectionner notre ressource Azure Data Factory sur la ligne Sélectionner le principal.

Ajout d'une stratégie d'accès dans Azure Key Vault
Ajout d’une stratégie d’accès dans Azure Key Vault

Il ne faut pas oublier d’enregistrer la nouvelle stratégie :

Enregistrement de la stratégie d'accès
Enregistrement de la stratégie d’accès

L’étape suivante n’est pas obligatoire, il s’agit de créer une base de données Azure SQL Database pour recevoir les données contenues dans les fichiers de la liste SharePoint. Et ensuite, nous définirons dans Azure Data Factory, le service lié à cette instance SQL.

Pendant le processus de création, il est nécessaire un serveur de base de données et aussi de déclarer la configuration de la base de données : pour cela, nous optons pour une option « Serverless », facturable au nombre de cœurs virtuels consommés chaque seconde.

Création du serveur pour Azure SQL Database
Création du serveur pour Azure SQL Database
Configuration de la base de données Azure SQL Database
Configuration de la base de données Azure SQL Database

Voici la configuration de la base de données retenue

Paramétrage de base de la base de données Azure SQL Database
Paramétrage de base de la base de données Azure SQL Database

Les autres paramètres sont laissés par défaut à l’exception de la création des données d’exemple.

Ajout des données d'exemples à Azure SQL Database
Ajout des données d’exemples à Azure SQL Database

L’étape de suivante est de permettre à Azure Data Factory de se connecter à notre base de données Azure SQL Database. Pour cela, nous nous connectons à l’éditeur de requête dans la base de données et exécuter la requête qui donne le droit à Azure Data Factory de se connecter et de donner le droit au rôle « db_owner ». Ce rôle est élevé et devra être évalué dans un scénario réel. Ici, nous laisserons Azure Data Factory créer une table.

Exécution la requête de droits pour Azure Data Factory
Exécution la requête de droits pour Azure Data Factory

Voici le script passé (ADF-Donnees-SharePoint est le nom de la ressource Azure Data Factory) :

CREATE USER [ADF-Donnees-SharePoint] FROM EXTERNAL PROVIDER;
GO

ALTER ROLE [db_owner] ADD MEMBER [ADF-Donnees-SharePoint];
GO

L’étape suivante est de créer le service lié dans Azure Data Factory depuis le studio d’Azure Data Factory. Au niveau de l’authentification, nous sélectionnons l’option « Identité managée » car nous avons donné le droit à Azure Data Factory dans l’étape précédente.

Création du service lié à Azure SQL Database
Création du service lié à Azure SQL Database

Voici, nous avons créé ici la ressource Azure Data Factory qui supportera le pipeline qui copiera le contenu des fichiers stockés dans SharePoint vers une base de données Azure SQL Database. Nous avons aussi créé la ressource Azure SQL Database et les droits correspondants.

Bien à vous.

Rechercher

A propos de l’auteur

Spécialiste certifié Microsoft BI (SQL Server et Azure), Philippe Geiger accompagne aussi bien les professionnels en infrastructure que les développeurs BI. Maîtrisant tous les aspects de la plateforme Data de Microsoft, il assure également, en sa qualité de formateur certifié, les formations officielles de Microsoft. Par ailleurs, il est Directeur des Activités Grand-Est chez Metsys, société « Pure Player » Microsoft.

Les derniers tweets

Certifications

Microsoft Certified: Power BI Data Analyst Associate
Microsoft Certified: Azure AI Engineer Associate
Microsoft Certified: Azure Fundamentals
Microsoft Certified: Azure Data Fundamentals
MCSE: Data Management and Analytics — Certified 2018
MCSA: SQL 2016 Database Administration - Certified 2016
MCSA: SQL Server 2012/2014 - Certified 2016
Microsoft Certified: Azure Data Engineer Associate
Microsoft Certified: Azure Database Administrator Associate
Microsoft Certified: Power Platform Fundamentals
Microsoft Certified Trainer 2022-2023
MCSE: Data Management and Analytics — Certified 2016
MCSA: SQL 2016 Database Development - Certified 2016
MTA: Database Fundamentals - Certified 2016
Microsoft Certified: Azure Data Scientist Associate
Microsoft 365 Certified: Fundamentals
Microsoft Certified: Azure AI Fundamentals
Exam 473: Designing and Implementing Cloud Data Platform Solutions
MCSA: SQL 2016 Business Intelligence Development - Certified 2016
MCSA: BI Reporting - Certified 2018

Archives