Dans cette série d’articles, nous verrons comment accéder aux documents contenus dans une bibliothèque SharePoint comme source de données pour Azure Data Factory. Azure Data Factory permet en standard de charger les données issues des listes SharePoint. Mais ici, je vais détailler comment lire les données de fichiers Excel et/ou CSV contenus dans une bibliothèque SharePoint car la procédure n’est pas aisée.
Comme cette procédure n’est pas en standard dans Azure Data Factory, les étapes à réaliser sont nombreuses et il est important de les suivre attentivement.
Voici les différentes étapes à réaliser
- Enregistrer une application dans Azure Active Directory
- Enregistrer les éléments de l’application enregistrée dans un Azure Key Vault
- Créer un environnement Azure Data Factory (cet article)
- Donner les droits d’accès dans le site SharePoint
- Créer le pipeline pour récupérer les informations contenues dans un document
- Bonus : accéder à une série de documents dans la bibliothèque SharePoint (article à venir)
Dans l’article précédent, nous avons créé un groupe de ressources dans Azure et une ressource Azure Key Vault. Dans ce dernier, nous avons créés trois secrets qui contiennent les valeurs nécessaires pour permettre de se connecter à la bibliothèque SharePoint que nous créerons prochainement.
Comme le groupe de ressources a été créé dans l’article précédent, nous allons maintenant créer une ressource Azure Data Factory.
Optionnellement, nous créerons aussi une ressource Azure SQL Database, pour servir de destination aux données contenues dans les fichiers SharePoint.
Si vous disposez déjà d’une ressource Azure Data Factory, vous pouvez sauter cette étape et aller directement à la section où nous enregistrons les alias des secrets d’Azure Key Vault.

Dans la liste des ressources disponible, il faut trouver « Data Factory ». Je vous donne aussi l’URL pour lancer la création : https://portal.azure.com/#create/Microsoft.DataFactory.
Pour la création d’Azure Data Factory, il y a lieu de préciser à minima le nom de la ressource. La version retenue est évidemment la version 2.

Pour la configuration Git, nous s’activons cette option car dans le cadre de cet exercice, nous n’avons de prévoir une sauvegarde dans un gestionnaire de code source. Toutefois, pour un projet pérenne, la configuration correcte de Git est importante.

Les autres options peuvent être laissées avec les valeurs par défaut. La ressource peut donc être créée avec les valeurs saisies.

Une fois Azure Data Factory créé, il est possible d’accéder à la ressource. Les manipulations suivantes se feront dans Azure Data Factory Studio

L’accès du studio d’Azure Data Factory se fait via l’URL suivante : https://adf.azure.com/fr/datafactories.
Depuis le site Azure Data Factory Studio, nous allons déclarer les libellés des secrets d’Azure Key Vault.

Pour chacun des secrets créés dans Azure Key Vault, nous allons créer un paramètre global dans notre Azure Data Factory. Le champ valeur contient le nom du secret. Ces paramètres globaux seront utilisés dans les pipelines.

La création des paramètres globaux est faite pour chacun des secrets et nous ajoutons le nom de l’annuaire (tenant) pour identifier plus tard le nom du site SharePoint et l’URL de notre ressource Azure Key Vault.

Pour savoir comment récupérer l’URL du Azure Key Vault, il suffit d’afficher la page Vue d’ensemble de la ressource et de copier la valeur associée à l’URI du Coffre :

Pour que notre ressource Azure Data Factory puisse accéder aux secrets stockés dans la ressource Azure Key Vault, nous allons donner les droits dans Azure Key Vault.
Tant que nous sommes sur la page Vue d’ensemble de notre ressource Azure Key Vault, nous sélectionnons l’entrée Stratégie d’accès du menu et cliquer sur la commande Ajouter une stratégie d’accès :

Sur la page de l’ajout d’une stratégie, nous allons ajouter l’autorisation Obtenir dans la ligne Autorisations du secret et sélectionner notre ressource Azure Data Factory sur la ligne Sélectionner le principal.

Il ne faut pas oublier d’enregistrer la nouvelle stratégie :

L’étape suivante n’est pas obligatoire, il s’agit de créer une base de données Azure SQL Database pour recevoir les données contenues dans les fichiers de la liste SharePoint. Et ensuite, nous définirons dans Azure Data Factory, le service lié à cette instance SQL.
Pendant le processus de création, il est nécessaire un serveur de base de données et aussi de déclarer la configuration de la base de données : pour cela, nous optons pour une option « Serverless », facturable au nombre de cœurs virtuels consommés chaque seconde.


Voici la configuration de la base de données retenue

Les autres paramètres sont laissés par défaut à l’exception de la création des données d’exemple.

L’étape de suivante est de permettre à Azure Data Factory de se connecter à notre base de données Azure SQL Database. Pour cela, nous nous connectons à l’éditeur de requête dans la base de données et exécuter la requête qui donne le droit à Azure Data Factory de se connecter et de donner le droit au rôle « db_owner ». Ce rôle est élevé et devra être évalué dans un scénario réel. Ici, nous laisserons Azure Data Factory créer une table.

Voici le script passé (ADF-Donnees-SharePoint est le nom de la ressource Azure Data Factory) :
CREATE USER [ADF-Donnees-SharePoint] FROM EXTERNAL PROVIDER;
GO
ALTER ROLE [db_owner] ADD MEMBER [ADF-Donnees-SharePoint];
GO
L’étape suivante est de créer le service lié dans Azure Data Factory depuis le studio d’Azure Data Factory. Au niveau de l’authentification, nous sélectionnons l’option « Identité managée » car nous avons donné le droit à Azure Data Factory dans l’étape précédente.

Voici, nous avons créé ici la ressource Azure Data Factory qui supportera le pipeline qui copiera le contenu des fichiers stockés dans SharePoint vers une base de données Azure SQL Database. Nous avons aussi créé la ressource Azure SQL Database et les droits correspondants.
Références
- Qu’est-ce qu’Azure Data Factory ?
- Nouveautés d’Azure Data Factory
- Démarrage rapide : Créer une fabrique de données à l’aide du portail Azure et d’Azure Data Factory Studio
- Qu’est-ce qu’Azure SQL Database ?
- Nouveautés d’Azure SQL Database
- Bien démarrer avec des bases de données uniques dans Azure SQL Database
Bien à vous.
4 réponses à « Accéder aux documents contenus dans une bibliothèque SharePoint comme source de données pour Azure Data Factory – Partie 3 »
[…] Créer un environnement Azure Data Factory […]
J’aimeJ’aime
[…] Créer un environnement Azure Data Factory […]
J’aimeJ’aime
[…] Créer un environnement Azure Data Factory […]
J’aimeJ’aime
[…] Créer un environnement Azure Data Factory […]
J’aimeJ’aime