Cet article de mon blog complète mon précédent article comme promis. Avant le début de la session qui aura lieu le 29 juin à 12 heures (heure en française), je vous présente les éléments préparatoires. En effet, parce que nous nous consacrerons sur le fonctionnement d’Azure Machine Learning, je ne m’étendrai pas sur les données qui serviront d’illustration.
C’est pourquoi je préfère le faire ici. Et si vous êtes courageux, je vous laisse la possibilité de télécharger les fichiers pour les examiner en détail.
Donc, voici les informations qui serviront de départ de la session.
Le projet
La société Adventure Works Cycles a recueilli un volume important de données relatives à leurs clients actuels, y compris les caractéristiques démographiques et des informations sur les achats qu’ils ont fait.
La société s’intéresse particulièrement à l’analyse des données des clients pour déterminer toute relation apparente entre les caractéristiques démographiques connues et la probabilité d’un client d’acheter un vélo ou non.
De plus, l’analyse doit s’efforcer de déterminer si des dépenses moyennes mensuelles des clients, passées avec l’entreprise, peuvent être prévues à partir des caractéristiques connus sur les clients.
Les données connues
Les données se décomposent en deux fichiers.
AWCustomers.csv
Les données sur la démographie des clients contiennent les colonnes suivantes :
Nom de la colonne | Type | Description |
CustomerID | Entier | Identifiant des clients |
Title | Texte | Civilité (Mr, Mrs, Ms, Miss Dr, etc.) |
FirstName | Texte | Prénom des clients |
MiddleName | Texte | Nom du milieu des clients |
LastName | Texte | Nom de famille des clients |
Suffix | Texte | Suffixe de nom des clients (Jr, Sr, etc.) |
AddressLine1 | Texte | Première ligne de l’adresse des clients. |
AddressLine2 | Texte | Seconde ligne de l’adresse des clients. |
City | Texte | Ville de l’adresse des clients |
StateProvince | Texte | Etat de l’adresse des clients |
CountryRegion | Texte | Pays de l’adresse des clients |
PostalCode | Texte | Code postal de l’adresse des clients |
PhoneNumber | Texte | Numéro de téléphone des clients |
BirthDate | Date | Date de naissance des clients au format YYYY-MM-DD |
Education | Texte | Niveau le plus élevé des diplômes des clients (Partial High School, High School, Partial College, Bachelors, Graduate Degree) |
Occupation | Texte | Type de travail occupé par les clients (Manual, Skilled Manual, Clerical, Management, Professional) |
Gender | Texte | Sexe des clients (M pour masculin, F pour féminin) |
MaritalStatus | Texte | Indicateur précisant si les clients sont mariés (M) ou célibataires (S) |
HomeOwnerFlag | Entier | Indicateur indiquant si les clients sont propriétaire (1) ou non (0) |
NumberCarsOwned | Entier | Nombre de voitures possédées par les clients |
NumberChildrenAtHome | Entier | Nombre d’enfants vivant chez au domicile des clients |
TotalChildren | Entier | Nombre total des enfants des clients |
YearlyIncome | Décimal | Revenus annuels des clients |
LastUpdated | Date | Date de la dernière mise à jour des enregistrements des clients |
AWSales.csv
Les données de vente des clients existants contiennent les colonnes suivantes :
Nom de la colonne | Type | Description |
CustomerID | Entier | Identifiant des clients |
BikeBuyer | Entier | Indicateur précisant si les clients ont acheté précédemment un vélo (1) ou non (0) |
AvgMonthSpend | Décimal | Montant que les clients ont dépensés en moyenne sur les derniers mois |
Ces deux fichiers sont disponibles ici. Ainsi, si vous voulez préparer la session, vous pouvez les télécharger et les examiner.
Déroulement de la session
Nous allons explorer et analyser les données des clients recueillies par la société Adventure Works Cycles pour tenter de déterminer toute relation apparente entre les caractéristiques démographiques sur les clients, la probabilité d’un client d’acheter un vélo et enfin une estimation des dépenses rapportées par mois.
Pour illustrer la fin de notre projet, nous allons utiliser des données démographiques de nouveaux clients dont nous ne savons rien sur leur volonté d’acheter un vélo ou de dépenser de l’argent.
Pour cela, nous disposons d’un fichier Excel dont le premier onglet de 50 lignes de données de nouveaux clients pour estimer leur volonté d’acheter un vélo et un second onglet de 25 lignes de données de nouveaux clients pour estimer les dépenses mensuelles.
Le fichier Excel est disponible ici.
Et n’oubliez pas : Pour ceux qui ne pourront pas y assister, vous pourrez la voir en replay mais à condition de s’inscrire ici.
Bien à vous
Une réponse à « Préparation de ma session aux 24 heures du PASS édition francophone 2017 »
[…] Les fichiers que j’ai utilisé dans ma démonstration sont disponibles ici et ici. Pour les explications, vous pouvez lire cet article. […]
J’aimeJ’aime