Préparation de ma session aux 24 heures du PASS édition francophone 2017

Cet article de mon blog complète mon précédent article comme promis. Avant le début de la session qui aura lieu le 29 juin à 12 heures (heure en française), je vous présente les éléments préparatoires. En effet, parce que nous nous consacrerons sur le fonctionnement d’Azure Machine Learning, je ne m’étendrai pas sur les données qui serviront d’illustration.

C’est pourquoi je préfère le faire ici. Et si vous êtes courageux, je vous laisse la possibilité de télécharger les fichiers pour les examiner en détail.

Donc, voici les informations qui serviront de départ de la session.

Le projet

La société Adventure Works Cycles a recueilli un volume important de données relatives à leurs clients actuels, y compris les caractéristiques démographiques et des informations sur les achats qu’ils ont fait.

La société s’intéresse particulièrement à l’analyse des données des clients pour déterminer toute relation apparente entre les caractéristiques démographiques connues et la probabilité d’un client d’acheter un vélo ou non.

De plus, l’analyse doit s’efforcer de déterminer si des dépenses moyennes mensuelles des clients, passées avec l’entreprise, peuvent être prévues à partir des caractéristiques connus sur les clients.

Les données connues

Les données se décomposent en deux fichiers.

AWCustomers.csv

Les données sur la démographie des clients contiennent les colonnes suivantes :

Nom de la colonne Type Description
CustomerID Entier Identifiant des clients
Title Texte Civilité (Mr, Mrs, Ms, Miss Dr, etc.)
FirstName Texte Prénom des clients
MiddleName Texte Nom du milieu des clients
LastName Texte Nom de famille des clients
Suffix Texte Suffixe de nom des clients (Jr, Sr, etc.)
AddressLine1 Texte Première ligne de l’adresse des clients.
AddressLine2 Texte Seconde ligne de l’adresse des clients.
City Texte Ville de l’adresse des clients
StateProvince Texte Etat de l’adresse des clients
CountryRegion Texte Pays de l’adresse des clients
PostalCode Texte Code postal de l’adresse des clients
PhoneNumber Texte Numéro de téléphone des clients
BirthDate Date Date de naissance des clients au format YYYY-MM-DD
Education Texte Niveau le plus élevé des diplômes des clients (Partial High School, High School, Partial College, Bachelors, Graduate Degree)
Occupation Texte Type de travail occupé par les clients (Manual, Skilled Manual, Clerical, Management, Professional)
Gender Texte Sexe des clients (M pour masculin, F pour féminin)
MaritalStatus Texte Indicateur précisant si les clients sont mariés (M) ou célibataires (S)
HomeOwnerFlag Entier Indicateur indiquant si les clients sont propriétaire (1) ou non (0)
NumberCarsOwned Entier Nombre de voitures possédées par les clients
NumberChildrenAtHome Entier Nombre d’enfants vivant chez au domicile des clients
TotalChildren Entier Nombre total des enfants des clients
YearlyIncome Décimal Revenus annuels des clients
LastUpdated Date Date de la dernière mise à jour des enregistrements des clients

AWSales.csv

Les données de vente des clients existants contiennent les colonnes suivantes :

Nom de la colonne Type Description
CustomerID Entier Identifiant des clients
BikeBuyer Entier Indicateur précisant si les clients ont acheté précédemment un vélo (1) ou non (0)
AvgMonthSpend Décimal Montant que les clients ont dépensés en moyenne sur les derniers mois

Ces deux fichiers sont disponibles ici. Ainsi, si vous voulez préparer la session, vous pouvez les télécharger et les examiner.

Déroulement de la session

Nous allons explorer et analyser les données des clients recueillies par la société Adventure Works Cycles pour tenter de déterminer toute relation apparente entre les caractéristiques démographiques sur les clients, la probabilité d’un client d’acheter un vélo et enfin une estimation des dépenses rapportées par mois.

Pour illustrer la fin de notre projet, nous allons utiliser des données démographiques de nouveaux clients dont nous ne savons rien sur leur volonté d’acheter un vélo ou de dépenser de l’argent.

Pour cela, nous disposons d’un fichier Excel dont le premier onglet de 50 lignes de données de nouveaux clients pour estimer leur volonté d’acheter un vélo et un second onglet de 25 lignes de données de nouveaux clients pour estimer les dépenses mensuelles.

Le fichier Excel est disponible ici.

Et n’oubliez pas : Pour ceux qui ne pourront pas y assister, vous pourrez la voir en replay mais à condition de s’inscrire ici.

Bien à vous

Publicités

N'hésitez pas à laisser un commentaire. Vous contribuerez à l'amélioration de ce blog :

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s