Le processus de data science se compose généralement de six étapes : définir le problème, collecter des données, traiter les données, explorer les données, modéliser les données, communiquer les résultats. Dans cet article nous allons les affronter un par un pour enfin se familiariser avec le processus de la science des données.
Lorsqu'il s'agit de réaliser un projet de science des données, la première chose à faire est de cadrer le problème ; cela signifie que vous devez préparer une charte de projet. Cette charte contient des informations telles que ce que vous allez rechercher, comment l'entreprise en bénéficie, quelles données et ressources vous avez besoin.
La deuxième étape consiste à collecter des données. vous aurez besoin de données pour vous donner les informations nécessaires pour résoudre le problème avec une solution. Cette partie du processus implique de réfléchir aux données dont vous aurez besoin et de trouver des moyens d'obtenir ces données, qu'il s'agisse d'interroger des bases de données internes ou d'acheter des ensembles de données externes. Les données peuvent prendre de nombreuses formes allant des feuilles de calcul Excel à différents types de bases de données
L'exploration de données vise à approfondir la compréhension de vos données. Vous essayez de comprendre comment les variables interagissent les unes avec les autres, la distribution des données et s'il existe des valeurs aberrantes. Pour y parvenir, vous utilisez principalement des statistiques descriptives, des techniques visuelles et une modélisation simple. Cette étape est souvent désignée par l'abréviation EDA, pour Exploratory Data Analysis.
Dans cette phase, vous utilisez des modèles, des connaissances du domaine et des informations sur les données que vous avez trouvées dans les étapes précédentes pour répondre à la question de recherche. Vous sélectionnez une technique dans les domaines des statistiques, de l'apprentissage automatique, de la recherche opérationnelle, etc. La construction d'un modèle est un processus itératif qui implique la sélection des variables du modèle, l'exécution du modèle et les diagnostics du modèle.
Enfin, vous présentez les résultats à votre entreprise. Ces résultats peuvent prendre plusieurs formes, allant de présentations à des rapports de recherche. Parfois, vous devrez automatiser l'exécution du processus, car l'entreprise voudra utiliser les informations que vous avez acquises dans un autre projet ou permettre à un processus opérationnel d'utiliser le résultat de votre modèle.