{"id":3416,"date":"2022-03-31T14:01:36","date_gmt":"2022-03-31T14:01:36","guid":{"rendered":"https:\/\/akyalab.com\/?p=3416"},"modified":"2022-04-01T16:44:38","modified_gmt":"2022-04-01T16:44:38","slug":"data-science-project-life-cycle","status":"publish","type":"post","link":"https:\/\/akyalab.com\/fr\/data-science-project-life-cycle\/","title":{"rendered":"Cycle de vie de la science des donn\u00e9es."},"content":{"rendered":"<div class=\"wp-block-image\"><figure class=\"aligncenter size-full\"><img decoding=\"async\" loading=\"lazy\" width=\"700\" height=\"393\" src=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/1-utq2Z3v9AZkV8-_MyStMIA.png\" alt=\"\" class=\"wp-image-3417\" srcset=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/1-utq2Z3v9AZkV8-_MyStMIA.png 700w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/1-utq2Z3v9AZkV8-_MyStMIA-300x168.png 300w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/1-utq2Z3v9AZkV8-_MyStMIA-18x10.png 18w\" sizes=\"(max-width: 700px) 100vw, 700px\" \/><\/figure><\/div>\n\n\n\n<p id=\"a720\">Tout projet commence par un \u00e9nonc\u00e9 de probl\u00e8me bien d\u00e9fini (comme pr\u00e9voir les ventes d'un article X pr\u00e9sent dans son inventaire dans le mois \u00e0 venir ou la cause du d\u00e9sabonnement des clients) ou un probl\u00e8me mal d\u00e9fini (comme comment augmenter les ventes d'un produit ).<\/p>\n\n\n\n<p id=\"08ab\">La science des donn\u00e9es nous permet de r\u00e9soudre ce probl\u00e8me commercial avec une s\u00e9rie d'\u00e9tapes bien d\u00e9finies. G\u00e9n\u00e9ralement, ce sont les \u00e9tapes que nous suivons le plus souvent pour r\u00e9soudre un probl\u00e8me commercial. Toutes les terminologies li\u00e9es \u00e0 la science des donn\u00e9es rel\u00e8vent de diff\u00e9rentes \u00e9tapes que nous allons comprendre dans un moment<\/p>\n\n\n\n<p id=\"aca2\"><strong>\u00c9tape 1<\/strong>: Compr\u00e9hension commerciale<\/p>\n\n\n\n<p id=\"4510\"><strong>\u00c9tape 2<\/strong>: La collecte de donn\u00e9es<\/p>\n\n\n\n<p id=\"5997\"><strong>\u00c9tape 3<\/strong>: Pr\u00e9-traitement des donn\u00e9es<\/p>\n\n\n\n<p id=\"da96\"><strong>\u00c9tape 4<\/strong>: Analyse des donn\u00e9es<\/p>\n\n\n\n<p id=\"d0c3\"><strong>\u00c9tape 5<\/strong> Mod\u00e9lisation des donn\u00e9es<\/p>\n\n\n\n<p id=\"006f\"><strong>\u00c9tape 6<\/strong>: \u00c9valuation du mod\u00e8le<\/p>\n\n\n\n<p id=\"ff27\"><strong>\u00c9tape 7<\/strong>: D\u00e9ploiement du mod\u00e8le<\/p>\n\n\n\n<p id=\"774a\"><strong>\u00c9tape 8<\/strong>: g\u00e9n\u00e9rer des informations et g\u00e9n\u00e9rer des rapports BI<\/p>\n\n\n\n<p id=\"b05f\"><strong>\u00c9tape 8<\/strong>: Prendre une d\u00e9cision bas\u00e9e sur des id\u00e9es<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" loading=\"lazy\" width=\"700\" height=\"301\" src=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-tw1reiugJwq8fOL-.jpg\" alt=\"\" class=\"wp-image-3418\" srcset=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-tw1reiugJwq8fOL-.jpg 700w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-tw1reiugJwq8fOL--300x129.jpg 300w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-tw1reiugJwq8fOL--18x8.jpg 18w\" sizes=\"(max-width: 700px) 100vw, 700px\" \/><\/figure>\n\n\n\n<p>Laissez-nous discuter de ces \u00e9tapes en d\u00e9tail:<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"0a46\"><strong>\u00c9tape 1: <strong>: Compr\u00e9hension commerciale<\/strong><\/strong><\/h3>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-full\"><img decoding=\"async\" loading=\"lazy\" width=\"700\" height=\"393\" src=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-lE7yIIxFCW9Erk-l.jpg\" alt=\"\" class=\"wp-image-3419\" srcset=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-lE7yIIxFCW9Erk-l.jpg 700w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-lE7yIIxFCW9Erk-l-300x168.jpg 300w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-lE7yIIxFCW9Erk-l-18x10.jpg 18w\" sizes=\"(max-width: 700px) 100vw, 700px\" \/><\/figure><\/div>\n\n\n\n<p id=\"d95f\">Le besoin m\u00e9tier est le point de d\u00e9part du cycle de vie. Il est donc important de comprendre l'\u00e9nonc\u00e9 du probl\u00e8me et de poser les bonnes questions au client, ce qui nous aide \u00e0 bien comprendre les donn\u00e9es et \u00e0 en tirer des informations significatives.<\/p>\n\n\n\n<p id=\"5627\">Nous avons toute la technologie pour nous faciliter la vie, mais avec ce changement \u00e9norme, le succ\u00e8s de tout projet d\u00e9pend de la qualit\u00e9 des questions pos\u00e9es pour l'ensemble de donn\u00e9es.<\/p>\n\n\n\n<p id=\"44e1\">Chaque domaine et chaque entreprise travaille avec un ensemble de r\u00e8gles et d'objectifs. Afin d'acqu\u00e9rir les donn\u00e9es correctes, nous devons \u00eatre en mesure de comprendre l'entreprise. Poser des questions sur l'ensemble de donn\u00e9es aidera \u00e0 le r\u00e9duire pour corriger l'acquisition de donn\u00e9es.<\/p>\n\n\n\n<p id=\"8fbf\">Nous utilisons g\u00e9n\u00e9ralement la science des donn\u00e9es pour r\u00e9pondre \u00e0 cinq types de questions :<\/p>\n\n\n\n<ol><li>Combien ou combien ? (r\u00e9gression)<\/li><li>Quelle cat\u00e9gorie ? (classification)<\/li><li>Quel groupe? (regroupement)<\/li><li>est-ce bizarre? (D\u00e9tection d'une anomalie)<\/li><li>Quelle option faut-il prendre ? (recommandation)<\/li><\/ol>\n\n\n\n<p id=\"b421\">\u00c0 ce stade. vous devez \u00e9galement identifier l'objectif central de votre projet en identifiant les variables qui doivent \u00eatre pr\u00e9dites.<\/p>\n\n\n\n<p id=\"6a38\">Quelques <em>bonnes<\/em> que d'autres entreprises prosp\u00e8res ont pos\u00e9es par le pass\u00e9 \u00e0 leurs \u00e9quipes de science des donn\u00e9es<\/p>\n\n\n\n<ul><li><strong>Uber<\/strong> \u2014 Quel pourcentage de temps les conducteurs conduisent-ils r\u00e9ellement ? Quelle est la stabilit\u00e9 de leurs revenus ?<\/li><li><strong>Oyo Hotels<\/strong> \u2014 Quelle est l'occupation moyenne des h\u00f4tels m\u00e9diocres ?<\/li><li><strong>Alibaba<\/strong> \u2014 Quels sont les profits au pied carr\u00e9 de nos entrep\u00f4ts ?<\/li><\/ul>\n\n\n\n<p id=\"e48b\">Toutes ces questions sont une premi\u00e8re \u00e9tape n\u00e9cessaire avant de pouvoir se lancer dans un voyage en science des donn\u00e9es. Apr\u00e8s avoir pos\u00e9 la bonne question, nous passons \u00e0 la collecte de donn\u00e9es<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"0a46\"><strong>\u00c9tape 2 : Collecte des donn\u00e9es<\/strong><\/h3>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-full\"><img decoding=\"async\" loading=\"lazy\" width=\"700\" height=\"545\" src=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-nTBHmQdWbLQFh7Rv.png\" alt=\"\" class=\"wp-image-3420\" srcset=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-nTBHmQdWbLQFh7Rv.png 700w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-nTBHmQdWbLQFh7Rv-300x234.png 300w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-nTBHmQdWbLQFh7Rv-15x12.png 15w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-nTBHmQdWbLQFh7Rv-553x432.png 553w\" sizes=\"(max-width: 700px) 100vw, 700px\" \/><\/figure><\/div>\n\n\n\n<p id=\"5ba4\">La premi\u00e8re \u00e9tape du cycle de vie des projets de science des donn\u00e9es consiste d'abord \u00e0 identifier la personne qui sait quelles donn\u00e9es acqu\u00e9rir et quand acqu\u00e9rir en fonction de la question \u00e0 laquelle il faut r\u00e9pondre. La personne ne doit pas n\u00e9cessairement \u00eatre un scientifique des donn\u00e9es, mais toute personne connaissant la vraie diff\u00e9rence entre les diff\u00e9rents ensembles de donn\u00e9es disponibles et prenant des d\u00e9cisions difficiles concernant la strat\u00e9gie d'investissement dans les donn\u00e9es d'une organisation sera la bonne personne pour le poste.<\/p>\n\n\n\n<p id=\"ce26\">Il peut \u00eatre n\u00e9cessaire de collecter des donn\u00e9es \u00e0 partir de plusieurs types de sources de donn\u00e9es.<\/p>\n\n\n\n<p id=\"ff97\">Quelques exemples de source de donn\u00e9es.<\/p>\n\n\n\n<ul><li>Format de fichier Donn\u00e9es (feuille de calcul, CSV, fichiers texte, XML, jSON)<\/li><li>Base de donn\u00e9es relationnelle<\/li><li>Base de donn\u00e9es non relationnelle (NoSQL)<\/li><li>Scraping des donn\u00e9es du site Web \u00e0 l'aide d'outils<\/li><\/ul>\n\n\n\n<p id=\"838f\">Notre premi\u00e8re terminologie, <strong>BIG DATA<\/strong>, convient ici. Les m\u00e9gadonn\u00e9es ne sont rien d'autre que des donn\u00e9es trop volumineuses\/complexes \u00e0 g\u00e9rer. Les m\u00e9gadonn\u00e9es ne signifient pas n\u00e9cessairement des donn\u00e9es importantes en science. Les donn\u00e9es volumineuses sont caract\u00e9ris\u00e9es par 4 propri\u00e9t\u00e9s diff\u00e9rentes et si vos donn\u00e9es pr\u00e9sentent cette propri\u00e9t\u00e9, elles sont alors qualifi\u00e9es d'\u00eatre appel\u00e9es donn\u00e9es volumineuses. Ces propri\u00e9t\u00e9s sont d\u00e9finies par 4 V.<br>\u2013 <strong>Volume<\/strong>: Donn\u00e9es en t\u00e9raoctets<\/p>\n\n\n\n<p id=\"d374\">\u2013 <strong>Rapidit\u00e9<\/strong>: Streaming data with high throughput<\/p>\n\n\n\n<p id=\"aea6\">\u2013 <strong>Variety:<\/strong> Structur\u00e9, semi-structur\u00e9 et non structur\u00e9<\/p>\n\n\n\n<p id=\"c22a\">\u2013 <strong>V\u00e9racit\u00e9<\/strong> la qualit\u00e9 des donn\u00e9es analys\u00e9es<\/p>\n\n\n\n<p id=\"1708\">Dans un commerce de d\u00e9tail, de nombreuses transactions sont effectu\u00e9es chaque seconde par de nombreux clients, de nombreuses donn\u00e9es sont conserv\u00e9es dans un format structur\u00e9 ou non structur\u00e9 concernant les clients, les employ\u00e9s, les magasins, les ventes, etc. Toutes ces donn\u00e9es rassembl\u00e9es sont trop complexes \u00e0 traiter ou \u00e0 traiter. m\u00eame comprendre. Les technologies Big Data comme Hadoop, Spark, Kafka simplifient notre travail ici.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\"><strong>\u00c9tape 3 : Nettoyer les donn\u00e9es<\/strong><\/h3>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-full\"><img decoding=\"async\" loading=\"lazy\" width=\"700\" height=\"466\" src=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-AiKbKtb0BMGLMHY3.png\" alt=\"\" class=\"wp-image-3421\" srcset=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-AiKbKtb0BMGLMHY3.png 700w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-AiKbKtb0BMGLMHY3-300x200.png 300w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-AiKbKtb0BMGLMHY3-18x12.png 18w\" sizes=\"(max-width: 700px) 100vw, 700px\" \/><\/figure><\/div>\n\n\n\n<p id=\"0402\">Souvent appel\u00e9e \u00e9galement la phase de lutte contre les donn\u00e9es. Les scientifiques des donn\u00e9es se plaignent souvent qu'il s'agit de la t\u00e2che la plus ennuyeuse et la plus chronophage impliquant l'identification de divers probl\u00e8mes de qualit\u00e9 des donn\u00e9es.<\/p>\n\n\n\n<p id=\"470b\">Dans cette \u00e9tape, nous <strong>comprendre <\/strong>plus sur les donn\u00e9es et <strong>pr\u00e9parez-le <\/strong>pour une analyse plus approfondie. La section compr\u00e9hension des donn\u00e9es de la m\u00e9thodologie de la science des donn\u00e9es r\u00e9pond \u00e0 la question : les donn\u00e9es que vous avez collect\u00e9es sont-elles repr\u00e9sentatives du probl\u00e8me \u00e0 r\u00e9soudre ?<\/p>\n\n\n\n<p id=\"c6a3\">C'est une t\u00e2che que vous finirez toujours par faire. Nettoyer les donn\u00e9es signifie essentiellement supprimer les \u00e9carts de vos donn\u00e9es tels que les champs manquants, les valeurs incorrectes, d\u00e9finir le bon format des donn\u00e9es, structurer les donn\u00e9es \u00e0 partir de fichiers bruts, etc.<\/p>\n\n\n\n<p id=\"92d2\">Formatez les donn\u00e9es dans la structure souhait\u00e9e, supprimez les colonnes et les fonctionnalit\u00e9s ind\u00e9sirables. La pr\u00e9paration des donn\u00e9es est l'\u00e9tape la plus chronophage, mais sans doute la plus importante de tout le cycle de vie. Votre mod\u00e8le sera aussi bon que vos donn\u00e9es. Ceci est similaire au lavage des l\u00e9gumes pour \u00e9liminer les produits chimiques de surface. Collecte de donn\u00e9es, compr\u00e9hension des donn\u00e9es et pr\u00e9paration des donn\u00e9es <a href=\"https:\/\/courses.cognitiveclass.ai\/courses\/course-v1:CognitiveClass+DS0103EN+v3\/courseware\/bd64ccdf56ad4ea1afe870e26d583038\/d0cea537238c47a0ac4835e1463a3c7d\/\" rel=\"noreferrer noopener\" target=\"_blank\"><em>prendre jusqu'\u00e0 70% \u2014 90%<\/em><\/a><em> <\/em>du temps global du projet.<\/p>\n\n\n\n<p id=\"90a0\">C'est \u00e9galement le point o\u00f9 si vous pensez que les donn\u00e9es ne sont pas appropri\u00e9es ou suffisantes pour que vous puissiez continuer, vous revenez \u00e0 l'\u00e9tape de collecte de donn\u00e9es.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"b80c\"><strong>\u00c9tape 4 : Analyse des donn\u00e9es<\/strong><\/h3>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-full\"><img decoding=\"async\" loading=\"lazy\" width=\"700\" height=\"516\" src=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-PcjoEo8yHVqefDR0.png\" alt=\"\" class=\"wp-image-3422\" srcset=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-PcjoEo8yHVqefDR0.png 700w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-PcjoEo8yHVqefDR0-300x221.png 300w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-PcjoEo8yHVqefDR0-16x12.png 16w\" sizes=\"(max-width: 700px) 100vw, 700px\" \/><\/figure><\/div>\n\n\n\n<p id=\"9dc7\"><strong>EXPLOREZ\u2026 EXPLOREZ\u2026 EXPLOREZ<\/strong><\/p>\n\n\n\n<p id=\"b988\">L'analyse exploratoire est souvent d\u00e9crite comme une philosophie, et il n'y a pas de r\u00e8gles fixes sur la fa\u00e7on de l'aborder. Il n'y a pas de raccourcis pour l'exploration des donn\u00e9es.<\/p>\n\n\n\n<p id=\"1382\">N'oubliez pas que la qualit\u00e9 de vos entr\u00e9es d\u00e9termine la qualit\u00e9 de votre sortie. Par cons\u00e9quent, une fois que vous avez pr\u00e9par\u00e9 votre hypoth\u00e8se commerciale, il est logique d'y consacrer beaucoup de temps et d'efforts.<\/p>\n\n\n\n<p id=\"7c58\">Pour <strong>comprendre les donn\u00e9es <\/strong>,<strong> <\/strong>beaucoup de gens regardent les statistiques de donn\u00e9es comme la moyenne, la m\u00e9diane, etc. Les gens tracent \u00e9galement les donn\u00e9es et regardent leur distribution \u00e0 travers des graphiques comme l'histogramme, l'analyse du spectre, la distribution de la population, etc.<strong><em>.<\/em><\/strong><\/p>\n\n\n\n<p id=\"83ef\">Maintenant, nous cr\u00e9ons un plan pour faire des analyses sur les donn\u00e9es. Il peut y avoir diff\u00e9rents types d' <strong>analyse de donn\u00e9es<\/strong> qui peuvent \u00eatre effectu\u00e9es sur les donn\u00e9es en fonction du probl\u00e8me \u00e0 r\u00e9soudre. Diff\u00e9rents types d'analyses peuvent inclure comme ci-dessous :<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"9b4f\">\ud83d\udca1 Analyse descriptive (que s'est-il pass\u00e9 dans le pass\u00e9 ?)<\/h3>\n\n\n\n<p id=\"1bd6\">Nous pouvons utiliser des outils de m\u00e9thodes d'agr\u00e9gation de donn\u00e9es pour fournir des informations sur ce qui s'est pass\u00e9 dans le pass\u00e9.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"0b99\">\ud83d\udca1 Analyse pr\u00e9dictive (que pourrait-il se passer dans le futur ?)<\/h3>\n\n\n\n<p id=\"4f22\">Nous pouvons utiliser des m\u00e9thodes statistiques et d'autres techniques de pr\u00e9vision, notamment l'exploration de donn\u00e9es et l'apprentissage automatique, pour comprendre et estimer ce qui pourrait se passer dans le futur.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"f4fb\">\ud83d\udca1 Analyse prescriptive (que faire ?)<\/h3>\n\n\n\n<p id=\"0541\">Nous pouvons utiliser des m\u00e9thodes d'optimisation et de simulation pour prendre la d\u00e9cision et d\u00e9crire les r\u00e9sultats possibles pour l'analyse de simulation et si-quoi<\/p>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-full\"><img decoding=\"async\" loading=\"lazy\" width=\"539\" height=\"349\" src=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-d5DQ0qwoUnFNDKCs.png\" alt=\"\" class=\"wp-image-3423\" srcset=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-d5DQ0qwoUnFNDKCs.png 539w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-d5DQ0qwoUnFNDKCs-300x194.png 300w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-d5DQ0qwoUnFNDKCs-18x12.png 18w\" sizes=\"(max-width: 539px) 100vw, 539px\" \/><\/figure><\/div>\n\n\n\n<p id=\"99ba\">Cette \u00e9tape du cycle de vie du projet de science des donn\u00e9es ne produit aucune information significative. Cependant, gr\u00e2ce au nettoyage r\u00e9gulier des donn\u00e9es, les data scientists peuvent facilement identifier les faiblesses du processus d'acquisition de donn\u00e9es, les hypoth\u00e8ses qu'ils doivent faire et les mod\u00e8les qu'ils peuvent appliquer pour produire des r\u00e9sultats d'analyse.<\/p>\n\n\n\n<p id=\"66b4\">Donc, nous d\u00e9terminons d'abord quel type d'analyse nous avons l'intention d'effectuer. Cela fait partie de l'analyse des donn\u00e9es. Apr\u00e8s avoir obtenu des donn\u00e9es structur\u00e9es \u00e0 partir des op\u00e9rations de nettoyage (ce qui est g\u00e9n\u00e9ralement le cas), nous effectuons l'op\u00e9ration d'exploration de donn\u00e9es afin d'identifier et de d\u00e9couvrir des mod\u00e8les et des informations cach\u00e9s dans un grand ensemble de donn\u00e9es. Ceci est connu comme <strong>exploration de donn\u00e9es<\/strong>.<\/p>\n\n\n\n<p id=\"b96c\">Par exemple, identifier la saisonnalit\u00e9 des ventes. L'analyse des donn\u00e9es est l'approche la plus holistique, mais l'exploration de donn\u00e9es a tendance \u00e0 trouver les mod\u00e8les cach\u00e9s uniquement dans les donn\u00e9es. Ces mod\u00e8les d\u00e9couverts sont aliment\u00e9s par des approches d'analyse de donn\u00e9es adopt\u00e9es pour g\u00e9n\u00e9rer des hypoth\u00e8ses et trouver des informations.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"0c34\"><strong>\u00c9tape 5 : Mod\u00e9lisation des donn\u00e9es\/Mod\u00e9lisation de l'apprentissage automatique<\/strong><\/h3>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-full\"><img decoding=\"async\" loading=\"lazy\" width=\"640\" height=\"640\" src=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-lYrHOziBR-jcSR_7.jpg\" alt=\"\" class=\"wp-image-3424\" srcset=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-lYrHOziBR-jcSR_7.jpg 640w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-lYrHOziBR-jcSR_7-300x300.jpg 300w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-lYrHOziBR-jcSR_7-150x150.jpg 150w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-lYrHOziBR-jcSR_7-12x12.jpg 12w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-lYrHOziBR-jcSR_7-140x140.jpg 140w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-lYrHOziBR-jcSR_7-80x80.jpg 80w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-lYrHOziBR-jcSR_7-105x105.jpg 105w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-lYrHOziBR-jcSR_7-85x85.jpg 85w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-lYrHOziBR-jcSR_7-160x161.jpg 160w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-lYrHOziBR-jcSR_7-70x70.jpg 70w\" sizes=\"(max-width: 640px) 100vw, 640px\" \/><\/figure><\/div>\n\n\n\n<p id=\"6491\">Cette \u00e9tape semble \u00eatre la plus int\u00e9ressante pour presque tous les data scientists. Beaucoup de gens l'appellent \"une sc\u00e8ne o\u00f9 la magie op\u00e8re\". Mais rappelez-vous que la magie ne peut se produire que si vous avez les bons accessoires et la bonne technique. En termes de science des donn\u00e9es, \"<em>Donn\u00e9es\" <\/em>est cet accessoire, et la pr\u00e9paration des donn\u00e9es est cette technique. Donc, avant de passer \u00e0 cette \u00e9tape, assurez-vous de passer suffisamment de temps dans les \u00e9tapes pr\u00e9c\u00e9dentes.<\/p>\n\n\n\n<p id=\"ec44\">La mod\u00e9lisation est utilis\u00e9e pour trouver des mod\u00e8les ou des comportements dans les donn\u00e9es. Ces mod\u00e8les nous aident de deux mani\u00e8res :<\/p>\n\n\n\n<ol><li><strong>mod\u00e9lisation descriptive (apprentissage non supervis\u00e9) \u2014 <\/strong>Syst\u00e8mes de recommandation qui sont si une personne a aim\u00e9 le film Matrix, elle aimerait aussi le film Inception ou<\/li><li><strong>mod\u00e9lisation pr\u00e9dictive (apprentissage supervis\u00e9) \u2014 <\/strong>Cela implique d'obtenir une pr\u00e9diction sur les tendances futures, par ex. r\u00e9gression lin\u00e9aire o\u00f9 nous pourrions vouloir pr\u00e9dire les valeurs boursi\u00e8res<\/li><\/ol>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-full\"><img decoding=\"async\" loading=\"lazy\" width=\"700\" height=\"386\" src=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-9LMUKhhkxxR3MHzs.png\" alt=\"\" class=\"wp-image-3425\" srcset=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-9LMUKhhkxxR3MHzs.png 700w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-9LMUKhhkxxR3MHzs-300x165.png 300w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-9LMUKhhkxxR3MHzs-18x10.png 18w\" sizes=\"(max-width: 700px) 100vw, 700px\" \/><\/figure><\/div>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-full\"><img decoding=\"async\" loading=\"lazy\" width=\"425\" height=\"268\" src=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-u1pXuGnL_O7pE3Ss.png\" alt=\"\" class=\"wp-image-3426\" srcset=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-u1pXuGnL_O7pE3Ss.png 425w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-u1pXuGnL_O7pE3Ss-300x189.png 300w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-u1pXuGnL_O7pE3Ss-18x12.png 18w\" sizes=\"(max-width: 425px) 100vw, 425px\" \/><\/figure><\/div>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"7c17\"><strong>Enseignement supervis\u00e9:<\/strong><\/h3>\n\n\n\n<p id=\"d38a\">L'apprentissage supervis\u00e9 est une technique dans laquelle nous enseignons ou formons la machine \u00e0 l'aide de donn\u00e9es bien \u00e9tiquet\u00e9es.<\/p>\n\n\n\n<p id=\"115e\">Pour comprendre l'apprentissage supervis\u00e9, consid\u00e9rons une analogie. En tant qu'enfants, nous avions tous besoin de conseils pour r\u00e9soudre des probl\u00e8mes de math\u00e9matiques. Nos professeurs nous ont aid\u00e9s \u00e0 comprendre ce qu'est la d\u00e9pendance et comment cela se produit. De m\u00eame, vous pouvez consid\u00e9rer l'apprentissage supervis\u00e9 comme un type d'apprentissage automatique qui implique un guide. L'ensemble de donn\u00e9es \u00e9tiquet\u00e9 est l'enseignant qui vous apprendra \u00e0 comprendre les mod\u00e8les dans les donn\u00e9es. L'ensemble de donn\u00e9es \u00e9tiquet\u00e9 n'est rien d'autre que l'ensemble de donn\u00e9es d'apprentissage.<\/p>\n\n\n\n<p id=\"f200\">La photo ci-dessous montre l'apprentissage supervis\u00e9. Ce faisant, vous formez la machine en utilisant des donn\u00e9es \u00e9tiquet\u00e9es. Dans l'apprentissage supervis\u00e9, il y a une phase de formation bien d\u00e9finie effectu\u00e9e \u00e0 l'aide de donn\u00e9es \u00e9tiquet\u00e9es.<\/p>\n\n\n\n<p id=\"3286\">Quelques exemples d'algorithmes supervis\u00e9s :<\/p>\n\n\n\n<ol><li>Bayes na\u00eff<\/li><li>For\u00eat al\u00e9atoire<\/li><li>Algorithmes de r\u00e9seau de neurones<\/li><li>k-Voisin le plus proche (kNN)<\/li><li>R\u00e9gression lin\u00e9aire<\/li><li>R\u00e9gression logistique<\/li><li>Machines vectorielles de soutien (SVM)<\/li><li>Arbres de d\u00e9cision<\/li><li>Booster<\/li><li>Ensachage<\/li><\/ol>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"b087\"><strong>Apprentissage non supervis\u00e9 :<\/strong><\/h3>\n\n\n\n<p id=\"03d2\">L'apprentissage non supervis\u00e9 implique une formation en utilisant des donn\u00e9es non \u00e9tiquet\u00e9es et en permettant au mod\u00e8le d'agir sur ces informations sans aucune aide. Consid\u00e9rez l'apprentissage non supervis\u00e9 comme un enfant intelligent qui apprend sans aucune orientation.<\/p>\n\n\n\n<p id=\"40c2\">Quelques exemples d'algorithmes non supervis\u00e9s :<\/p>\n\n\n\n<ol><li>APC<\/li><li>Kmoyennes\/Kmoyennes++<\/li><li>Classification hi\u00e9rarchique<\/li><li>DBSCAN<\/li><li>Analyse du panier de consommation<\/li><\/ol>\n\n\n\n<p id=\"c2e6\">Vous trouverez ci-dessous certaines des pratiques standard impliqu\u00e9es pour comprendre, nettoyer et pr\u00e9parer vos donn\u00e9es pour la construction de votre mod\u00e8le pr\u00e9dictif :<\/p>\n\n\n\n<ol><li>Identification des variables<\/li><li>Analyse univari\u00e9e<\/li><li>Analyse bivari\u00e9e<\/li><li>Traitement des valeurs manquantes<\/li><li>Traitement des valeurs aberrantes<\/li><li>Transformation variable<\/li><li>Cr\u00e9ation de variables<\/li><\/ol>\n\n\n\n<p id=\"3cc4\">Enfin, nous devrons r\u00e9p\u00e9ter plusieurs fois les \u00e9tapes 4 \u00e0 7 avant de proposer notre mod\u00e8le raffin\u00e9.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"854b\"><strong>\u00c9tape 6 :<\/strong> <strong>: \u00c9valuation du mod\u00e8le<\/strong><\/h3>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-full\"><img decoding=\"async\" loading=\"lazy\" width=\"700\" height=\"393\" src=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-kAKDuLNGei_LdNv2.jpg\" alt=\"\" class=\"wp-image-3427\" srcset=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-kAKDuLNGei_LdNv2.jpg 700w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-kAKDuLNGei_LdNv2-300x168.jpg 300w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-kAKDuLNGei_LdNv2-18x10.jpg 18w\" sizes=\"(max-width: 700px) 100vw, 700px\" \/><\/figure><\/div>\n\n\n\n<p id=\"48c0\">Une question courante que les professionnels se posent souvent lors de l'\u00e9valuation des performances d'un mod\u00e8le d'apprentissage automatique dans lequel l'ensemble de donn\u00e9es qu'ils doivent utiliser pour mesurer les performances du mod\u00e8le d'apprentissage automatique. L'examen des m\u00e9triques de performance sur l'ensemble de donn\u00e9es form\u00e9 est utile mais n'est pas toujours correct car les chiffres obtenus peuvent \u00eatre trop optimistes car le mod\u00e8le est d\u00e9j\u00e0 adapt\u00e9 \u00e0 l'ensemble de donn\u00e9es de formation. Les performances des mod\u00e8les d'apprentissage automatique doivent \u00eatre mesur\u00e9es et compar\u00e9es \u00e0 l'aide d'ensembles de validation et de test pour identifier le meilleur mod\u00e8le en fonction de la pr\u00e9cision et du sur-ajustement du mod\u00e8le.<\/p>\n\n\n\n<p id=\"1343\">Sur la base des mod\u00e8les de probl\u00e8mes commerciaux pourraient \u00eatre s\u00e9lectionn\u00e9s. Il est essentiel d'identifier quelle est la t\u00e2che, s'agit-il d'un probl\u00e8me de classification, de r\u00e9gression ou de pr\u00e9diction, de pr\u00e9vision de s\u00e9ries chronologiques ou d'un probl\u00e8me de regroupement. Une fois le type de probl\u00e8me r\u00e9solu, le mod\u00e8le peut \u00eatre mis en \u0153uvre.<\/p>\n\n\n\n<p id=\"691d\">Quelques exemples de <strong>M\u00e9triques de classification<\/strong>:<\/p>\n\n\n\n<ol><li>Pr\u00e9cision de la classification<\/li><li>Matrice de confusion<\/li><li>Perte logarithmique (perte de journal)<\/li><li>Aire sous la courbe (AUC)<\/li><li>Mesure F (Score F1)<\/li><li>Pr\u00e9cision<\/li><li>Rappeler<\/li><\/ol>\n\n\n\n<p id=\"9d2f\">Quelques exemples de <strong>M\u00e9triques de r\u00e9gression<\/strong>:<\/p>\n\n\n\n<ol><li>Erreur absolue moyenne (ou MAE)<\/li><li>Erreur quadratique moyenne (MSE)<\/li><li>Erreur quadratique moyenne (RMSE)<\/li><li>MAPE<\/li><\/ol>\n\n\n\n<p id=\"fab1\">Le mod\u00e8le doit \u00eatre robuste et non sur-ajust\u00e9. S'il s'agit d'un mod\u00e8le sur-ajust\u00e9, les pr\u00e9dictions pour les donn\u00e9es futures ne seront pas exactes.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"13bf\"><strong>\u00c9tape 7 : g\u00e9n\u00e9rer des informations et des rapports de BI<\/strong><\/h3>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-full\"><img decoding=\"async\" loading=\"lazy\" width=\"700\" height=\"409\" src=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-j1QtywzXzZKbWM-I.png\" alt=\"\" class=\"wp-image-3428\" srcset=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-j1QtywzXzZKbWM-I.png 700w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-j1QtywzXzZKbWM-I-300x175.png 300w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-j1QtywzXzZKbWM-I-18x12.png 18w\" sizes=\"(max-width: 700px) 100vw, 700px\" \/><\/figure><\/div>\n\n\n\n<p id=\"ec82\">Dans ce processus, les seules comp\u00e9tences techniques ne suffisent pas. Une comp\u00e9tence essentielle dont vous avez besoin est d'\u00eatre capable de raconter une histoire claire et exploitable. Si votre pr\u00e9sentation ne d\u00e9clenche pas d'actions chez votre auditoire, cela signifie que votre communication n'a pas \u00e9t\u00e9 efficace. Il devrait \u00eatre en ligne avec les questions d'affaires. Il doit \u00eatre significatif pour l'organisation et les parties prenantes. La pr\u00e9sentation par visualisation doit \u00eatre telle qu'elle d\u00e9clenche l'action du public. N'oubliez pas que vous pr\u00e9senterez \u00e0 un public sans connaissances techniques, donc la fa\u00e7on dont vous communiquez le message est essentielle.<\/p>\n\n\n\n<p id=\"11af\">Quelques outils utilis\u00e9s \u00e0 des fins Viz :<\/p>\n\n\n\n<ul><li>Tableau<\/li><li>Power BI<\/li><li>R \u2014 ggplot2, lattice<\/li><li>Kibana<\/li><li>Grafana<\/li><li>Spotfire<\/li><li>Python \u2014 Matpoltlib, Seaborn, Plotly.<\/li><\/ul>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-full\"><img decoding=\"async\" loading=\"lazy\" width=\"672\" height=\"355\" src=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-o3Gz0dVfZoqAI2yz.png\" alt=\"\" class=\"wp-image-3429\" srcset=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-o3Gz0dVfZoqAI2yz.png 672w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-o3Gz0dVfZoqAI2yz-300x158.png 300w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-o3Gz0dVfZoqAI2yz-18x10.png 18w\" sizes=\"(max-width: 672px) 100vw, 672px\" \/><\/figure><\/div>\n\n\n\n<h3 class=\"wp-block-heading\"><strong>\u00c9tape 8 : D\u00e9ploiement du mod\u00e8le<\/strong><\/h3>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-full\"><img decoding=\"async\" loading=\"lazy\" width=\"700\" height=\"525\" src=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-T6AvNxbJPaZYBZiX.png\" alt=\"\" class=\"wp-image-3430\" srcset=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-T6AvNxbJPaZYBZiX.png 700w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-T6AvNxbJPaZYBZiX-300x225.png 300w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-T6AvNxbJPaZYBZiX-16x12.png 16w\" sizes=\"(max-width: 700px) 100vw, 700px\" \/><\/figure><\/div>\n\n\n\n<p id=\"30f3\">Apr\u00e8s avoir cr\u00e9\u00e9 des mod\u00e8les, il est d'abord d\u00e9ploy\u00e9 dans un environnement de pr\u00e9-production ou de test avant de les d\u00e9ployer r\u00e9ellement en production.<\/p>\n\n\n\n<p id=\"36fe\">Whatever the shape or form in which your data model is deployed it must be exposed to the real world. Once real humans use it, you are bound to get feedback. Capturing this feedback translates directly to life and death for any project.<\/p>\n\n\n\n<p id=\"214b\">Quelques frameworks utilis\u00e9s pour le d\u00e9ploiement du mod\u00e8le :<\/p>\n\n\n\n<ol><li>Flask<\/li><li>Django<\/li><li>FastAPI<\/li><\/ol>\n\n\n\n<p id=\"9fa3\">Les fournisseurs de cloud populaires et largement utilis\u00e9s sont,<\/p>\n\n\n\n<ol><li>AWS<\/li><li>Azure<\/li><li>Google Cloud<\/li><\/ol>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"6ee9\"><strong>\u00c9tape 9 : Prendre des mesures<\/strong><\/h3>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-full\"><img decoding=\"async\" loading=\"lazy\" width=\"700\" height=\"382\" src=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-5sxuNkLZcDaw53HW.png\" alt=\"\" class=\"wp-image-3431\" srcset=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-5sxuNkLZcDaw53HW.png 700w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-5sxuNkLZcDaw53HW-300x164.png 300w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-5sxuNkLZcDaw53HW-18x10.png 18w\" sizes=\"(max-width: 700px) 100vw, 700px\" \/><\/figure><\/div>\n\n\n\n<p id=\"783f\">Les informations exploitables du mod\u00e8le montrent comment la science des donn\u00e9es a le pouvoir de faire des analyses pr\u00e9dictives et des analyses prescriptives. Cela nous donne le pouvoir d'apprendre \u00e0 r\u00e9p\u00e9ter des r\u00e9sultats positifs ou \u00e0 pr\u00e9venir des r\u00e9sultats n\u00e9gatifs.<\/p>\n\n\n\n<p id=\"24d3\">Sur la base de toutes les informations que nous avons recueillies gr\u00e2ce \u00e0 l'observation des donn\u00e9es ou au r\u00e9sultat du mod\u00e8le d'apprentissage automatique, nous entrons dans un \u00e9tat o\u00f9 nous pouvons prendre des d\u00e9cisions concernant tout probl\u00e8me commercial \u00e0 r\u00e9soudre.<\/p>\n\n\n\n<p id=\"752c\">Quelques exemples sont :<\/p>\n\n\n\n<ol><li>Quelle quantit\u00e9 de stock de l'article X devons-nous avoir en inventaire ? Quelle remise faut-il accorder \u00e0 l'article X pour augmenter ses ventes et maintenir le compromis entre remise et profit ?<\/li><li>Quelle est l'attrition pr\u00e9vue et que peut-on faire pour \u00e9viter la m\u00eame chose ?<\/li><\/ol>\n\n\n\n<p id=\"7652\">Chaque \u00e9tape a sa propre importance et passera par plusieurs it\u00e9rations dans les deux sens. Plusieurs personnes de diff\u00e9rentes piles techniques travailleront en coordination pour r\u00e9aliser un livrable r\u00e9ussi.<\/p>\n\n\n\n<p id=\"94d2\">Par cons\u00e9quent, enfin et surtout, la communication avec plusieurs \u00e9quipes est indispensable pour une r\u00e9alisation plus fluide du projet.<\/p>\n\n\n\n<p id=\"5551\"><\/p>","protected":false},"excerpt":{"rendered":"<p>Tout projet commence par un \u00e9nonc\u00e9 de probl\u00e8me bien d\u00e9fini (comme pr\u00e9voir les ventes d'un article X pr\u00e9sent dans son inventaire dans le mois \u00e0 venir ou la cause du d\u00e9sabonnement des clients) ou un probl\u00e8me mal d\u00e9fini (comme comment augmenter les ventes d'un produit ). La science des donn\u00e9es nous permet de r\u00e9soudre ce probl\u00e8me commercial avec une s\u00e9rie [\u2026]<\/p>","protected":false},"author":3,"featured_media":3417,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0},"categories":[91],"tags":[],"_links":{"self":[{"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/posts\/3416"}],"collection":[{"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/comments?post=3416"}],"version-history":[{"count":4,"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/posts\/3416\/revisions"}],"predecessor-version":[{"id":3437,"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/posts\/3416\/revisions\/3437"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/media\/3417"}],"wp:attachment":[{"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/media?parent=3416"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/categories?post=3416"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/tags?post=3416"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}