{"id":3337,"date":"2022-03-22T06:02:54","date_gmt":"2022-03-22T06:02:54","guid":{"rendered":"https:\/\/akyalab.com\/?p=3337"},"modified":"2022-03-24T17:14:50","modified_gmt":"2022-03-24T17:14:50","slug":"understand-everything-about-etl-in-data-engineering-extract-transform-load","status":"publish","type":"post","link":"https:\/\/akyalab.com\/fr\/understand-everything-about-etl-in-data-engineering-extract-transform-load\/","title":{"rendered":"Tout comprendre sur ETL dans l'ing\u00e9nierie des donn\u00e9es"},"content":{"rendered":"<h2 class=\"wp-block-heading\">Introduction<\/h2>\n\n\n\n<p>Vous \u00eates-vous d\u00e9j\u00e0 demand\u00e9 comment votre organisation obtient toutes les informations sur les employ\u00e9s, les salaires et les d\u00e9tails des projets sur un magnifique tableau de bord ? Vous vous demandez comment un Chef obtient toutes ses notes, ses avis consolid\u00e9s en une seule note ? Vous demandez-vous comment vous obtiendrez une cote de cr\u00e9dit bas\u00e9e sur tous vos ant\u00e9c\u00e9dents de cr\u00e9dit r\u00e9unis ?<\/p>\n\n\n\n<p>Bien s\u00fbr, une fusion des math\u00e9matiques, de l'importance commerciale, de la science et des d\u00e9cisions, etc. fournit ces r\u00e9sultats. Mais, l'aspect le plus important pour en arriver l\u00e0 est <strong>DATA<\/strong>. Without data, there would be no valid information.<\/p>\n\n\n\n<p>Nous avons \u00e9videmment entendu plusieurs blogs nous dire que 50% des donn\u00e9es mondiales sont collect\u00e9es au cours des deux ou trois derni\u00e8res ann\u00e9es. Les donn\u00e9es ne manquent donc pas. Mais, est-ce qu'il suffit d'avoir des donn\u00e9es ? Les donn\u00e9es dans leur forme originale sont-elles utiles telles quelles ? Le dumping de toutes les donn\u00e9es en un seul endroit est-il suffisant pour nous aider dans nos d\u00e9cisions commerciales ou nos tendances ? Et bien non!<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"84ce\">Qu'est-ce qu'ETL et comment \u00e7a marche ?<\/h3>\n\n\n\n<p id=\"979b\">Les donn\u00e9es doivent subir un processus avant d'\u00eatre consid\u00e9r\u00e9es comme utilisables. Par exemple, Or !! Certes, on ne peut pas porter des roches dor\u00e9es telles quelles. Nous devrons<\/p>\n\n\n\n<ul><li><strong>Extraire <\/strong>les particules d'or des roches. Cela peut provenir d'une mine ou d'une rivi\u00e8re, sous n'importe quelle forme.<\/li><li>L'or extrait est fondu, les impuret\u00e9s sont \u00e9limin\u00e9es, il est fabriqu\u00e9 selon un format standard approuv\u00e9, c'est-\u00e0-dire <strong>Transformer<\/strong><\/li><li>Enfin, il peut \u00eatre transform\u00e9 en(<strong>CHARGER<\/strong>) une alliance ou une ceinture WWE !<\/li><\/ul>\n\n\n\n<p id=\"df09\">Donc, d\u00e9placer de l'or (lisez-le comme des donn\u00e9es : P), entre diff\u00e9rentes parties du syst\u00e8me s'appelle <strong>l'ETL<\/strong>.<\/p>\n\n\n\n<p><em>ETL est le processus par lequel les donn\u00e9es sont extraites de diverses sources sous leurs diverses formes, transform\u00e9es pour \u00e9liminer les incoh\u00e9rences et am\u00e9liorer la norme des donn\u00e9es, puis charg\u00e9es dans un endroit cible, \u00e0 partir duquel des donn\u00e9es propres peuvent \u00eatre utilis\u00e9es pour analyser, exp\u00e9rimenter, visualiser et pr\u00e9dire les donn\u00e9es.<\/em><\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" loading=\"lazy\" width=\"1024\" height=\"629\" src=\"http:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/ETL-e1563879776366.jpg\" alt=\"\" class=\"wp-image-3339\" srcset=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/ETL-e1563879776366.jpg 1024w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/ETL-e1563879776366-300x184.jpg 300w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/ETL-e1563879776366-768x472.jpg 768w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/ETL-e1563879776366-18x12.jpg 18w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"c2c2\">Extraire<\/h3>\n\n\n\n<p id=\"c77d\">Tr\u00e8s peu d'entreprises s'appuient sur un seul type de donn\u00e9es ou de syst\u00e8me. Dans la plupart des cas, les donn\u00e9es sont g\u00e9r\u00e9es \u00e0 partir de plusieurs sources et divers outils d'analyse de donn\u00e9es sont utilis\u00e9s pour g\u00e9n\u00e9rer des informations commerciales. Les sources de donn\u00e9es les plus couramment utilis\u00e9es sont les bases de donn\u00e9es (DB), les fichiers plats, les services Web, d'autres sources telles que les flux RSS, etc. Pour que ces strat\u00e9gies de donn\u00e9es complexes fonctionnent, les donn\u00e9es doivent pouvoir se d\u00e9placer librement entre les syst\u00e8mes et les applications.<\/p>\n\n\n\n<p id=\"4e87\">Dans la premi\u00e8re phase du processus ETL, les donn\u00e9es structur\u00e9es et non structur\u00e9es sont import\u00e9es et int\u00e9gr\u00e9es dans un r\u00e9f\u00e9rentiel unique. Les donn\u00e9es brutes peuvent \u00eatre extraites d'un \u00e9ventail de sources et d\u00e9plac\u00e9es vers la zone de pr\u00e9paration.<\/p>\n\n\n\n<p id=\"c4a6\"><em>Une zone de transit ou zone d'atterrissage est une zone de stockage interm\u00e9diaire utilis\u00e9e pour le traitement des donn\u00e9es pendant le processus d'extraction, de transformation et de chargement (ETL). La zone de transit est utilis\u00e9e pour valider les donn\u00e9es extraites avant de les transf\u00e9rer vers le syst\u00e8me cible, la base de donn\u00e9es ou l'entrep\u00f4t de donn\u00e9es.<\/em><\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"4ac9\">Transformer<\/h3>\n\n\n\n<p id=\"b473\">Apr\u00e8s l'extraction r\u00e9ussie des donn\u00e9es, elles passent \u00e0 l'\u00e9tape suivante, la transformation. Pour assurer la qualit\u00e9 et l'accessibilit\u00e9 des donn\u00e9es, pour faciliter une interrogation efficace, les donn\u00e9es sont transform\u00e9es. C'est l'une des \u00e9tapes les plus importantes du processus ETL. La raison en est que ce que nous alimentons est ce que nous retirons ! Si nous alimentons des donn\u00e9es erron\u00e9es et incompl\u00e8tes, cela entra\u00eenerait de mauvaises informations, une analyse incorrecte, et tout le cas d'utilisation se r\u00e9sumerait \u00e0 un \u00e9chec.<\/p>\n\n\n\n<p id=\"efe4\">Cette \u00e9tape implique,<\/p>\n\n\n\n<ul><li>Nettoyage : r\u00e9sout les incoh\u00e9rences de donn\u00e9es et les valeurs manquantes.<\/li><li>Normalisation : les r\u00e8gles de formatage sont appliqu\u00e9es \u00e0 l'ensemble de donn\u00e9es.<\/li><li>D\u00e9duplication : les donn\u00e9es redondantes sont exclues ou supprim\u00e9es.<\/li><li>V\u00e9rification : Les donn\u00e9es inutilisables sont supprim\u00e9es et les anomalies sont signal\u00e9es.<\/li><li>Trier : Les donn\u00e9es sont tri\u00e9es par type.<\/li><\/ul>\n\n\n\n<p id=\"958a\">Certaines autres techniques de transformation incluent la d\u00e9rivation, le filtrage, le fractionnement, la jonction, la synth\u00e8se, l'agr\u00e9gation et la validation des donn\u00e9es. Les donn\u00e9es sont transform\u00e9es en un format utilisable et stock\u00e9es sous une forme d\u00e9normalis\u00e9e \u00e0 l'aide d'un ou plusieurs mod\u00e8les de table dans Data Warehouse.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"d933\">Charger<\/h3>\n\n\n\n<p id=\"da49\">This is the final part of our ETL process. This involves migrating the data to the final destination. It could be a data warehouse or database on-premise or on the cloud. This data can be refreshed automatically when new data is extracted and transformed. This neat and organized data is further used by business analysts for visualization and exploration, by data scientists for experimentation and prediction, or other end users.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"cea8\">Cas d'utilisation ETL<\/h3>\n\n\n\n<p id=\"a099\">Chaque organisation utilise ETL pour g\u00e9rer les donn\u00e9es, les traiter et les rendre exploitables - \u00e0 utiliser par les parties prenantes, les analystes, les scientifiques, etc. Nous devons utiliser ETL lorsque nous devons,<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"0f47\">Migrer les donn\u00e9es<\/h3>\n\n\n\n<p id=\"d90b\">Avec l'av\u00e8nement de technologies nouvelles et avanc\u00e9es, les organisations passent de syst\u00e8mes h\u00e9rit\u00e9s \u00e0 des syst\u00e8mes plus r\u00e9cents. Cela n\u00e9cessite une migration des donn\u00e9es. Cela implique de transformer les donn\u00e9es dans le nouveau format et de les migrer vers la destination.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"4705\">Entreposage de donn\u00e9es<\/h3>\n\n\n\n<p id=\"5871\">Un entrep\u00f4t de donn\u00e9es est une base de donn\u00e9es d\u00e9normalis\u00e9e dans laquelle toutes les donn\u00e9es extraites et transform\u00e9es sont charg\u00e9es. Ce r\u00e9f\u00e9rentiel de donn\u00e9es est interrog\u00e9 \u00e0 de nombreuses fins.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" loading=\"lazy\" width=\"1024\" height=\"505\" src=\"http:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/data-warehousing1-1024x505-1.webp\" alt=\"\" class=\"wp-image-3340\" srcset=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/data-warehousing1-1024x505-1.webp 1024w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/data-warehousing1-1024x505-1-300x148.webp 300w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/data-warehousing1-1024x505-1-768x379.webp 768w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/data-warehousing1-1024x505-1-18x9.webp 18w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"a398\">Int\u00e9gration de donn\u00e9es<\/h3>\n\n\n\n<p id=\"5f52\">Que ce soit pour le marketing ou pour l'IoT, ETL est utilis\u00e9 pour collecter des donn\u00e9es \u00e0 partir de r\u00e9seaux sociaux, d'analyses Web, d'appareils, de capteurs, etc., et le tout en un seul endroit pour l'analyse de march\u00e9, l'int\u00e9gration de donn\u00e9es IoT et d'autres int\u00e9grations.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"617d\">R\u00e9plication de base de donn\u00e9es<\/h3>\n\n\n\n<p id=\"6239\">Les donn\u00e9es sont d\u00e9plac\u00e9es \u00e0 partir de bases de donn\u00e9es sources telles que Microsoft SQL Server, Cloud SQL pour PostgreSQL, MongoDB ou autres et copi\u00e9es dans un entrep\u00f4t de donn\u00e9es. ETL peut \u00eatre utilis\u00e9 pour r\u00e9pliquer les donn\u00e9es pour cette op\u00e9ration ponctuelle ou un processus en cours.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"e71f\">Machine Learning et L'intelligence Artificielle<\/h3>\n\n\n\n<p id=\"d364\">Dans le cas d'utilisation le plus important, le syst\u00e8me apprend des donn\u00e9es \u00e0 l'aide de techniques d'intelligence artificielle. Les donn\u00e9es collect\u00e9es peuvent \u00eatre utilis\u00e9es \u00e0 des fins d'apprentissage automatique.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"5f71\">ELT et ETL<\/h3>\n\n\n\n<p id=\"e9a4\">En parlant de ML, les scientifiques et les analystes des donn\u00e9es pr\u00e9f\u00e8rent d'abord charger toutes les donn\u00e9es, puis, sur la base des donn\u00e9es brutes, tracer le processus de transformation des donn\u00e9es en fonction des besoins et de la recherche du cas d'utilisation \u00e0 port\u00e9e de main. En bref, les donn\u00e9es brutes seraient d'abord extraites, charg\u00e9es, puis transform\u00e9es. Ce processus est appel\u00e9 <strong>Extract, Load, and Transform(ELT).<\/strong><\/p>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-full\"><img decoding=\"async\" loading=\"lazy\" width=\"559\" height=\"404\" src=\"http:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/microservices-etl_vs_elt_mobile.png\" alt=\"\" class=\"wp-image-3342\" srcset=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/microservices-etl_vs_elt_mobile.png 559w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/microservices-etl_vs_elt_mobile-300x217.png 300w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/microservices-etl_vs_elt_mobile-18x12.png 18w\" sizes=\"(max-width: 559px) 100vw, 559px\" \/><\/figure><\/div>\n\n\n\n<p id=\"3641\">ETL n\u00e9cessite l'ex\u00e9cution d'un processus de transformation avant le chargement dans le syst\u00e8me cible. Avec ELT, le syst\u00e8me cible est utilis\u00e9 comme lieu d'ex\u00e9cution des processus de transformation. Des cas d'utilisation complexes appliquent l'ELT o\u00f9 Data Lake est utilis\u00e9 comme r\u00e9f\u00e9rentiel pour stocker un vaste volume de donn\u00e9es brutes.<\/p>\n\n\n\n<p id=\"359e\">Alors que Data Warehouse stocke des donn\u00e9es structur\u00e9es et filtr\u00e9es, Data Lake stocke des donn\u00e9es non filtr\u00e9es et h\u00e9t\u00e9rog\u00e8nes telles quelles. L'ELT donne aux organisations la flexibilit\u00e9 de transformer les donn\u00e9es brutes \u00e0 tout moment, quand et comme n\u00e9cessaire pour un cas d'utilisation, et n'a pas \u00e0 se soucier de la transformation en tant qu'\u00e9tape dans un pipeline de donn\u00e9es.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"e528\">Outils de pipeline ETL<\/h3>\n\n\n\n<p id=\"d262\">Les donn\u00e9es sont au c\u0153ur d'une organisation, et ETL joue un r\u00f4le important pour les maintenir \u00e0 jour. Nous sommes confront\u00e9s \u00e0 deux options pour effectuer l'ETL. Nous pouvons r\u00e9aliser la magie d'ETL en utilisant deux m\u00e9thodes, la premi\u00e8re est le script. c'est-\u00e0-dire, construire nos propres outils ETL \u00e0 partir de z\u00e9ro en utilisant un langage de programmation et l'autre utilise des outils ETL d\u00e9j\u00e0 construits.<\/p>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-full\"><img decoding=\"async\" loading=\"lazy\" width=\"700\" height=\"393\" src=\"http:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-vw4GNbYpNgP8k29F.jpeg\" alt=\"\" class=\"wp-image-3343\" srcset=\"https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-vw4GNbYpNgP8k29F.jpeg 700w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-vw4GNbYpNgP8k29F-300x168.jpeg 300w, https:\/\/akyalab.com\/wp-content\/uploads\/2022\/03\/0-vw4GNbYpNgP8k29F-18x10.jpeg 18w\" sizes=\"(max-width: 700px) 100vw, 700px\" \/><figcaption>ETL Tools<\/figcaption><\/figure><\/div>\n\n\n\n<p id=\"ed1e\">\"<em>Data is the new gold!<\/em>ils disent. Les donn\u00e9es sont n\u00e9cessaires \u00e0 la demande, facilement et rapidement dans leur forme la plus propre. Pour faciliter cela, de plus en plus de techniques de transformation sont utilis\u00e9es aujourd'hui. Les entreprises peuvent obtenir des informations, tirer des d\u00e9cisions, effectuer des analyses percutantes en utilisant des donn\u00e9es uniquement apr\u00e8s le processus magique de <strong>l'ETL<\/strong>!<\/p>\n\n\n\n<p id=\"33b4\">Avant d'utiliser les donn\u00e9es pour cr\u00e9er de beaux tableaux de bord employ\u00e9s, l'\u00e9quipe RH a besoin de donn\u00e9es bien organis\u00e9es, avant qu'un chef ne soit not\u00e9 ; les avis, les \u00e9valuations, les commentaires sont extraits, transform\u00e9s, charg\u00e9s \u00e0 partir d'une source unique de v\u00e9rit\u00e9, pour obtenir la cote de cr\u00e9dit, les donn\u00e9es de toutes les transactions, l'historique des pr\u00eats, le paiement sont combin\u00e9s et analys\u00e9s.<\/p>","protected":false},"excerpt":{"rendered":"<p>Introduction Vous \u00eates-vous d\u00e9j\u00e0 demand\u00e9 comment votre organisation obtient toutes les informations sur les employ\u00e9s, les salaires et les d\u00e9tails des projets sur un magnifique tableau de bord ? Vous vous demandez comment un Chef obtient toutes ses notes, ses avis consolid\u00e9s en une seule note ? Vous demandez-vous comment vous obtiendrez une cote de cr\u00e9dit bas\u00e9e sur tous vos ant\u00e9c\u00e9dents de cr\u00e9dit r\u00e9unis ? Bien s\u00fbr, [\u2026]<\/p>","protected":false},"author":3,"featured_media":3344,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0},"categories":[94,91],"tags":[],"_links":{"self":[{"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/posts\/3337"}],"collection":[{"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/comments?post=3337"}],"version-history":[{"count":3,"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/posts\/3337\/revisions"}],"predecessor-version":[{"id":3374,"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/posts\/3337\/revisions\/3374"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/media\/3344"}],"wp:attachment":[{"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/media?parent=3337"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/categories?post=3337"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/akyalab.com\/fr\/wp-json\/wp\/v2\/tags?post=3337"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}