ETL vs ELT : quelle architecture de pipeline choisir ?

Origines et principes

L'ETL : Extract, Transform, Load

L'ETL (Extract, Transform, Load) est le paradigme historique du pipeline de donnees. Apparu dans les annees 1970-1980 avec les premiers entrepots de donnees sur site (Teradata, Oracle), il suit une logique simple : extraire les donnees depuis les sources, les transformer dans un espace intermediaire (staging), puis les charger dans l'entrepot de destination.

La transformation est le coeur du processus : nettoyage, agregation, jointures, application des regles metier, changement de format. Tout se fait avant que la donnee atterrisse dans le Data Warehouse. L'entrepot ne recoit que des donnees propres, structurees, prets a l'emploi.

Architecture et outils ETL traditionnels

Dans une architecture ETL classique, un serveur de transformation intermediaire (souvent appele ETL server ou staging area) prend en charge tout le travail. Les outils historiques comme Informatica PowerCenter, IBM DataStage, Talend ou Microsoft SSIS encapsulent cette logique dans des interfaces graphiques et des connecteurs preconfigures.

Cette approche impose un effort de conception en amont : chaque transformation doit etre specifiee avant que les donnees arrivent en production. La lisibilite est un avantage reel - on sait exactement ce qui entre dans l'entrepot - mais la rigidite est un frein important lorsque les besoins analytiques evoluent rapidement.

Contexte historique

L'ETL a ete concu a une epoque ou le stockage etait cher et les serveurs limite en puissance. Charger des donnees brutes non transformees aurait ete du gaspillage - d'ou la transformation systematique en amont.

Le paradigme moderne

L'ELT : Extract, Load, Transform

L'ELT (Extract, Load, Transform) inverse l'ordre : on extrait les donnees, on les charge directement dans l'entrepot ou le lac de donnees (brutes, non transformees), puis on les transforme en place via SQL ou des frameworks comme dbt. Cette approche est nee avec le cloud et les data warehouses modernes.

Le changement fondamental est que le data warehouse lui-meme devient le moteur de transformation. BigQuery (Google), Snowflake, Amazon Redshift ou Databricks offrent une puissance de calcul elastique et un stockage quasi gratuit. Transformer des terabytes de donnees en SQL directement dans Snowflake est aujourd'hui plus rapide et moins cher que de le faire sur un serveur ETL intermediaire.

Les avantages structurels de l'ELT

La preservation des donnees brutes est l'avantage le plus sous-estime de l'ELT. En chargeant les donnees sources sans transformation, on cree une couche d'historique immuable. Si les regles metier changent dans six mois, on peut rejouer les transformations sans re-extraire les sources.

La flexibilite est egalement majeure : les Data Scientists et Analysts peuvent acceder aux donnees brutes pour leurs propres analyses, sans attendre qu'un pipeline ETL soit reconfigure. Cela change profondement la dynamique entre les equipes data.

Etude Gartner 2023

Selon Gartner, plus de 65% des nouvelles architectures data dans les grandes enterprises adoptent desormais une approche ELT-first, contre moins de 20% en 2018. Le basculement vers le cloud est le principal moteur de cette transition.

Gartner, Magic Quadrant for Data Integration Tools, 2023

Comparaison

Les 5 differences fondamentales entre ETL et ELT

Au-dela de l'ordre des operations, ETL et ELT different sur cinq dimensions qui impactent directement les choix d'architecture, de tooling et d'organisation des equipes.

1. Lieu de la transformation

Dans un pipeline ETL, la transformation se produit dans un systeme externe au data warehouse - un serveur dedie, un cluster Spark, ou une machine virtuelle. Dans un pipeline ELT, la transformation a lieu directement dans le data warehouse ou le data lake, en SQL ou via un moteur de calcul integre.

2. Conservation des donnees brutes

L'ETL ne conserve pas les donnees brutes dans l'entrepot - seules les donnees transformees sont stockees. L'ELT charge d'abord les donnees brutes dans une couche raw, ce qui permet de rejouer les transformations et de repondre a des questions analytiques qui n'etaient pas prevues initialement.

3. Vitesse de mise en production

L'ETL impose de specifier les transformations avant le chargement, ce qui allonge le cycle de developpement. Avec l'ELT et des outils comme dbt, un Data Analyst peut ecrire une nouvelle transformation en SQL et la deployer en heures plutot qu'en jours.

4. Structure des couts

Les solutions ETL traditionnelles ont des couts de licence eleves (Informatica, MicroStrategy) et necessitent des serveurs de staging dedies. L'ELT exploite la puissance de calcul du cloud data warehouse - les couts sont directement lies a l'usage et diminuent avec la compression columnar et le stockage objet.

5. Confidentialite et securite

L'ETL a un avantage sur ce point : les donnees sensibles peuvent etre masquees ou pseudonymisees avant d'entrer dans l'entrepot. Avec l'ELT, les donnees brutes sont d'abord chargees integralement - il faut s'assurer que la couche raw est correctement securisee et que les politiques de data masking sont appliquees en amont des vues analytiques.

Ecosysteme

Les outils cles du pipeline data moderne

L'ecosysteme ELT s'est structure autour de quatre categories d'outils qui couvrent l'ensemble du pipeline : ingestion, orchestration, transformation et observation.

Ingestion : Fivetran, Airbyte, Stitch

Ces outils gèrent l'extraction et le chargement (EL sans le T). Fivetran est le leader du marche avec des connecteurs preconfigures pour des centaines de sources (Salesforce, Hubspot, bases SQL, APIs). Airbyte est l'alternative open-source avec une communaute active. Ils gerent automatiquement la replication incrementale, les changements de schema et les erreurs de connexion.

Transformation : dbt (data build tool)

dbt est devenu le standard de facto de la couche de transformation ELT. Il permet d'ecrire des transformations en SQL pur, de les documenter, de les tester et de les versionner dans Git. dbt transforme le data warehouse en moteur d'execution et produit un lineage automatique de toutes les transformations. La version Cloud (dbt Cloud) ajoute l'orchestration et la collaboration d'equipe.

Orchestration : Apache Airflow, Prefect, Dagster

L'orchestration coordinate l'execution des pipelines dans le bon ordre et au bon moment. Apache Airflow, cree par Airbnb, est le standard open-source avec ses DAGs (Directed Acyclic Graphs) en Python. Prefect et Dagster sont des alternatives plus modernes avec une meilleure observabilite et une gestion native des dependances de donnees.

Traitement distribue : Apache Spark

Pour les transformations sur de tres grands volumes (terabytes a petabytes), Spark reste le standard. Il s'integre dans les architectures ELT pour les etapes de pre-processing qui depassent les capacites SQL natives des cloud warehouses. PySpark est l'API Python la plus utilisee. Spark on Databricks ou EMR (AWS) est la configuration la plus courante en production.

La combinaison gagnante

En 2026, le pipeline data moderne le plus repandu est : Fivetran (ingestion) + Snowflake ou BigQuery (stockage) + dbt Core (transformation) + Airflow ou dbt Cloud (orchestration). Cette combinaison couvre 80% des besoins analytiques des equipes data.

Decision

Comment choisir entre ETL et ELT

Le choix entre ETL et ELT ne se fait pas en abstrait - il depend de votre infrastructure existante, de votre volume de donnees, des exigences reglementaires et des competences de votre equipe.

Quand privilegier l'ETL

L'ETL reste pertinent dans plusieurs situations : infrastructure on-premise sans cloud data warehouse, obligations reglementaires strictes sur les donnees personnelles (le masquage doit se faire avant chargement), integration avec des systemes legacy qui imposent un format specifique, et equipes habituees aux outils ETL classiques sans capacite de migration a court terme.

Quand privilegier l'ELT

L'ELT est le bon choix dans la majorite des projets greenfield en 2026 : stack 100% cloud, besoin de flexibilite analytique, equipe qui maitrise SQL et dbt, volumes importants qui beneficient de la puissance de calcul elastique du cloud warehouse, et souhait de donner un acces direct aux donnees brutes aux Data Scientists.

L'approche hybride ETL+ELT

En pratique, la plupart des organisations combinent les deux. Un pipeline ETL peut gerant les donnees sensibles (anonymisation avant chargement), tandis que le reste du flux adopte l'ELT. Certains outils modernes comme Spark offrent d'ailleurs la flexibilite de faire les deux selon le besoin.

Methode

Consolider ETL et ELT avec la repetition espacee

Les concepts de data engineering sont denses et specifiques. Savoir definir ETL et ELT en entretien est une chose ; comprendre les implications d'architecture de chaque choix en est une autre. La repetition espacee (algorithme FSRS) est ideale pour ancrer ces distinctions dans la memoire a long terme.

Le deck 'Pipelines ETL/ELT et orchestration' de Memia couvre les definitions, les outils, les cas d'usage et les questions d'entretien classiques sur le sujet. Chaque carte est formulee pour tester la comprehension et non la simple memorisation.

Conseil pratique

Pour les concepts data engineering, la meilleure strategie est de creer des cartes 'comparaison' : ETL vs ELT, Airflow vs Prefect, dbt Core vs dbt Cloud. Ces comparaisons sont les questions les plus frequentes en entretien technique.

Questions frequentes sur ETL et ELT

Quelle est la difference principale entre ETL et ELT ?

La difference est le moment et le lieu de la transformation. En ETL, les donnees sont transformees avant d'etre chargees dans l'entrepot (dans un systeme intermediaire). En ELT, les donnees brutes sont chargees en premier, puis transformees directement dans le data warehouse via SQL ou dbt.

Pourquoi l'ELT a-t-il remplace l'ETL dans les architectures modernes ?

L'ELT s'est impose grace au cloud : les data warehouses comme BigQuery, Snowflake et Redshift offrent une puissance de calcul elastique et un stockage peu couteux. Transformer en place dans le warehouse est devenu plus rapide et moins couteux que de maintenir un serveur ETL intermediaire.

dbt est-il un outil ETL ou ELT ?

dbt est un outil ELT pur : il gere uniquement la couche Transform (T) et l'effectue directement dans votre data warehouse. Il ne se charge pas de l'extraction ni du chargement - ces etapes sont gerees par des outils dedie comme Fivetran ou Airbyte.

Airflow peut-il orchestrer a la fois des pipelines ETL et ELT ?

Oui. Apache Airflow est un orchestrateur generique qui peut executer n'importe quel type de tache : appels d'outils ETL traditionnels, jobs Spark, requetes SQL, workflows dbt. Il coordonne l'ordre et le timing des executions sans imposer un paradigme particulier.

L'ETL est-il plus sur que l'ELT pour les donnees sensibles ?

L'ETL offre un avantage sur ce point : les donnees peuvent etre masquees ou pseudonymisees avant d'entrer dans l'entrepot. Avec l'ELT, les donnees brutes sont chargees integralement - il faut implementer le masquage dans les politiques de la couche raw et s'assurer que seules les vues transformees sont accessibles aux utilisateurs finaux.

Qu'est-ce que le 'staging' dans un pipeline ETL ?

La staging area (zone de transit) est un espace temporaire intermediaire ou les donnees sont temporairement stockees entre l'extraction et la transformation. Elle permet de bufferiser les donnees, de gerer les erreurs de chargement et de rejouer les transformations si necessaire sans re-extraire les sources.

Peut-on faire du ETL avec Spark ?

Oui, Spark est souvent utilise dans des architectures ETL pour des transformations complexes sur de grands volumes. Spark peut lire depuis de multiples sources, transformer les donnees via des DataFrames ou du SQL Spark, et ecrire vers un data warehouse ou un data lake. Il est particulierement adapte aux transformations qui depassent les capacites SQL natives.

Guide Data Engineering : pipelines, lakehouse et gouvernance

Article suivant : Data Lake, Data Warehouse et Lakehouse

Ce que vous allez apprendre