AccueilBlogData & IAData Governance
Data Governance

Data Governance :
definition, enjeux et comment la mettre en oeuvre

La gouvernance des donnees est le socle invisible sur lequel reposent tous les projets data reussis. Sans elle, les Data Lakes deviennent des marais, les KPIs se contredisent et la conformite RGPD devient une source de risque permanent. Comprendre ses fondements est indispensable pour tout professionnel de la data.

10 min de lectureData GovernanceIntermediaire

Ce que vous allez apprendre

  • La definition exacte de la Data Governance et ce qu'elle couvre
  • Les roles cles : CDO, Data Owner, Data Steward, Data Custodian
  • Le framework de reference DAMA-DMBOK et ses 11 domaines
  • Les outils du marche : Collibra, Alation, Atlan, Apache Atlas
  • Comment demarrer une initiative de gouvernance sans bloquer les equipes data
Fondements

Qu'est-ce que la Data Governance ?

La Data Governance (gouvernance des donnees) est l'ensemble des politiques, processus, roles et standards qui definissent comment une organisation collecte, gere, utilise et protege ses donnees. Ce n'est pas un outil ni une technologie : c'est un cadre organisationnel et operationnel.

La gouvernance repond a des questions fondamentales : qui a le droit de modifier ces donnees ? Quelle est la definition officielle de 'client actif' dans notre entreprise ? Ou sont stockees les donnees personnelles de nos utilisateurs ? Qui est responsable si une donnee critique est erronee ?

Le perimetre de la gouvernance

La gouvernance des donnees couvre typiquement six domaines : la qualite des donnees (data quality), la gestion des metadonnees (metadata management), la maitrise des donnees de reference (master data management), le lineage des donnees (traçabilite bout en bout), la securite et la confidentialite (RGPD, conformite), et le data catalog (inventaire et documentation des actifs data).

Donnee vs information

La gouvernance s'applique aux donnees (faits bruts) mais aussi aux informations (donnees interpretees) et aux metadonnees (donnees sur les donnees). Un bon data catalog gouverne les trois niveaux.

Enjeux

Pourquoi la gouvernance est devenue critique

Trois forces ont rendu la Data Governance incontournable dans les organisations modernes : la proliferation des donnees, la reglementation et la dependance aux donnees pour les decisions.

La qualite des donnees comme enjeu business

Une etude IBM estime que les donnees de mauvaise qualite coutent aux entreprises americaines 3,1 trillions de dollars par an. Des dashboards qui se contredisent, des mailings envoyes a des clients inexistants, des modeles ML entraînes sur des donnees erronees : les consequences business de la mauvaise qualite des donnees sont directes et quantifiables.

La conformite reglementaire : RGPD et au-dela

Le RGPD (entree en vigueur 2018 en Europe) a rendu la gouvernance des donnees personnelles obligatoire. Savoir ou se trouvent les donnees personnelles, qui y accede, combien de temps elles sont conservees et comment les supprimer sur demande : ce sont des obligations legales, pas des bonnes pratiques optionnelles. Les amendes RGPD peuvent atteindre 4% du chiffre d'affaires mondial.

L'IA generative amplifie le besoin de gouvernance

Les modeles d'IA generative entraînes sur des donnees non gouvernees peuvent reproduire des biais, divulguer des informations confidentielles ou produire des reponses incoherentes. La Data Governance devient un prerequis pour deployer l'IA de maniere responsable et conforme.

Chiffre cle

Selon IDC, le volume mondial de donnees atteindra 175 zettabytes d'ici 2025. Sans gouvernance adaptee, cette croissance exponentiellement complexifie la gestion et la conformite.

IDC DataSphere, 2020
Organisation

Les roles cles de la gouvernance des donnees

La gouvernance des donnees n'est pas la responsabilite d'une seule personne ou d'une seule equipe. Elle distribue les responsabilites selon un modele de roles definis.

Chief Data Officer (CDO)

Le CDO est le responsable executif de la strategie data et de la gouvernance au niveau de l'entreprise. Il (ou elle) definit la vision, alloue les ressources, arbitre les conflits de propriete des donnees et represente la valeur des donnees au comite de direction. Poste encore rare en 2015, il est aujourd'hui present dans 65% des grandes entreprises selon Gartner.

Data Owner

Le Data Owner (proprietaire de donnees) est un role business : c'est le responsable metier d'un domaine de donnees specifique (ex : le DAF pour les donnees financieres, le DRH pour les donnees RH). Il decide qui a acces aux donnees, valide les definitions metier et est responsable de la qualite et de l'usage correct des donnees de son perimetre.

Data Steward

Le Data Steward est un role operationnel et transverse. Il met en oeuvre les politiques definies par le Data Owner : il documente les metadonnees dans le data catalog, surveille la qualite des donnees, resout les problemes de qualite et forme les utilisateurs aux bonnes pratiques. C'est souvent un role a temps partiel, assure par des experts metier ou data.

Data Custodian (ou Data Engineer)

Le Data Custodian est le gardien technique des donnees. Il gere l'infrastructure (bases de donnees, data lake, pipelines), applique les controles d'acces definis par le Data Owner et assure la securite physique et logique des donnees. C'est typiquement le Data Engineer ou l'administrateur base de donnees.

Framework

Le framework DAMA-DMBOK : la reference mondiale

Le DAMA-DMBOK (Data Management Body of Knowledge), publie par DAMA International, est le referentiel le plus utilise pour structurer la gouvernance des donnees. Il decoupe le data management en 11 domaines de connaissance.

Les 11 domaines DAMA-DMBOK

Les domaines couverts sont : Data Governance (pilotage global), Data Architecture, Data Modelling & Design, Data Storage & Operations, Data Security, Data Integration & Interoperability, Documents & Content, Reference & Master Data, Data Warehousing & BI, Metadata Management, et Data Quality. Ces domaines s'articulent autour d'un coeur central : la gouvernance qui pilote tous les autres.

Reference academique

Le DAMA-DMBOK 2e edition (2017) est la bible des professionnels de la gouvernance des donnees. Il est la base de la certification CDMP (Certified Data Management Professional), reconnue internationalement.

DAMA International, DAMA-DMBOK 2nd Edition, 2017
Outillage

Les outils de gouvernance des donnees

La gouvernance des donnees s'appuie sur deux categories principales d'outils : les data catalogs (inventaire et documentation) et les outils de data quality (surveillance et remediatation).

Data Catalogs : Collibra, Alation, Atlan

Collibra est le leader historique du marche enterprise, avec des fonctionnalites avancees de stewardship, de lineage et de conformite RGPD. Alation se distingue par son approche collaborative et son moteur de recommandation base sur les patterns d'utilisation. Atlan est la solution moderne cloud-native, tres populaire dans les jeunes organisations data-driven. Apache Atlas est l'alternative open-source, integree nativement dans l'ecosysteme Hadoop.

Data Quality : Great Expectations, Monte Carlo, dbt tests

Great Expectations est la librairie open-source Python la plus utilisee pour ecrire des tests de qualite declaratifs sur les donnees. Monte Carlo est la plateforme de Data Observability leader, qui detecte automatiquement les anomalies dans les pipelines. dbt propose des tests de qualite natifs (not_null, unique, accepted_values, relationships) directement dans les transformations SQL.

Mise en oeuvre

Comment demarrer une initiative de gouvernance

La gouvernance des donnees ne se met pas en place en un projet de 6 mois. C'est un programme continu qui commence par des victoires rapides et s'etend progressivement.

Les etapes cles du demarrage

Commencez par identifier vos donnees critiques (Critical Data Elements - CDE) : les 20% de donnees qui generent 80% de la valeur business. Nommez des Data Owners pour ces domaines, creez un glossaire metier commun dans un data catalog minimal, et implementez des tests de qualite sur les CDE. L'objectif des 90 premiers jours : montrer une valeur concrete, pas deployer un framework complet.

Ecueil courant

L'erreur la plus courante est de commencer par l'outil plutôt que par les processus et les roles. Acheter Collibra sans nommer de Data Stewards ni definir de politiques produit un data catalog vide et abandonné en 6 mois.


Questions frequentes sur la Data Governance

Qu'est-ce que la Data Governance ?

La Data Governance est l'ensemble des politiques, processus, roles et standards qui definissent comment une organisation collecte, gere, utilise et protege ses donnees. Elle repond aux questions : qui possede quelles donnees, qui peut y acceder, comment elles sont definies et comment leur qualite est assuree.

Quelle est la difference entre Data Owner et Data Steward ?

Le Data Owner est un responsable metier qui detient l'autorite sur un domaine de donnees : il decide des politiques d'acces et valide les definitions. Le Data Steward est un role operationnel qui met en oeuvre ces politiques : il documente les metadonnees, surveille la qualite et resout les problemes au quotidien.

Qu'est-ce que le DAMA-DMBOK ?

Le DAMA-DMBOK (Data Management Body of Knowledge) est le referentiel mondial de la gestion des donnees, publie par DAMA International. Il structure le data management en 11 domaines de connaissance, avec la gouvernance comme domaine central qui pilote tous les autres.

Comment la Data Governance est-elle liee au RGPD ?

Le RGPD impose des obligations de gouvernance specifiques aux donnees personnelles : savoir ou elles sont stockees, qui y accede, combien de temps elles sont conservees, comment les supprimer ou les transmettre sur demande. La Data Governance est le cadre organisationnel qui permet de respecter ces obligations de maniere systematique.

Qu'est-ce qu'un data catalog ?

Un data catalog est un inventaire centralise et interrogeable des actifs data d'une organisation : tables, colonnes, fichiers, rapports, modeles ML. Il documente les metadonnees (definition metier, proprietaire, sensibilite, lineage) et permet aux equipes de decouvrir et comprendre les donnees disponibles. Collibra, Alation et Atlan sont les outils leaders.

Qu'est-ce que le Master Data Management (MDM) ?

Le Master Data Management est la gestion des donnees de reference partagees entre plusieurs systemes : clients, produits, fournisseurs, employes. L'objectif est de maintenir une version unique et fiable de ces entites (le 'golden record') pour eviter les inconsistances entre systemes (ex: un client qui existe sous 3 identifiants differents dans 3 systemes).

Par ou commencer une initiative de Data Governance ?

Commencez par identifier vos Critical Data Elements (CDE) - les donnees les plus critiques pour le business. Nommez des Data Owners pour ces domaines, creez un glossaire metier commun et implementez des tests de qualite. Privilegiez les victoires rapides sur un perimetre restreint plutôt qu'un programme global de 18 mois.


Article precedent : Data Lake, Data Warehouse et Lakehouse

Article suivant : Business Intelligence et KPI