Feature Engineering : transformer les donnees brutes en variables predictives

Q: Qu'est-ce que le feature engineering ?

Le feature engineering est le processus de transformation de donnees brutes en variables (features) exploitables par un algorithme ML. Il inclut le nettoyage, la creation de nouvelles variables (agregations, interactions, extractions temporelles), l'encodage des variables categorielles, la normalisation et la selection des features les plus informatives. C'est souvent l'etape qui determine 80% de la performance d'un modele.

Q: Pourquoi le feature engineering est-il plus important que le choix d'algorithme ?

Les algorithmes ML apprennent des patterns dans l'espace des features. Des features mal construites = aucun pattern utile a apprendre, quel que soit l'algorithme. Des features riches = tout algorithme fonctionne. Pedro Domingos (2012) et Andrew Ng (2021) ont tous deux documente ce principe : ameliorer les features produit systematiquement plus de gains que l'optimisation des algorithmes sur des projets industriels.

Q: Quelle difference entre feature engineering et feature selection ?

Le feature engineering cree de nouvelles variables a partir des donnees brutes (transformation, combinaison, extraction, agregation). La feature selection choisit parmi les variables existantes celles qui sont les plus informatives. On cree d'abord un maximum de features pertinentes, puis on selectionne celles qui contribuent le plus — les deux sont complementaires.

Q: Faut-il toujours normaliser ses features ?

Non — ca depend de l'algorithme. Normalisation necessaire : KNN, SVM, regression logistique, reseaux de neurones (bases sur des distances ou le gradient). Normalisation inutile : Random Forest, XGBoost, LightGBM (arbres, invariants aux transformations monotones). La regule : normaliser pour tous les algorithmes sauf les methodes d'ensemble basees sur des arbres.

Q: Qu'est-ce que le target encoding et quand l'utiliser ?

Le target encoding remplace chaque modalite d'une variable categorielle par la moyenne de la variable cible. Ideal pour les variables a haute cardinalite (des centaines ou milliers de categories) ou le one-hot encoding exploite la dimensionalite. Risque : data leakage si calcule sur tout le dataset. Solution : toujours calculer dans les folds de cross-validation. scikit-learn 1.3+ integre TargetEncoder qui le fait automatiquement.

Q: Qu'est-ce que le Weight of Evidence (WoE) ?

Le WoE est une technique d'encodage pour le credit scoring : WoE = ln(distribution des bons / distribution des mauvais) pour chaque tranche d'une variable. Il transforme chaque variable en une valeur continue interpretable en termes de risque relatif. L'Information Value (IV) mesure le pouvoir predictif global de la variable : IV 0.3 = fort predicteur.

Fondamentaux

Pourquoi le feature engineering est la discipline la plus impactante du ML

Dans la pratique, un modele simple (regression logistique, arbre de decision) applique a des features bien construites bat generalement un modele sophistique (XGBoost, reseau de neurones) applique aux donnees brutes. Cette observation, verifiee des centaines de fois dans les competitions Kaggle et les projets industriels, place le feature engineering au coeur de tout workflow ML serieux.

La raison est fondamentale : les algorithmes ML apprennent des patterns dans l'espace des features. Si les features ne capturent pas les bonnes dimensions du probleme, meme l'algorithme le plus puissant ne pourra rien extraire de pertinent. A l'inverse, des features riches et informatives rendent le probleme trivial pour n'importe quel modele.

Le paradigme data-centric AI vs model-centric AI

La communaute ML a longtemps ete model-centric : le dataset est fixe, on ameliore l'algorithme et les hyperparametres. Andrew Ng a popularise en 2021 le paradigme complementaire, data-centric AI : le modele est fixe (ou standard), on ameliore systematiquement les donnees et les features. Dans ses benchmarks, des ameliorations de 10 a 40 % de precision ont ete obtenues uniquement en ameliorant les features et les labels, sans changer l'algorithme.

En pratique, les deux approches se combinent. Mais la priorite data-centric est particulierement pertinente pour les projets industriels ou les donnees sont heterogenes, ou les bugs viennent souvent de features mal definies plutot que d'un algorithme sous-optimal. Un audit regulier des features (distribution, completude, coherence avec la cible) est plus rentable que la recherche du meilleur hyperparametre.

Domingos (2012) : les features avant l'algorithme

Pedro Domingos, dans son article de reference 'A Few Useful Things to Know about Machine Learning', formule ce principe : 'The features used are often more important than the choice of learner.' Andrew Ng l'a reaffirme en 2021 dans son mouvement Data-centric AI, avec des resultats empiriques montrant que l'amelioration des donnees et des features produisait systematiquement plus de gains que l'amelioration des algorithmes sur des projets industriels reels.

Domingos, P. (2012). A Few Useful Things to Know about Machine Learning. Communications of the ACM, 55(10), 78-87.

Taxonomie

Les quatre familles de variables

Avant de transformer des donnees, il faut comprendre leur nature. Chaque type de variable suit une logique de traitement differente et dispose de techniques adaptees.

Variables numeriques : transformations et agregations

Les variables numeriques (age, revenu, temperature, nombre de clics) sont directement utilisables par la plupart des algorithmes, mais rarement sous leur forme brute. Une distribution tres asymetrique (salaires, prix immobiliers, montants de transactions) peut perturber les modeles lineaires et les algorithmes bases sur des distances. Les transformations typiques : logarithme pour reduire l'asymetrie des valeurs positives, racine carree pour comprimer les grandes valeurs, Box-Cox pour normaliser des distributions arbitraires, quantile transform pour forcer une distribution uniforme ou normale.

Les features d'agregation par entite sont souvent parmi les plus predictives : pour un modele de scoring client, la moyenne des transactions des 30 derniers jours, l'ecart-type des montants, le nombre de transactions, le maximum, la somme — calculees par client — capturent le comportement historique bien mieux que les transactions individuelles. Ces agregations par groupe (groupby) sont le coeur du feature engineering en e-commerce, banque et telecom.

Variables categorielles : encodage et gestion de la cardinalite

Les variables categorielles (pays, type de client, categorie produit) ne peuvent pas etre utilisees directement par les algorithmes qui attendent des valeurs numeriques. Pour les variables nominales a faible cardinalite (< 20 categories), le one-hot encoding cree une colonne binaire par categorie — simple et interpretable. Pour les variables ordinales (faible/moyen/eleve, Bronze/Argent/Or), l'encodage ordinal preserve la relation d'ordre.

Pour les variables a forte cardinalite (des milliers de valeurs : identifiant produit, code postal, URL), le target encoding remplace chaque categorie par la moyenne de la variable cible — puissant mais susceptible au data leakage. Solution : always calculer le target encoding inside les folds de validation croisee (ou utiliser le leave-one-out encoding). Le Weight of Evidence (WoE) est une alternative populaire dans le credit scoring : WoE = log(% bons / % mauvais) pour chaque modalite, avec une interpretation probabiliste directe.

Variables temporelles et series chronologiques

Une date brute n'est generalement pas informative pour un modele. A partir d'un timestamp, on extrait : le jour de la semaine (forte saisonnalite hebdomadaire pour le commerce), l'heure (comportements tres differents matin/midi/soir/nuit), le mois, le trimestre, si c'est un jour ferie, la saison. Ces features cycliques (le lundi et le dimanche sont adjacents) peuvent etre encodees avec des fonctions sinus/cosinus pour preserver la cyclicite.

Pour les series chronologiques, les features de lag (valeur d'il y a N periodes : lag_1, lag_7, lag_30) et les moyennes mobiles (rolling mean sur 7j, 30j) sont frequemment les plus predictives. Un achat 7 jours apres le dernier achat est une feature de churn bien plus puissante que la date absolue. L'ecart depuis le dernier evenement, le nombre d'evenements dans les N derniers jours, et les tendances (regression lineaire locale sur la fenetre recente) completent le repertoire standard.

Features textuelles : TF-IDF, n-grams et embeddings

Les donnees textuelles (commentaires clients, descriptions produits, emails) necessitent une transformation en vecteurs numeriques. L'approche classique : TF-IDF (Term Frequency - Inverse Document Frequency) pondere chaque mot par sa frequence dans le document divise par sa frequence dans le corpus — les mots frequents dans un document mais rares dans le corpus sont informatifs. Les n-grams (bigrammes, trigrammes) capturent les associations de mots ('machine learning' est plus informatif que 'machine' et 'learning' separes).

L'approche moderne : les embeddings pre-entraines (Word2Vec, FastText, BERT, sentence-transformers) representent chaque texte comme un vecteur dense de 300 a 768 dimensions capturant la semantique. Un embedding BERT d'une description produit capture la similarite semantique entre 'smartphone' et 'telephone portable' que TF-IDF traite comme totalement differents. Ces embeddings sont directement utilisables comme features pour n'importe quel modele aval (XGBoost, regression logistique) — c'est le feature engineering moderne pour le NLP.

Techniques

Techniques de transformation et de creation de features

Au-dela des traitements par type de variable, des techniques transversales permettent de capturer des interactions, des non-linearites ou des connaissances metier.

Normalisation et mise a l'echelle : quand et pourquoi

La mise a l'echelle est critique pour les algorithmes bases sur des distances (KNN, SVM) ou le gradient (regression logistique, reseaux de neurones). Sans normalisation, une variable en euros (ordre 100 000) domine une variable en pourcentage (ordre 0-1), faussant les poids appris et ralentissant la convergence. StandardScaler centre et reduit (moyenne 0, ecart-type 1). MinMaxScaler comprime entre 0 et 1. RobustScaler utilise la mediane et l'IQR, resistant aux outliers.

Les methodes d'ensemble basees sur des arbres (Random Forest, XGBoost, LightGBM) sont invariantes aux transformations monotones des features (normalisation, log, racine carree) et n'en ont pas besoin. Les appliquer quand meme n'est pas une erreur, juste inutile. En revanche, les features textuelles TF-IDF peuvent beneficier d'une normalisation L2 (cosine normalization) pour les modeles de similarite.

Interactions, ratios et features polynomiales

Un modele lineaire ne capture que des effets additifs. Creer explicitement des features d'interaction (produit de deux variables, ratio, difference) permet de capturer des effets combinatoires sans passer a un modele non lineaire. Exemples classiques : le ratio 'duree de la session / nombre de pages vues' pour l'engagement, 'montant de la transaction / average des 30 derniers jours' pour la detection de fraude, 'age du compte / nombre de transactions' pour le scoring bancaire.

PolynomialFeatures de scikit-learn genere systematiquement toutes les interactions entre features jusqu'au degre N — utile pour explorer, mais explose la dimensionalite (100 features → 5 050 features au degre 2). En pratique, les interactions pertinentes sont identifiees par la connaissance metier ou par des techniques d'arbre de decision (les splits d'un arbre identifient naturellement les conditions importantes, potentiellement exploitables comme features d'interaction).

Agregations par groupe : le pattern groupby

Le pattern de feature engineering le plus puissant en pratique pour les donnees transactionnelles : pour chaque entite (client, produit, vendeur), calculer des agregations sur ses transactions historiques. Pour un client : nb_transactions_30j, montant_total_30j, montant_moyen_30j, ecart_type_montants, nb_categories_distinctes, jours_depuis_dernier_achat. Pour un produit : nb_vues_7j, taux_ajout_panier, taux_conversion, note_moyenne, nb_retours.

Ces features capturent le comportement et l'historique de l'entite bien mieux que les variables brutes. La difficulte est la point-in-time correctness : lors de l'entrainement, on ne doit utiliser que les transactions anterieures a la date de l'exemple, jamais les donnees futures. Un feature store avec support temporel resout ce probleme systematiquement (voir section Feature Stores).

Target encoding et data leakage

Le target encoding est susceptible au data leakage si calcule sur l'ensemble du dataset avant le split train/test : les moyennes de la cible calculees sur les exemples de test 'contaminent' le train set. Toujours calculer le target encoding inside les folds de cross-validation (TargetEncoder de scikit-learn 1.3+ le fait automatiquement), ou utiliser le smoothed target encoding (moyenne ponderee avec la moyenne globale selon la taille de la categorie) qui reduit l'overfitting sur les petites categories.

Selection

Feature selection : moins de features, meilleur modele

Ajouter des features redondantes ou non informatives n'ameliore pas les performances : cela augmente le bruit, ralentit l'entrainement et peut degrader la generalisation (malediction de la dimensionalite). La feature selection identifie le sous-ensemble optimal de variables.

Filtres statistiques : screening rapide

Les filtres evaluent chaque feature independamment de l'algorithme — rapidite maximale, scalable a des millions de features. La correlation de Pearson mesure la relation lineaire avec la cible numerique. Le test chi-2 evalue l'independance entre une variable categorielle et la cible. L'information mutuelle (mutual information) mesure toute forme de dependance, lineaire ou non, en se basant sur la theorie de l'information.

Ces methodes sont rapides mais ignorent les interactions entre features : une variable peut etre non informative seule mais tres predictive en combinaison avec une autre. Elles servent d'etape de pre-filtrage pour eliminer les features clairement inutiles (variance proche de zero, correlation nulle avec la cible) avant d'appliquer des methodes plus coutenses.

Methodes wrapper : RFE et selection sequentielle

Les methodes wrapper evaluent des sous-ensembles de features en entrainant le modele sur chaque sous-ensemble. RFE (Recursive Feature Elimination) entraine le modele, elimine la feature la moins importante selon les poids du modele, repete jusqu'a atteindre le nombre cible de features. RFECV (RFE with Cross-Validation) de scikit-learn selectionne automatiquement le nombre optimal de features par validation croisee.

La selection sequentielle (forward : ajouter une feature a la fois, backward : en eliminer une a la fois) explore plus systematiquement l'espace, mais est couteuse en temps de calcul (O(n^2) iterations). SequentialFeatureSelector de scikit-learn implementent les deux. Ces methodes sont adaptees quand le nombre de features candidats est modere (< 500) et qu'on peut se permettre plusieurs heures de calcul.

Methodes embedded : Lasso, importances d'arbres et SHAP

Les methodes embedded selectionnent les features durant l'entrainement du modele. La regularisation L1 (Lasso) pousse les coefficients peu importants exactement a zero, selectionnant ainsi automatiquement les features pertinentes — tres efficace pour les modeles lineaires. SelectFromModel de scikit-learn permet d'utiliser n'importe quel estimateur avec un attribut feature_importances_ ou coef_ pour selectionner les features les plus importantes.

SHAP (SHapley Additive exPlanations) calcule la contribution marginale de chaque feature pour chaque prediction individuelle, puis les agrege pour une importance globale. Contrairement aux importances de Random Forest (biaisees vers les variables a haute cardinalite et fortement correlees entre elles), SHAP est theoriquement fonde (valeurs de Shapley de la theorie des jeux cooperatifs) et fonctionne avec n'importe quel modele, y compris les reseaux de neurones et les LLM fine-tunes.

Andrew Ng : data-centric AI

Andrew Ng (fondateur de Google Brain, deeplearning.ai) a publie en 2021 le concept de 'data-centric AI' oppose au 'model-centric AI' traditionnel. Dans ses benchmarks sur des projets industriels, ameliorer systematiquement les features et les labels — sans changer l'algorithme — produisait des gains de 10 a 40 % de precision. Son programme MLOps consacre plus de temps a la qualite des donnees et au feature engineering qu'au tuning des modeles.

Ng, A. (2021). A Chat with Andrew on MLOps: From Model-centric to Data-centric AI. DeepLearning.AI.

Applications

Feature engineering par domaine : e-commerce, fintech et NLP

La connaissance metier est la source la plus puissante de features pertinentes. Des data scientists qui comprennent le domaine extraient des features que l'automatisation ne detecte pas. Voici les patterns caracteristiques des trois domaines les plus courants.

E-commerce et recommandation

Les features les plus predictives en e-commerce : recence (jours depuis le dernier achat), frequence (nombre de commandes sur 90 jours), montant (panier moyen, somme totale) — le modele RFM (Recency-Frequency-Monetary) constitue un socle de features pour le churn et le scoring client. Features de comportement de navigation : duree de session, nombre de pages consultees, taux de rebond, pages visitees dans les 7 derniers jours avant la commande.

Features produit : taux de conversion de la fiche produit, delai de livraison attendu vs reel, taux de retour, note moyenne ponderes par volume, position dans les resultats de recherche. Features contextuelles : device (mobile vs desktop), heure de la commande, jour de la semaine, campagne marketing source. Le feature engineering e-commerce combine des agregations temporelles a plusieurs granularites (7j, 30j, 90j, 1 an).

Fintech et credit scoring

Le credit scoring est le domaine ou le feature engineering est le plus formalise. Les features classiques du scoring : ratio endettement/revenu (DTI), taux d'utilisation du credit (solde / limite), anciennete du dossier de credit, mix de types de credit (revolving, installment, mortgage), nombre d'enquetes recentes. Chacune est encodee en categories (tranches) plutot qu'en valeur continue pour capturer les effets de seuil (un DTI de 35 % est categoriquement different de 36 %).

Le Weight of Evidence (WoE) et l'Information Value (IV) sont les outils de reference du scoring bancaire : WoE = ln(distribution_bons / distribution_mauvais) pour chaque tranche de chaque variable, IV = somme des WoE x (distribution_bons - distribution_mauvais). Un IV < 0.02 : feature inutile. 0.02-0.1 : faible predictor. 0.1-0.3 : predictor modere. > 0.3 : fort predictor. L'encodage WoE transforme chaque variable en une valeur continue interpretable en termes de risque relatif.

NLP et classification de texte

Pour les taches de classification de texte (sentiment analysis, categorisation, detection de spam), le pipeline de feature engineering suit une progression de complexite. Niveau 1 — features statistiques : longueur du texte, nombre de mots, nombre de phrases, ratio majuscules/minuscules, presence de ponctuations specifiques (!, ?, ...). Ces features simples sont souvent tres predictives pour le spam et les avis extremes.

Niveau 2 — TF-IDF avec n-grams : tokenisation + stop-words removal + stemming/lemmatisation + TF-IDF sur unigrams et bigrams. Pipeline standard de scikit-learn avec TfidfVectorizer. Niveau 3 — embeddings pre-entraines : sentence-transformers (all-MiniLM-L6-v2, paraphrase-multilingual-MiniLM) produisent des vecteurs de 384 dimensions encodant la semantique. Ces vecteurs sont directement utilisables comme features pour XGBoost ou une couche de classification sur un fine-tuning BERT. Les embeddings capturent la semantique que TF-IDF ignore.

Production

Feature stores : industrialiser le feature engineering

Dans les organisations matures en ML, le feature engineering manuel ad-hoc cree des problemes : duplication de calcul entre equipes, inconsistance entre entrainement et inference (training-serving skew), impossibilite de reutiliser les features d'un projet a l'autre. Le feature store resout ces problemes en centralisant la definition, le calcul, le stockage et le serving des features.

Architecture offline / online

Le store offline stocke les features batch dans un data warehouse (BigQuery, Snowflake, Redshift) ou un data lake (Delta Lake, Iceberg). Il est utilise pour l'entrainement des modeles et la creation de datasets historiques. Les calculs sont planifies (toutes les heures, tous les jours selon la fraicheur requise) et les features sont versionnees. Le store online stocke les memes features a faible latence (Redis, DynamoDB, Cassandra, Bigtable) pour les servir en temps reel lors des predictions — latence cible < 10ms.

Un catalogue central assure que les features offline et online sont synchronisees et que chaque feature est documentee (definition metier, proprietaire, date de derniere mise a jour, transformations appliquees, version du code de calcul). Quand un Data Scientist entraine un modele, il recupere les features depuis le store offline avec la meme logique de calcul que celle utilisee en production — eliminant une source majeure de bugs silencieux.

Point-in-time correctness : l'invariant de tout feature store

La point-in-time correctness garantit que lors de la creation d'un dataset d'entrainement, les features associees a chaque exemple (client, transaction) correspondent aux valeurs qui etaient disponibles au moment de l'evenement — pas les valeurs actuelles, pas les valeurs du lendemain. Sans cette garantie, on calcule des aggregations sur des donnees du futur : le client avait-il fait 5 transactions au moment de l'achat, ou est-ce qu'on utilise le compte actuel de 47 ?

Les feature stores implementent cette garantie via des requetes temporelles ponctuelles : 'donne-moi les features de l'entite X telles qu'elles existaient a la date T'. Feast supporte le point-in-time join nativement via sa fonction get_historical_features. Sans feature store, reproduire cette garantie manuellement avec des jointures SQL temporelles (WHERE event_timestamp <= label_timestamp) est possible mais error-prone et difficile a auditer de maniere systematique.

Outils feature store : choisir selon la stack

Feast (open-source, cloud-agnostic, s'integre avec Redis, BigQuery, Snowflake) pour les equipes qui veulent le controle et la portabilite. Tecton (SaaS enterprise, anciennement Uber Michelangelo, AWS et GCP) pour les grandes organisations. Databricks Feature Engineering (integration native Delta Lake + MLflow + Unity Catalog) pour les equipes deja sur Databricks. Vertex AI Feature Store (GCP managed, sans ops) et SageMaker Feature Store (AWS) pour les equipes cloud-native. Le critere principal : friction d'adoption — le meilleur feature store est celui que les equipes utilisent reellement.

Memorisation

Memoriser le feature engineering avec la repetition espacee

Le feature engineering repose sur une combinaison de concepts statistiques (WoE, TF-IDF, information mutuelle), de reflexes algorithmiques (quand normaliser, quand utiliser target encoding, comment gerer la point-in-time correctness) et de connaissance metier (features RFM pour le retail, DTI pour le credit, embeddings pour le NLP). La quantite de techniques et leur specificite rendent la memorisation passive inefficace.

memia propose des decks de flashcards couvrant les techniques de feature engineering, la feature selection et les patterns de production (feature stores). Chaque carte est generee et validee par IA, avec des exemples concrets et des mnemoniques. En ancrant ces concepts par la repetition espacee FSRS, ils deviennent des reflexes utilisables immediatement sur vos projets.

Questions feature engineering frequentes en entretien

Les themes recurrents : (1) Difference one-hot encoding vs target encoding vs WoE, et quand utiliser chacun. (2) Pourquoi normaliser pour KNN et SVM mais pas pour XGBoost. (3) Qu'est-ce que le data leakage et comment le detecter dans le target encoding. (4) Comment creer des features d'agregation par entite (pattern groupby). (5) Difference SHAP vs feature importances Random Forest. (6) Qu'est-ce que la point-in-time correctness et pourquoi un feature store en a besoin.

Approfondir le cluster Data & IA

Questions frequentes sur le feature engineering

Qu'est-ce que le feature engineering ?

Le feature engineering est le processus de transformation de donnees brutes en variables (features) exploitables par un algorithme ML. Il inclut le nettoyage, la creation de nouvelles variables (agregations, interactions, extractions temporelles), l'encodage des variables categorielles, la normalisation et la selection des features les plus informatives. C'est souvent l'etape qui determine 80% de la performance d'un modele.

Pourquoi le feature engineering est-il plus important que le choix d'algorithme ?

Les algorithmes ML apprennent des patterns dans l'espace des features. Des features mal construites = aucun pattern utile a apprendre, quel que soit l'algorithme. Des features riches = tout algorithme fonctionne. Pedro Domingos (2012) et Andrew Ng (2021) ont tous deux documente ce principe : ameliorer les features produit systematiquement plus de gains que l'optimisation des algorithmes sur des projets industriels.

Quelle difference entre feature engineering et feature selection ?

Le feature engineering cree de nouvelles variables a partir des donnees brutes (transformation, combinaison, extraction, agregation). La feature selection choisit parmi les variables existantes celles qui sont les plus informatives. On cree d'abord un maximum de features pertinentes, puis on selectionne celles qui contribuent le plus — les deux sont complementaires.

Faut-il toujours normaliser ses features ?

Non — ca depend de l'algorithme. Normalisation necessaire : KNN, SVM, regression logistique, reseaux de neurones (bases sur des distances ou le gradient). Normalisation inutile : Random Forest, XGBoost, LightGBM (arbres, invariants aux transformations monotones). La regule : normaliser pour tous les algorithmes sauf les methodes d'ensemble basees sur des arbres.

Qu'est-ce que le target encoding et quand l'utiliser ?

Le target encoding remplace chaque modalite d'une variable categorielle par la moyenne de la variable cible. Ideal pour les variables a haute cardinalite (des centaines ou milliers de categories) ou le one-hot encoding exploite la dimensionalite. Risque : data leakage si calcule sur tout le dataset. Solution : toujours calculer dans les folds de cross-validation. scikit-learn 1.3+ integre TargetEncoder qui le fait automatiquement.

Qu'est-ce que le Weight of Evidence (WoE) ?

Le WoE est une technique d'encodage pour le credit scoring : WoE = ln(distribution des bons / distribution des mauvais) pour chaque tranche d'une variable. Il transforme chaque variable en une valeur continue interpretable en termes de risque relatif. L'Information Value (IV) mesure le pouvoir predictif global de la variable : IV < 0.02 = inutile, 0.1-0.3 = predicteur modere, > 0.3 = fort predicteur.

C'est quoi un feature store et quand en a-t-on besoin ?

Un feature store centralise la definition, le calcul, le stockage et le serving des features ML — offline store (batch, pour l'entrainement) et online store (temps reel, pour l'inference). Il devient necessaire quand plusieurs equipes partagent des features, quand on observe des inconsistances entre entrainement et production (training-serving skew), ou quand la point-in-time correctness est critique. Outils : Feast, Tecton, Databricks Feature Engineering, Vertex AI Feature Store.

Comment SHAP aide-t-il pour la feature selection ?

SHAP calcule la contribution de chaque feature a chaque prediction individuelle (theorie des jeux — valeurs de Shapley), puis agrege pour une importance globale. Avantage vs feature importances Random Forest : SHAP n'est pas biaise vers les variables a haute cardinalite, fonctionne pour n'importe quel modele (boite noire incluse), et produit des explications locales (pourquoi cette prediction specifique) en plus des importances globales.

Qu'est-ce que la point-in-time correctness ?

La point-in-time correctness garantit que lors de la creation d'un dataset d'entrainement, les features associees a chaque exemple correspondent aux valeurs disponibles au moment de l'evenement — pas les valeurs actuelles. Sans cette garantie, on cree du data leakage temporel : les aggregations incluent des donnees du futur. Un feature store avec requetes temporelles ('features de X au moment T') resout ce probleme systematiquement.

Quand utiliser TF-IDF vs embeddings pour les features textuelles ?

TF-IDF (avec n-grams) : rapide, interpretable, fonctionne bien pour les textes courts avec un vocabulaire stable, la classification de spam, la detection de langue. Embeddings (sentence-transformers, BERT) : capturent la semantique (synonymes, contexte), meilleures performances sur des taches de similarite et de comprehension, robustes aux variations de vocabulaire. En pratique : TF-IDF comme baseline rapide, embeddings pour la performance maximale ou quand le vocabulaire est variable.

Introduction au Machine Learning

Retour au guide Data & IA

Ce que vous allez apprendre

Pourquoi le feature engineering est la discipline la plus impactante du ML

Le paradigme data-centric AI vs model-centric AI

Les quatre familles de variables

Variables numeriques : transformations et agregations

Variables categorielles : encodage et gestion de la cardinalite

Variables temporelles et series chronologiques

Features textuelles : TF-IDF, n-grams et embeddings

Techniques de transformation et de creation de features

Normalisation et mise a l'echelle : quand et pourquoi

Interactions, ratios et features polynomiales

Agregations par groupe : le pattern groupby

Feature selection : moins de features, meilleur modele

Filtres statistiques : screening rapide

Methodes wrapper : RFE et selection sequentielle

Methodes embedded : Lasso, importances d'arbres et SHAP

Feature engineering par domaine : e-commerce, fintech et NLP

E-commerce et recommandation

Fintech et credit scoring

NLP et classification de texte

Feature stores : industrialiser le feature engineering

Architecture offline / online

Point-in-time correctness : l'invariant de tout feature store

Memoriser le feature engineering avec la repetition espacee

Approfondir le cluster Data & IA

Questions frequentes sur le feature engineering

Qu'est-ce que le feature engineering ?

Pourquoi le feature engineering est-il plus important que le choix d'algorithme ?

Quelle difference entre feature engineering et feature selection ?

Faut-il toujours normaliser ses features ?

Qu'est-ce que le target encoding et quand l'utiliser ?

Qu'est-ce que le Weight of Evidence (WoE) ?

C'est quoi un feature store et quand en a-t-on besoin ?

Comment SHAP aide-t-il pour la feature selection ?

Qu'est-ce que la point-in-time correctness ?

Quand utiliser TF-IDF vs embeddings pour les features textuelles ?