Introduction au Machine Learning : concepts fondamentaux et algorithmes

Fondamentaux

IA, Machine Learning, Deep Learning : les distinctions cles

L'intelligence artificielle (IA) est le domaine general visant a creer des systemes capables d'accomplir des taches qui requierent normalement l'intelligence humaine. Le machine learning (ML) en est un sous-ensemble : plutot que de programmer des regles explicitement, on fournit des donnees au systeme pour qu'il deduise lui-meme les patterns. Le deep learning est a son tour un sous-ensemble du ML, base sur des reseaux de neurones artificiels a plusieurs couches.

Cette distinction n'est pas purement academique. Un systeme ML traditionnel comme une regression logistique est interpretable, rapide a entrainer et deployable sur du materie standard. Un modele deep learning comme un transformeur necessite des GPU, des millions de donnees et un budget de calcul significatif. Choisir la bonne approche depend du probleme, du volume de donnees disponibles et des contraintes operationnelles.

Origines

Alan Turing pose les bases theoriques du ML en 1950 avec son article 'Computing Machinery and Intelligence'. Arthur Samuel invente l'expression 'machine learning' en 1959 lors de ses travaux sur un programme de jeu de dames capable de s'ameliorer par l'experience.

Samuel, A.L. (1959). Some Studies in Machine Learning Using the Game of Checkers. IBM Journal of Research and Development.

Taxonomie

Les trois grandes familles d'apprentissage

Le ML se divise en trois paradigmes selon la nature du signal d'apprentissage disponible. Chaque paradigme repond a des types de problemes distincts et implique des algorithmes differents.

Apprentissage supervise

L'apprentissage supervise utilise des paires (entree, sortie attendue) pour apprendre une fonction de mapping. On distingue deux cas : la classification (sortie discrete : spam/non-spam, diagnostic positif/negatif) et la regression (sortie continue : prix d'un bien, temperature prevue).

Exemples typiques : detection de fraude bancaire, scoring de credit, reconnaissance d'image, prediction de churn. La qualite du label est critique : un jeu de donnees mal annote produit un modele biaise, quel que soit l'algorithme choisi.

Apprentissage non supervise

Quand les labels sont absents ou trop couteux a obtenir, l'apprentissage non supervise extrait des structures latentes des donnees seules. Les principales taches sont le clustering (K-Means, DBSCAN), la reduction de dimensionalite (PCA, UMAP, t-SNE) et la detection d'anomalies.

Applications concretes : segmentation client, detection d'intrusion reseau, recommandation de contenu, compression de donnees. Le resultat est plus difficile a evaluer objectivement car il n'existe pas de 'bonne reponse' de reference.

Apprentissage par renforcement

Un agent interagit avec un environnement, recoit des recompenses ou des penalites, et apprend une politique maximisant le cumul de recompenses a long terme. Ce paradigme a produit les systemes les plus spectaculaires : AlphaGo, les IA de jeux Atari, les algorithmes de trading haute frequence.

L'apprentissage par renforcement est egalement au coeur des techniques RLHF (Reinforcement Learning from Human Feedback) utilisees pour aligner les grands modeles de langage comme GPT ou Claude sur les preferences humaines.

Repartition en entreprise

L'apprentissage supervise represente environ 85 % des cas d'usage ML en production selon les enquetes Kaggle et O'Reilly ML surveys. La principale raison : la disponibilite de donnees historiques labelisees dans les systemes metier (CRM, ERP, outils de ticketing).

Algorithmes

Les algorithmes fondamentaux a connaitre

Le paysage algorithmique du ML est vaste, mais quelques familles d'algorithmes couvrent l'immense majorite des cas d'usage. Les connaitre permet de choisir rapidement un bon point de depart et d'interpreter les resultats.

Regression lineaire et logistique

La regression lineaire predit une valeur continue (y = wX + b) en minimisant l'erreur quadratique. Simple, interpretable et rapide, elle constitue un excellent baseline pour tout probleme de regression. La regression logistique etend ce principe a la classification en appliquant une fonction sigmoide pour produire une probabilite.

Ces modeles ont l'avantage cle de l'interpretabilite : les coefficients indiquent directement l'impact de chaque variable sur la prediction, ce qui est crucial dans les domaines reglementes (credit, sante, justice).

Arbres de decision, Random Forest et XGBoost

Un arbre de decision apprend des regles de segmentation hierarchiques (si age > 35 ET revenu > 50k ALORS ...). Intuitif mais prone a l'overfitting, il est generalement remplace par des methodes d'ensemble.

Random Forest construit des centaines d'arbres sur des sous-echantillons aleatoires et moyenne leurs predictions (bagging). XGBoost et LightGBM utilisent le gradient boosting : chaque arbre corrige les erreurs du precedent. Ces methodes dominent les competitions Kaggle sur donnees tabulaires et sont largement utilisees en production pour leur robustesse.

Reseaux de neurones et deep learning

Un reseau de neurones est compose de couches de neurones artificiels connectes par des poids ajustables. L'apprentissage se fait par retropropagation du gradient : on calcule l'erreur en sortie et on ajuste les poids en remontant le reseau.

Pour les donnees non structurees (images, texte, audio), les architectures specialisees comme les CNN (vision), les transformeurs (NLP) ou les GNN (graphes) surpassent systematiquement les algorithmes traditionnels — au prix d'une complexite computationnelle et d'une opacite bien plus elevees.

Pratique

Le pipeline ML de bout en bout

Un modele ML ne vit pas en isolation. De la collecte des donnees a la mise en production, un pipeline ML structure est indispensable pour produire des modeles fiables et reproductibles.

Preparation et nettoyage des donnees

Les data scientists passent en moyenne 60 a 80 % de leur temps sur les donnees : collecte, nettoyage, traitement des valeurs manquantes, detection d'outliers, encodage des variables categorielle. Un jeu de donnees propre et representatif vaut plus qu'un algorithme sophistique applique a des donnees bruitees.

Les operations typiques incluent : imputation (remplacement des valeurs manquantes par la mediane, la moyenne ou un modele), normalisation des distributions, correction des erreurs de saisie et gestion des desequilibres de classes (oversampling SMOTE, undersampling, class_weight).

Feature engineering

Le feature engineering transforme les variables brutes en representations plus informatives pour le modele. Par exemple, a partir d'une date de naissance, on peut extraire l'age, le groupe d'age, le jour de la semaine ou la saison — chacune potentiellement plus predictive que la date brute.

C'est souvent l'etape qui produit le plus grand gain de performance, bien plus que le choix d'un algorithme plus complexe. Le feature engineering fait l'objet d'un article dedie dans ce cluster.

Entrainement et optimisation des hyperparametres

L'entrainement consiste a ajuster les parametres du modele sur les donnees d'entrainement (train set). L'optimisation des hyperparametres (learning rate, profondeur max des arbres, nombre de couches) se fait sur le jeu de validation via grid search, random search ou des methodes bayesiennes (Optuna, Hyperopt).

La separation train/validation/test est non-negociable : le test set ne doit jamais etre vu pendant l'entrainement ou le tuning, sous peine de fuite de donnees (data leakage) qui produit des metriques artificiellement flatteuses.

Overfitting

L'overfitting survient quand le modele memorise le bruit du jeu d'entrainement au lieu d'apprendre des patterns generalisables. Symptome : excellentes performances sur le train set, mediocres sur le test set. Remedes : regularisation (L1/L2, dropout), plus de donnees, simplification du modele, validation croisee.

Evaluation

Comment evaluer un modele ML

Le choix des metriques d'evaluation est aussi important que le choix de l'algorithme. Une metrique mal choisie peut conduire a deployer un modele qui performe bien sur le papier mais echoue sur le vrai probleme metier.

Metriques de classification

La precision (accuracy) est trompeuse sur des jeux desequilibres : un modele predisant toujours 'negatif' atteint 99 % d'accuracy si 1 % seulement des cas sont positifs. Les metriques complementaires sont la precision (parmi les positifs predits, combien sont vraiment positifs ?), le rappel (parmi les vrais positifs, combien sont detectes ?) et le F1-score, leur moyenne harmonique.

La courbe ROC et l'AUC (Area Under Curve) mesurent la capacite de discrimination du modele sur tous les seuils de decision. Un AUC de 0.5 est aleatoire, 1.0 est parfait. La courbe Precision-Recall est preferable pour les problemes tres desequilibres.

Metriques de regression

Pour la regression, le MAE (Mean Absolute Error) mesure l'erreur moyenne en valeur absolue, interpretable dans l'unite de la variable cible. Le MSE (Mean Squared Error) penalise davantage les grandes erreurs (utile si les outliers sont couteux). Le RMSE est la racine carree du MSE, dans la meme unite que la variable cible.

Le coefficient R² (entre 0 et 1) mesure la proportion de variance expliquee par le modele. Un R² de 0.85 signifie que le modele explique 85 % de la variabilite des donnees, les 15 % restants etant du bruit ou des facteurs non inclus.

Validation croisee et robustesse

La validation croisee k-fold divise les donnees en k partitions, entraine k modeles (chacun excluant une partition) et moyenne les scores. Elle donne une estimation plus robuste des performances reelles qu'une simple separation train/test, surtout sur des jeux de donnees de taille moderee.

Pour les series temporelles, la validation croisee doit respecter l'ordre chronologique (TimeSeriesSplit) pour eviter le look-ahead bias : on ne peut pas utiliser des donnees futures pour predire le passe.

Memorisation

Memoriser le machine learning avec memia

Le machine learning est un domaine dense : vocabulaire technique, formules mathematiques, distinctions algorithmiques fines, pieges classiques comme l'overfitting ou le data leakage. La repetition espacee est la methode scientifiquement la plus efficace pour ancrer ces concepts durablement.

memia propose des decks de flashcards sur les fondamentaux du ML, les algorithmes, l'evaluation de modeles et le pipeline de production. Chaque carte est generee et validee par IA, avec des hints et des mnemoniques pour accelerer la memorisation. En 10 minutes par jour, les concepts cles deviennent des reflexes.

Approfondir le cluster Data & IA

Questions frequentes sur le machine learning

Quelle est la difference entre machine learning et intelligence artificielle ?

L'intelligence artificielle est le domaine general visant a creer des systemes intelligents. Le machine learning en est un sous-ensemble qui apprend des patterns a partir de donnees plutot que de suivre des regles programmees explicitement. Tout ML est de l'IA, mais toute IA n'est pas du ML.

Faut-il savoir programmer pour faire du machine learning ?

Python est le langage dominant du ML, avec des bibliotheques comme scikit-learn, PyTorch et TensorFlow. Des notions de statistiques et d'algebre lineaire sont egalement utiles. Cela dit, des outils no-code comme Google AutoML ou DataRobot permettent de construire des modeles sans code.

Combien de donnees faut-il pour entrainer un modele ML ?

Cela depend de la complexite du probleme et de l'algorithme. Une regression logistique peut fonctionner avec quelques centaines d'exemples ; un reseau de neurones profond en necessite des millions. La qualite des donnees prime souvent sur la quantite : 10 000 exemples bien labelises valent mieux que 1 million de donnees bruitees.

Qu'est-ce que l'overfitting et comment l'eviter ?

L'overfitting survient quand un modele memorise les details du jeu d'entrainement au lieu d'apprendre des patterns generalisables. Il se detecte par un ecart important entre les performances train et test. Les remedes principaux : regularisation (L1/L2), dropout (pour les reseaux de neurones), validation croisee, et augmenter la taille du jeu d'entrainement.

Quel algorithme ML choisir pour mon probleme ?

Pour les donnees tabulaires, commencer par une regression logistique (classification) ou lineaire (regression) comme baseline, puis essayer XGBoost ou LightGBM. Pour les images, les CNN ou les vision transformers. Pour le texte, les transformers (BERT, RoBERTa). La regle generale : privilegier la simplicite et l'interpretabilite quand les contraintes metier l'exigent.

C'est quoi le deep learning et quand l'utiliser ?

Le deep learning utilise des reseaux de neurones a plusieurs couches (couches cachees). Il excelle sur les donnees non structurees (images, son, texte) et avec de grands volumes de donnees. Il est moins adapte aux donnees tabulaires classiques (ou XGBoost domine souvent) et necessite plus de ressources de calcul et d'expertise.

Comment evaluer si mon modele est bon ?

Choisissez des metriques alignees avec l'objectif metier : accuracy pour des classes equilibrees, F1-score ou AUC-ROC pour des classes desequilibrees, RMSE ou MAE pour la regression. Comparez toujours votre modele a un baseline simple (predire la moyenne, la classe majoritaire). Et testez sur des donnees reellement inedites pour eviter le data leakage.

Sous-guide IA/ML

Feature Engineering

Ce que vous allez apprendre