55 cartesPremium

Architecture Azure – Databricks / Synapse / Fabric

Comparer et positionner les principales plateformes analytics Azure.

Langue
Français
Thème
Certifications Cloud & Data
Catégorie
Business & décision

Pourquoi apprendre avec des flashcards ?

Les flashcards combinées à la répétition espacée renforcent la mémorisation active. Vous révisez au bon moment, vous retenez plus durablement, et vous mesurez vos progrès carte après carte.

Exemples de cartes du deck

Carte 1

Dans un Lakehouse Azure, quel composant centralise le stockage des données brutes et raffinées ?

Un data lake unifié basé sur Azure Data Lake Storage

Explication

Le Lakehouse repose sur un data lake unique où coexistent données brutes, intermédiaires et modélisées, accessible via plusieurs moteurs de calcul.

Erreur fréquente

Confondre Lakehouse avec un simple entrepôt SQL sans couche data lake mutualisée.

Carte 2

Quel bénéfice principal apporte la séparation compute-stockage dans Azure analytics ?

Le dimensionnement et l’arrêt indépendants des ressources de calcul

Explication

Décorréler compute et stockage permet d’adapter le calcul aux workloads, puis d’arrêter les clusters sans perdre les données.

Erreur fréquente

Penser que la séparation compute-stockage réduit automatiquement les coûts sans stratégie d’arrêt des clusters.

Carte 3

Quel rôle clé joue Azure Data Lake Storage dans Databricks et Synapse ?

Il sert de couche de stockage commune pour tous les moteurs de calcul

Explication

ADLS fournit un stockage durable, scalable et partagé entre Spark, SQL et autres services, garantissant un socle unique aux architectures Lakehouse.

Erreur fréquente

Le considérer comme un simple dépôt de fichiers plutôt qu’un socle transversal d’architecture.

Carte 4

Dans Azure, quelle caractéristique de Spark SQL le rend adapté aux gros volumes distribués ?

L’exécution distribuée des requêtes sur des partitions de données

Explication

Spark SQL répartit les opérations sur plusieurs nœuds, exploitant le partitionnement pour paralléliser les traitements massifs.

Erreur fréquente

Le traiter comme un simple moteur SQL classique sans considérer le partitionnement et la distribution.

Carte 5

Pour optimiser les performances Spark, quelle action clé doit être prise sur les partitions ?

Aligner le partitionnement logique sur les principaux filtres de requêtes

Explication

Un partitionnement cohérent avec les prédicats de filtrage réduit les scans inutiles et améliore la parallélisation.

Erreur fréquente

Sur-partitionner sans lien avec les usages, ce qui dégrade la performance et la gestion des fichiers.

Carte 6

Quelle pratique réduit le plus efficacement les coûts de compute Spark sur Azure ?

Automatiser l’arrêt des clusters inactifs après un délai court

Explication

Les clusters facturant à la minute, l’arrêt automatique à l’inactivité évite un gaspillage massif de ressources.

Erreur fréquente

Se concentrer uniquement sur le type de VM sans gérer le cycle de vie des clusters.

Carte 7

Quel critère principal oriente vers Spark plutôt que SQL classique pour un workload analytics ?

La nécessité de traiter des volumes massifs avec transformations complexes distribuées

Explication

Spark est pertinent quand l’élasticité et le calcul distribué sont indispensables pour des traitements lourds et variés.

Erreur fréquente

Utiliser Spark pour de petites requêtes transactionnelles où un moteur SQL classique est plus efficace.

Carte 8

Dans Azure Databricks, quel objet logicale regroupe notebooks, jobs et permissions ?

Le workspace Databricks associé à une ressource Azure Databricks

Explication

Le workspace fournit l’interface collaborative, la gestion des artefacts et l’intégration avec les ressources Azure sous-jacentes.

Erreur fréquente

Confondre workspace Databricks avec le simple groupe de ressources Azure qui l’héberge.

Carte 9

Quelle caractéristique distingue un job cluster d’un all-purpose cluster Databricks ?

Le job cluster est créé et supprimé à chaque exécution planifiée

Explication

Les job clusters sont éphémères pour exécuter des workloads batch, alors que les all-purpose servent aux usages interactifs partagés.

Erreur fréquente

Utiliser des all-purpose clusters pour les pipelines batch, ce qui augmente les coûts et complique l’isolement.

Carte 10

Dans quel cas privilégier un déploiement Databricks multi-user plutôt que single-user ?

Lorsque plusieurs data engineers collaborent sur des notebooks partagés

Explication

Le mode multi-user permet la collaboration, le partage de clusters et la gouvernance fine des accès.

Erreur fréquente

Utiliser des workspaces single-user pour des équipes, ce qui multiplie les silos et la complexité opérationnelle.

Prêt à réviser efficacement ?

Créez votre compte Memia pour débloquer ce deck et lancer vos sessions de révision avec suivi de progression.