Logo de l'organisme de formation
Représentation de la formation : Big Data : Hadoop, Spark, Kafka, NoSQL (Cassandra, MongoDB), Data lakes

Big Data : Hadoop, Spark, Kafka, NoSQL (Cassandra, MongoDB), Data lakes

Formation présentielle
Accessible
Durée : (5 jours)
Durée :(5 jours)
Net de TVA
S'inscrire
Durée :(5 jours)
Net de TVA
S'inscrire
Durée :(5 jours)
Net de TVA
S'inscrire

Formation créée le 24/01/2025. Dernière mise à jour le 28/01/2025.

Version du programme : 1

Programme de la formation

Dans un monde où les données sont au cœur de la transformation numérique, cette formation vous permet de maîtriser les outils et technologies essentiels pour gérer, analyser et traiter des données massives. Vous apprendrez à utiliser des plateformes Big Data comme Hadoop, Spark, Kafka, ainsi que des bases de données NoSQL telles que Cassandra et MongoDB. En outre, cette formation vous introduira au concept de Data Lakes pour le stockage et l'analyse de grandes quantités de données non structurées.

Objectifs de la formation

  • Comprendre et utiliser Hadoop pour le traitement distribué de données massives.
  • Exploiter Spark pour les calculs en mémoire à grande échelle.
  • Implémenter des systèmes de messagerie avec Kafka pour le streaming de données en temps réel.
  • Concevoir et gérer des bases de données NoSQL avec Cassandra et MongoDB.
  • Construire et gérer des Data Lakes pour centraliser les données provenant de différentes sources.
  • Optimiser les architectures Big Data pour traiter des données volumineuses, variées et complexes

Profil des bénéficiaires

Pour qui
  • Ingénieurs Big Data et Architectes Data souhaitant approfondir leurs compétences sur les outils et technologies modernes. Développeurs ou Data Engineers qui veulent se spécialiser dans les technologies de traitement de données massives. Analystes de données ou scientifiques de données qui cherchent à travailler avec des données volumineuses dans des environnements complexes. Responsables IT ou Consultants en Data désireux d'intégrer des solutions Big Data dans leurs entreprises.
Prérequis
  • Une expérience de base en programmation (Java, Python) et en gestion de bases de données est recommandée mais non indispensable.

Contenu de la formation

  • Jour 1 : Introduction au Big Data et Hadoop
    • Qu'est-ce que le Big Data et pourquoi c'est important ?
    • Introduction à Hadoop : Architecture et fonctionnement
    • HDFS (Hadoop Distributed File System) : Stockage et gestion des données massives
    • Introduction aux jobs MapReduce pour le traitement parallèle des données
  • Jour 2 : Apache Spark
    • Comprendre Spark : Concepts et architecture
    • RDDs (Resilient Distributed Datasets) et DataFrames pour le traitement des données
    • Traitement de données avec Spark SQL et Spark Streaming
    • Optimisation des performances avec Spark : Tuning et configuration
  • Jour 3 : Apache Kafka et gestion du streaming de données
    • Introduction à Kafka : Architecture et principes de fonctionnement
    • Configuration d'un cluster Kafka pour la gestion des flux de données en temps réel
    • Producers et Consumers : Gestion du flux de données entre applications
    • Traitement de flux avec Kafka Streams
  • Jour 4 : Bases de données NoSQL - Cassandra et MongoDB
    • Introduction aux bases de données NoSQL et leurs cas d'usage
    • Apache Cassandra : Installation, configuration, et gestion des données massives
    • MongoDB : Modélisation des données et requêtes dans une base de données orientée document
    • Comparaison entre SQL et NoSQL et quand utiliser chaque technologie
  • Jour 5 : Data Lakes et gestion des données non structurées
    • Introduction aux Data Lakes : Concepts et architecture
    • Intégration des Data Lakes avec Hadoop et Spark pour des analyses à grande échelle
    • Stockage de données non structurées (images, logs, vidéos, etc.) dans un Data Lake
    • Bonnes pratiques et sécurité dans la gestion des Data Lakes
Équipe pédagogique

Responsable Julien Broue j.broue@easypartner.fr Référente Handicap - Sandrine Blondeau /s.blondeau@easypartner.fr Formateurs Externes à venir

Modalités de certification

Résultats attendus à l'issue de la formation
  • À l’issue de la formation, chaque participant doit démontrer une compréhension claire des technologies Big Data et leur application dans des scénarios réels. Cela inclut la gestion de données massives, le traitement en temps réel, et la gestion des bases de données NoSQL.
Modalité d'obtention
  • Les participants devront réaliser un projet pratique qui sera évalué par les formateurs, en intégrant les outils et concepts appris au cours de la formation.
Détails sur la certification
  • Un certificat de compétence en Big Data sera délivré aux participants ayant complété la formation avec succès.

Capacité d'accueil

Entre 5 et 15 apprenants

Délai d'accès

4 semaines

Accessibilité

Accessible aux personnes en situation de handicap : soit dans vos locaux s'ils sont adaptés, soit dans une salle réservée par nos soins et conforme aux réglementations en vigueur