-
Type de la Formation
Formation Présentielle BIG DATA
-
Durée
21 Heures
APACHE SPARK
Spark est un framework open source pour le traitement et l'analyse de données massives. Il est rapide, flexible et facile à utiliser, ce qui en fait un choix populaire pour les entreprises et les organisations de toutes tailles. Dans ce cours, nous allons apprendre les bases de Spark, y compris ses principaux composants, son architecture et son fonctionnement. Nous explorerons également les différents cas d'utilisation de Spark, ainsi que ses API et ses optimisations.
Objectifs pédagogiques
- Décrire les principaux composants de Spark.
- Expliquer l'architecture de Spark.
- Exécuter des applications Spark.
- Utiliser les différentes API de Spark.
- Optimiser les performances des applications Spark.
Durée
- 21 Heures
Cout/HT
- 1200€
Public Concerné
- Tout développeur ou consultant IT souhaitant développer des compétences en analyse de données et BIG DATA
- Architect et Tech-lead
- Ingénieurs d’étude, de recherche et développement
- Statisticiens et Mathématiciens
- Data scientist
Prérequis
- Avoir des Connaissances Fondamentales en Informatique.
- Avoir des Notions de Systèmes de Gestion de Données.
- Avoir des Compétences en Programmation (Java ou Scala).
- Avoir une Motivation pour les Technologies Big Data.
- Avoir des Connaissances de Base sur les Systèmes Distribués.
Moyens pédagogiques et d’encadrement
- Cours théorique assurés par des formateurs expérimentés
- Support de cours détaillés
- Séries d’exercices et travaux pratiques
- Un pc avec accès à tous les outils nécessaires au cours
Suivi et évaluation des résultats
- Examen écrit & QCM
- Présentation & Atelier
- Compte rendu individuel
- Attestation de présence
- Enquêtes de de satisfaction
Programme
- Définition d'Apache Spark
- Pourquoi Apache Spark ?
- La suite Apache Spark
- * Spark Core
- * Spark Streaming
- * Spark SQL
- * Spark Mlib
- * Spark GraphX
- Apache Spark – Terminologie
- * Driver
- * Cluster Manager
- * Workers
- * Executor
- * Spark Application Context
- * Task/Stage/Job
- * SparkContext/SparkSession
- Architecture
- * Driver
- * Executor
- Spark en Action
- * Anatomie d’une application Spark
- * Déroulement d’un Job Spark
- * Cluster mode Vs Client mode
- Resilient Distributed Dataset
- * RDD – Types d’opérations
- * RDD – Persistance
- API SPark
- * Broadcast
- * Accumulator
- * Collect
- * Map/mapToPair
- * flatMap/flatMapTopair
- * Reduce/ReduceByKey
- * Les filtres
- * Les joins
- Données structurées sur Spark
- * Dataset
- * DataFrame
- * Spark SQL
- * Comparaison
- * Quand utiliser Quoi ?
- Optimisation d’un job Spark
- * Mémoire : Tungsten
- * Calcul : Catalyst
Modalité d’accès
Notre organisme de formation veille que toute personne en Situation de handicap puisse accéder à nos formations dans la Mesure des moyens d'adaptation organisationnelle et techniques pouvant être mis en œuvre pour l'accompagner.
Pour les personnes ayant un handicap, merci de nous contacter afin que l'on puisse s'organiser.