Formation : Cycle certifiant Architecte BigData

Durée	18 jours
Code cours	CB090
Inscription

Public:

Chefs de projet,architectes

Objectifs:

Comprendre les concepts et les apports des technologies BigData. Connaître les caractéristiques techniques des bases de données NoSQL, les différentes solutions disponibles. Identifier les critères de choix. Connaître les apports des outils comme Hadoop, Spark, le rôle des différents composants, la mise en oeuvre pour du stream processing, des traitements de Machine Learning, des calculs statistiques avec les graphes.

Connaissances préalables nécessaires:

Connaissance des bases des systèmes d'information, et notions de calculs statistiques.

Déroulé pédagogique


	Comprendre les principaux concepts du Big Data ainsi que l'écosystème technologique d'un projet Big Data
Durée : 1h30 Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	L'essentiel du BigData : calcul distribué, données non structurées. Besoins fonctionnels et caractéristiques techniques des projets. La valorisation des données. Le positionnement respectif des technologies de cloud, BigData et noSQL, et les liens, implications. Concepts clés : ETL, Extract Transform Load, CAP, 3V, 4V, données non structurées, prédictif, Machine Learning. L'écosystème du BigData : les acteurs, les produits, état de l'art. Cycle de vie des projets BigData.

	Savoir analyser les difficultés propres à un projet Big Data
Durée : 1h30 Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Rôle de la DSI dans la démarche BigData. Gouvernance des données: importance de la qualité des données, fiabilité, durée de validité, sécurité des données Emergence de nouveaux métiers : Data-scientists, Data labs, Hadoop scientists, CDO, ... Intégration avec les outils statistiques présents et les outils BigData futurs.

	Déterminer la nature des données manipulées
Durée : 4h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Les différents modes et formats de stockage. Les types de bases de données : clé/valeur, document, colonne, graphe. Besoin de distribution. Définition de la notion d'élasticité. Principe du stockage réparti. Données structurées et non structurées, documents, images, fichiers XML, JSON, CSV, ... Atelier : installation d'un lac de données Hadoop/HDFS Atelier : démonstrations avec une base MongoDB et une base Cassandra sur des données de différents types.

	Appréhender les éléments de sécurité, d'éthique et les enjeux juridiques
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Les risques et points à sécuriser dans un système distribué. Aspects législatifs et éthiques: sur le stockage, la conservation de données, ..., sur les traitements, la commercialisation des données, des résultats Atelier : mise en évidence des problèmes liés à la réplication inter-régions et concernant les aspects juridiques des données : droits d'exploitation, propriété intellectuelle, ... Etude des failles de sécurité sur une infrastructure Hadoop.

	Exploiter les architectures Big Data
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Les objectifs de la supervision, les techniques disponibles. La supervision d'une ferme BigData. Objets supervisés. Les services et ressources. Protocoles d'accès. Exporteurs distribués de données. Définition des ressources à surveiller. Journaux et métriques. Application aux fermes BigData : Hadoop, Cassandra, HBase, MongoDB Besoin de base de données avec agents distribués, de stockage temporel (timeseriesDB) Produits : Prometheus, Graphite, ElasticSearch. Présentation, architectures. Les sur-couches : Kibana, Grafana. Atelier : mise en oeuvre de prometheus pour la supervision d'une ferme Cassandra sur une infrastructure distribuée multi-noeuds.

	Mettre en place des socles techniques complets pour des projets Big Data.
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Etude des différents composants d'une infrastructure BigData : Datalake : collecte des différents types de données Stockage distribué : réplication, sharding, gossip, hachage, Principe du schemaless, schéma de stockage, clé de distribution, clé de hachage Systèmes de fichiers distribués : GFS, HDFS, Ceph. Les bases de données : Redis, Cassandra, DynamoDB, Accumulo, HBase, MongoDB, BigTable, Neo4j, ... Calcul et restitution :Apport des outils de calculs statistiques Langages adaptés aux statistiques, liens avec les outils BigData. Outils de calcul et visualisation :R, SAS, Spark, Tableau, QlikView, ... Caractéristiques et points forts des différentes solutions. Atelier : mise en oeuvre du sharding avec une base de données MongoDB sur une infrastructure distribuée

Paragraphe:Cassandra

	Cassandra
Durée : 1h30 Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Introduction Historique, fonctionnalités de Cassandra, licence Format des données,"key-value", traitement de volumes importants, haute disponibilité, système réparti de base de données, ...

	Installer et configurer le SGBD NoSQL Apache Cassandra
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Installation et configuration Prérequis. Plateformes supportées. Etude du fichier de configuration : conf/cassandra.yaml Répertoire de travail, de stockage des données, gestion de la mémoire. Atelier : démarrage d'un noeud et test de l'interface cliente cqlsh.

	Appréhender le CQL (Cassandra Query Language)
Durée : 1h30 Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Commandes de base : connexion au système de base de données, création de colonnes,insertion, modification recherche, Le CQL : Cassandra Query Language. Limitations du CQL.

	Créer une base de données et manipuler ses objets
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Utilisation de Cassandra Création de bases et interrogation avec cql Définition de la notion de consistance. Eléments en jeu : Commit.log, Memtable, Quorum Comment écrire des requêtes ? Approches. Atelier : premiers pas avec une base de données Cassandra pré-chargée mise à disposition sur l'infrastructure de travaux pratiques

	Connaitre la notion de grappe au sein de la base de données
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Gestion de la grappe. Principe. Configuration des noeuds. Notion de bootstrapping et de token. Paramètres de démarrage des noeuds. Réplication: topologie du réseau et EndpointSnitch. Stratégie de réplication. Méthode d'ajout de noeuds et suppression. Architecture de stockage mémoire et disque dur, gestion des tombstones, bloom-filter Atelier : mise en place d'une configuration de production (multi-datacenters, multi-racks)

	Administrer et sécuriser un cluster Cassandra
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Exploitation. Gestion des noeuds Cassandra. Sauvegardes, snapshots et export au format JSON. Principe de cohérence, hinted_handoff, digest request et read repair. Sécurité Atelier : paramétrage, authentification et sécurisation de la base system_auth. Gestion des rôles et des autorisations sur une application standard.

	Support Hadoop et Spark
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Principe de map/reduce. Implémentation Hadoop et intégration Hadoop/Cassandra. Support Spark : Description rapide de l'architecture spark. Atelier : Mise en oeuvre depuis Cassandra. Execution d'application Spark s'appuyant sur une grappe Cassandra.

	Supervision et performances
Durée : 4h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Prometheus: apports et particularité de prometheus pour la supervision cassandra Supervision avec nodetool. Principe des accès JMX , exports JMX vers des outils de supervision. Atelier : démonstration avec Prométheus et Grafana. Performance : Présentation de l'outil de test de performance Cassandra-stress Atelier : mise en place d'un plan de stress et paramétrage.

Paragraphe:HBase

	HBase
Durée : 1h30 Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Rappels rapides sur l'écosystème Hadoop. Fonctionnalités. Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce Présentation HBase. Historique. Lien avec HDFS.

	Comprendre l’architecture et le fonctionnement de HBase
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Définitions : table, région, ligne, famille de colonnes,cellules, espace de nommage, ... Fonctionnalités : failover automatique, sharding, requêtage HBase master node, Region Master, liens avec les clients HBase. Haute disponibilité. Consistance des données. Présentation du rôle de Zookeeper. Atelier : définition d'une architecture HBase en fonction de contraintes d'utilisation

	Identifier les apports d’HBase en termes de stockage distribué des données
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Format des données dans HBase. Comparaison avec d'autres bases clés/valeurs. Présentation des différentes interfaces disponibles. Outils HBase : hbase pe et hbase ltt pour les performances, hbase shell pour l'exploitation Atelier : gestion de base avec hbase shell.

	Mener à bien l’installation
Durée : 4h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Choix des paquets. Vérification des pré-requis. Installation et configuration en mode distribué. Mise en oeuvre avec HDFS dans un environnement distribué. Test de connexion avec hbase shell. Atelier : installation d'une grappe de serveurs HBase en mode distribué Atelier : interrogations depuis le serveur http intégré.

	Savoir mettre en place une configuration distribuée
Durée : 4h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Fonctionnement en mode distribué Fonctionnement indépendant des démons (HMaster, HRegionServer, Zookeeper). Gestion de la consistance. Mise en évidence. Atelier : utilisationn des outils d'exploitation : hbck, hfile, ... Atelier : mise en oeuvre des splits sur un exemple de tables réparties. regionsplitter.

Paragraphe:Neo4J

	Neo4J
Durée : 1h30 Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Présentation Neo4j, les différentes éditions, license Fonctionnalités, stockage des données sous forme de graphes CQL : Cypher Query Language Positionnement par rapport aux autres bases de données, apports de Neo4j L'analyse de données. Cas d'usage

	Installation et configuration
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Les différentes méthodes d'installation Atelier : installation de Neo4J Enterprise Edition en cluster. Premiers pas avec l'interface web. Création de données, requêtage Import de données

	Cypher Query Language
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Syntaxe, description des relations avec CQL,les patterns Les clauses d'écriture : set, delete, remove, foreach, de lecture : match, optional match, where, count, case, ... Les fonctions : count, type, relationship, ... Principe de profondeur et de direction de relation dans une recherche Les listes et les projections maps Les algorithmes de Graphe Atelier : création d'un graphe, Requêtes de recherche, navigation dans le graphe

	Exploitation
Durée : 1h30 Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Sauvegardes et restaurations Optimisation des transactions Indexation Client jmx Points de surveillance

	Développement
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Description des APIs disponibles: .Net, Java, Javascript, Python Connexions, sessions et transactions Principe de causalité entre transactions La bibliothèque Apoc Atelier : connexion et récupération de données provenant de Cassandra

	Sécurité
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Principe et activation Paramétrage Atelier : création d'un compte sécurisé

Paragraphe:Elastic Stack

	ElasticStack
Durée : 1h30 Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Présentation, fonctionnalités, licence Positionnement Elasticsearch et les produits complémentaires : Kibana,X-Pack, Logstash, Beats Principe : base technique Lucene et apports d'ElasticSearch Définitions et techniques d'indexation

	Installation de base
Durée : 1h30 Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Prérequis techniques. Installation avec les RPM

	Outils d'interrogation
Durée : 1h30 Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Communication en RESTful avec le cluster Interface http DevTools, travaux pratiques, démonstration

	Traitement des données
Durée : 1h30 Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Structure des données. stockage, indexation Format des données. Conversion au format JSON des données à traiter. Interrogations avec Search Lite et avec Query DSL (domain-specific language) Notion de 'filtre' pour affiner des requêtes.

	Autres composants
Durée : 1h30 Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Démonstrations de Logstash, Kibana et Beats Intégration

Paragraphe:Spark

	Spark
Durée : 1h Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Présentation Spark, origine du projet,apports, principe de fonctionnement. Langages supportés. Modes de fonctionnement : batch/Streaming. Bibliothèques : Machine Learning, IA Mise en oeuvre sur une architecture distribuée. Architecture : clusterManager, driver, worker, ... Architecture : SparkContext, SparkSession, Cluster Manager, Executor sur chaque noeud. Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job

	Savoir intégrer Spark dans un environnement Hadoop
Durée : 2h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Intégration de Spark avec HDFS, HBase, Création et exploitation d'un cluster Spark/YARN. Intégration de données sqoop, kafka, flume vers une architecture Hadoop et traitements par Spark. Intégration de données AWS S3. Différents cluster managers : Spark interne, avec Mesos, avec Yarn, avec Amazon EC2 Atelier : Mise en oeuvre avec Spark sur Hadoop HDFS et Yarn. Soumission de jobs, supervision depuis l'interface web

	Développer des applications d’analyse en temps réel avec Spark Structured Streaming
Durée : 3h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Objectifs , principe de fonctionnement: stream processing. Source de données : HDFS, Flume, Kafka, ... Notion de StreamingContext, DStreams, démonstrations. Atelier : traitement de flux DStreams en Scala. Watermarking. Gestion des micro-batches. Intégration de Spark Structured Streaming avec Kafka Atelier : mise en oeuvre d'une chaîne de gestion de données en flux tendu : IoT, Kafka, Spark Structured Streaming, Spark. Analyse des données au fil de l'eau.

	Faire de la programmation parallèle avec Spark sur un cluster
Durée : 2h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Utilisation du shell Spark avec Scala ou Python. Modes de fonctionnement. Interprété, compilé. Utilisation des outils de construction. Gestion des versions de bibliothèques. Atelier : Mise en pratique en Java, Scala et Python. Notion de contexte Spark. Extension aux sessions Spark.

	Manipuler des données avec Spark SQL
Durée : 3h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Spark et SQL Traitement de données structurées. L'API Dataset et DataFrames Jointures. Filtrage de données, enrichissement. Calculs distribués de base. Introduction aux traitements de données avec map/reduce. Lecture/écriture de données : Texte, JSon, Parquet, HDFS, fichiers séquentiels. Optimisation des requêtes. Mise en oeuvre des Dataframes et DataSet. Compatibilité Hive Atelier : écriture d'un ETL entre HDFS et HBase Atelier : extraction, modification de données dans une base distribuée. Collections de données distribuées. Exemples.

	Support Cassandra
Durée : 1h Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Description rapide de l'architecture Cassandra. Mise en oeuvre depuis Spark. Exécution de travaux Spark s'appuyant sur une grappe Cassandra.

	Spark GraphX
Durée : 2h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Fourniture d'algorithmes, d'opérateurs simples pour des calculs statistiques sur les graphes Atelier : exemples d'opérations sur les graphes.

	Avoir une première approche du Machine Learning
Durée : 2h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Machine Learning avec Spark, algorithmes standards supervisés et non-supervisés (RandomForest, LogisticRegression, KMeans, ...) Gestion de la persistance, statistiques. Mise en oeuvre avec les DataFrames. Atelier : mise en oeuvre d'une régression logistique sur Spark

Paragraphe:Kafka

	Kafka
Durée : 1h Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Le projet Kafka : historique, fonctionnalités, principe de fonctionnement. Présentation de l'architecture et du rôle de chaque composant : broker, producer, consumer Liaison éventuelle avec Zookeeper. Impacts.

	Acquérir les bonnes pratiques de distribution de messages
Durée : 3h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Etude de la configuration du broker Atelier : création d'une configuration multi-broker, démarrage de plusieurs noeuds Atelier : création d'un topic simple et mise en oeuvre d'une chaîne de base. Visualisation des messages avec kafka-console-consumer

	Savoir configurer Kafka pour intégrer les données de différents formats et de sources différentes
Durée : 2h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Kafka Connect : présentation des fonctionnalités : intégration de données d'origines multiples, modes de fonctionnement (standalone ou distribué) Types de connecteurs Atelier : configuration de connecteurs, ingestion de données, création d'une chaîne de transformation

	Appréhender les différentes APIs de Kafka.
Durée : 2h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Conception d'applications avec Kafka. Principe de fonctionnement. Atelier : développement de prototypes en Python, Java, Scala Couplage avec SparkStreaming en mode batch, en mode continu Principe et architecture de Kafka Streams

	Mettre en oeuvre KSQL
Durée : 2h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Conception d'application avec KSQL. La sur-couche KSQL. Présentation de ksqlDB. Création de flux en KSQL. Les ajouts SQL pour permettre le traitement en flux. Micro-batchs. Introduction au water-marking. Atelier : mise en oeuvre d'une chaîne de traitement avec KSQL

	Travailler en sécurité avec Kafka
Durée : 2h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Intégrité et confidentialité : Chiffrement SSL et authentification SASL. Sécurisation de l'infrastructure : Zookeeper, proxy Rest Disponibilité : La réplication. Facteur de réplication. Partitions Atelier : tests de haute disponibilité dans une configuration multi-noeuds

	Exploitation
Durée : 1h Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Mise en oeuvre de kafka-tool Gestion des logs Détection de pannes : méthodes et outils Benchmarks

Paragraphe:Intégration SQL

	Intégration SQL
Durée : 1h Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Besoin. Adéquation entre les objectifs et les outils. Faciliter la manipulation de gros volumes de données en conservant une approche utilisateurs. Rappels sur le stockage : HDFS, Cassandra, HBase et les formats de données : parquet, orc, raw, clés/valeurs Les outils : Hive, Impala, Tez, Presto, Drill, Phoenix, Spark-sql, Spark Dataframe

	Hive
Durée : 2h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Présentation Hive. Mode de fonctionnement. Rappel sur map/reduce. Hive : le langage HiveQL. La surcouche Tez. Atelier : création de tables, requêtage, connexion avec Hbase.

	Impala et Phoenix
Durée : 3h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Présentation Impala. Cadre d'utilisation. Contraintes. Liaison avec le métastore Hive. Atelier : mise en évidence des performances. Présentation Phoenix. Cadre d'utilisation. Contraintes. Atelier : connexion et requêtage sur une table Hbase.

	Presto
Durée : 2h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Cadre d'utilisation. Sources de données utilisables. Atelier : mise en oeuvre d'une requête s'appuyant sur Cassandra et PostgreSQL.

	Spark-sql et Spark DataFrame
Durée : 2h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Les différentes approches. Syntaxe Spark-sql, Spark/scala, pyspark. APIs QL. Utilisation du métastore Hive. Atelier : mise en oeuvre d'une requête s'appusant sur une table HBase et sur HDFS. Requêtage en spark-sql sur un fichier csv.

	Drill
Durée : 2h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Utilisation d'APIs JDBC, ODBC. Indépendance Hadoop. Contraintes d'utilisation. Performances. Atelier : lecture de fichiers Parquets dans du HDFS, jointures, connexion et requêtage sur une table Hbase.

	Comparatifs
Durée : 1h Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Compatibilité ANSI/SQL. Approches des différents produits. Critères de choix.

	Le scénario
Durée : 1h Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Afin de déterminer quelles sont les espèces végétales adaptées à chaque zone géographique, des ingénieurs BigData d'un laboratoire de recherche doivent mettre en place un process de collecte et stockage de photos satellites et mettre à disposition des data-scientists du laboratoire une architecture adéquate pour les analyses.

	La méthode
Durée : 1h Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Simulation d'un cas d'étude, avec un travail collaboratif sur des données réelles, accessibles en opendata, et des labs techniques (cluster cassandra, hadoop, spark, elasticstack, etc ..) Épreuves personnelles et épreuves en commun vont permettre de valider les connaissances et d'échanger entre participants, tout en bénéficiant du soutien et des explications complémentaires du formateur sur les thèmes proposés

	Les jeux
Durée : 1h Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Jeux d'architecture, la techno mystère, l'intrus, les points de faiblesse, etc...

	Le debrief
Durée : 1h Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Retour des travaux, bilan des points individuels et classement des joueurs. Retour d'expérience des participants

Retour au descriptif
Modalités et délais d'accès
Méthodes mobilisées

Pythagore-F.D.

01 55 33 52 10
pfd@pythagore-fd.fr

Calendrier
Code cours : CB090

Contenu de la formation
Cycle certifiant Architecte BigData:

Comprendre les principaux concepts du Big Data ainsi que l'écosystème technologique d'un projet Big Data
Savoir analyser les difficultés propres à un projet Big Data
Déterminer la nature des données manipulées
Appréhender les éléments de sécurité, d'éthique et les enjeux juridiques
Exploiter les architectures Big Data
Mettre en place des socles techniques complets pour des projets Big Data.
Cassandra
Cassandra
Installer et configurer le SGBD NoSQL Apache Cassandra
Appréhender le CQL (Cassandra Query Language)
Créer une base de données et manipuler ses objets
Connaitre la notion de grappe au sein de la base de données
Administrer et sécuriser un cluster Cassandra
Support Hadoop et Spark
Supervision et performances
HBase
HBase
Comprendre l’architecture et le fonctionnement de HBase
Identifier les apports d’HBase en termes de stockage distribué des données
Mener à bien l’installation
Savoir mettre en place une configuration distribuée
Neo4J
Neo4J
Installation et configuration
Cypher Query Language
Exploitation
Développement
Sécurité
Elastic Stack
ElasticStack
Installation de base
Outils d'interrogation
Traitement des données
Autres composants
Spark
Spark
Savoir intégrer Spark dans un environnement Hadoop
Développer des applications d’analyse en temps réel avec Spark Structured Streaming
Faire de la programmation parallèle avec Spark sur un cluster
Manipuler des données avec Spark SQL
Support Cassandra
Spark GraphX
Avoir une première approche du Machine Learning
Kafka
Kafka
Acquérir les bonnes pratiques de distribution de messages
Savoir configurer Kafka pour intégrer les données de différents formats et de sources différentes
Appréhender les différentes APIs de Kafka.
Mettre en oeuvre KSQL
Travailler en sécurité avec Kafka
Exploitation
Intégration SQL
Intégration SQL
Hive
Impala et Phoenix
Presto
Spark-sql et Spark DataFrame
Drill
Comparatifs
Le scénario
La méthode
Les jeux
Le debrief

Accès à la liste des cours

Vous pouvez bien entendu composer votre programme personnel à partir de nos descriptifs de cours

Version du document : Q729
Date de mise à jour du document : 2023/08/29

Formations au coeur des technologies