Experts en bases de données, chefs de projet et toute personne souhaitant comprendre le fonctionnement et les apports des bases NoSQL.
Comprendre les connexions existantes entre les mondes relationnels et NoSQL en environnement Big Data. Savoir mettre en oeuvre Hive, Impala, Phoenix, les Spark Dataframes.
Connaissance générale des systèmes d'informations et des bases de données.
|
| Présentation |
Durée : 1h30 Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle | Besoin. Adéquation entre les objectifs et les outils. Faciliter la manipulation de gros volumes de données en conservant une approche utilisateurs. Rappels sur le stockage : HDFS, Cassandra, HBase et les formats de données : parquet, orc, raw, clés/valeurs Les outils : Hive, Impala, Tez, Presto, Drill, Phoenix, Spark-sql, Spark Dataframe
|
|
| Hive |
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux | Présentation Hive. Mode de fonctionnement. Rappel sur map/reduce. Hive : le langage HiveQL. La surcouche Tez.Atelier : création de tables, requêtage, connexion avec Hbase.
|
|
| Impala et Phoenix |
Durée : 3h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux | Présentation Impala. Cadre d'utilisation. Contraintes. Liaison avec le métastore Hive. Atelier : mise en évidence des performances.
Présentation Phoenix. Cadre d'utilisation. Contraintes.Atelier : connexion et requêtage sur une table Hbase.
|
|
| Presto |
Durée : 2h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux | Cadre d'utilisation. Sources de données utilisables. Atelier : mise en oeuvre d'une requête s'appuyant sur Cassandra et PostgreSQL.
|
|
| Spark-sql et Spark DataFrame |
Durée : 2h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux | Les différentes approches. Syntaxe Spark-sql, Spark/scala, pyspark. APIs QL. Utilisation du métastore Hive.Atelier : mise en oeuvre d'une requête s'appusant sur une table HBase et sur HDFS. Requêtage en spark-sql sur un fichier csv.
|
|
| Drill |
Durée : 2h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux | Utilisation d'APIs JDBC, ODBC. Indépendance Hadoop. Contraintes d'utilisation. Performances. Atelier : lecture de fichiers Parquets dans du HDFS, jointures, connexion et requêtage sur une table Hbase.
|
|
| Comparatifs |
Durée : 1h Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle | Compatibilité ANSI/SQL. Approches des différents produits. Critères de choix.
|