Formations au coeur des technologies

Essayer, tester, échanger les bonnes pratiques, partager les retours d'expériences, ...
toutes nos formations sont disponibles à distance (classes virtuelles) et en centre de formation (présentiel), au choix.
Vous pouvez même changer de modalité en cours de formation, si vous avez des contraintes : par exemple, commencer en présentiel et continuer les jours suivants à distance.
Les outils pédagogiques et l'infrastructure de travaux pratiques mis à disposition sont accessibles depuis nos locaux, ou depuis votre entreprise ou votre lieu de télétravail, à volonté
N'hésitez pas à tester nos formations et nos serious games !

Formation : Talend : intégration de données

Durée3 jours
Code coursCB060
Inscription

Public:

Consultants BI, Architectes, Chefs de projets, Gestionnaires de données ou toute personnes devant gérer des flux de données.

Objectifs:

A l’issue de la formation, le stagiaire sera capable d’utiliser Talend pour intégrer et manipuler les principaux flux de données.

Connaissances préalables nécessaires:

Maîtrise des SGBDR et de SQL.

Objectifs pédagogiques:

  • Maîtriser Talend dans un environnement Big Data
  • Se servir de Talend comme lien entre les fichiers, applications et bases de données
  • Acquérir la philosophie de l'outil
  • Adopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et robustes
  • Être capable d'implémenter ses Jobs
  • Lire et écrire des données sur HDFS et dans des bases de données NoSQL avec des Jobs Talend
  • Réaliser des Jobs de transformation à l'aide de Pig et Hive
  • Gérer la qualité de la donnée avec Talend
  • Utiliser Sqoop pour faciliter la migration de bases de données relationnelles dans Hadoop
  • Maîtriser l'utilisation de la bibliothèque de composants
  • Effectuer des traitements ETL (Extraction, Transform and Load) simple et complexes de bout en bout

Déroulé pédagogique


Acquérir la philosophie de l'outil
Durée : 1h
Méthodes pédagogiques : exposé/échanges
Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle
Augmenter les attentes en matière de gestion des données.
Rappels sur les solutions ETL.
Ecosystème Talend : Data integration, big data, realtime big datas, data fabric. Intégration, intégrité et gouvernance des données dans une seule et même plateforme unifiée.
Présentation de TMC (talend management cloud).
Présentation Talend OpenStudio : installation, configuration des préférences utilisateurs. Documentation.
Concevoir des jobs simples avec Talend OpenStudio.
Comprendre le fonctionnement de Talend : schéma et propagation de schémas au travers de composants, flux de composants.
Se servir de Talend comme lien entre les fichiers, applications et bases de données
Durée : 2h
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Intégrer les liens avec les bases de données : présentation des bases de données supportées.
Opérations sur les tables, connexion à un schéma de bases de données.
Gérer les transactions
Utilisation de SQLBuilder pour créer des requêtes
Atelier : réaliser une transformation d'un fichier plat vers une table SQL


Maîtriser l'utilisation de la bibliothèque de composants
Durée : 3h
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Utiliser le Designer, la palette. Zoom sur les composants.
Tour d'horizon des différentes familles de composants
Atelier : mise en oeuvre des composants jointures, tests, associations, multi-sorties


Création d'un composant. Paramétrage d'un composant. Création de liaison "Main".
Atelier : mise en oeuvre des composants tFileInputDelimited et tMap.


Être capable d'implémenter ses Jobs
Durée : 2h
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Création d'un job. Création dans le référentiel.
Analyse du code et exécution des jobs.
Optimiser les jobs, utilisation des joblets
Utilisation des métadonnées, import/export, propagation sur les jobs, configuration de connexions réutilisables
Utiliser des contextes. Exploiter le composant tContextLoad
Gérer le traitement des jobs : les composants tPreJob et tPostJob. Recherche de jobs.
Activer/désactiver un élément.
Importer/exporter un élément
Atelier : création d'un flux à embranchements multiples avec exploitation du composant tRunIf


Gérer la qualité de la donnée avec Talend
Durée : 2h
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Mise en oeuvre des principales connexions.
Intégration de fichiers XML, CSV et JSON. Filtrer et orienter la donnée avec le composant regex.
Etude des composants de transformation.
Les composants tAddCRCRow, tChangeFileEncoding, tUniqueRow et tIntervalMatch.
Normaliser la donnée avec tNormalize
Atelier : création d'un flux de transformation de données et enrichissement


Adopter des bonnes pratiques et concevoir des Systèmes d’informations flexibles et robustes
Durée : 2h
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Modélisation des applications.
Présentation des outils : Business Modeler, JobDesigner
Partager avec les équipes une vue non technique des besoins en terme de flux, opérations, gouvernance des données.
Atelier : création d'un modèle à partir de diagrammes fonctionnels retraçant les fonctionnalités à prendre en compte, à implémenter dans le projet, développement réalisés par les Jobs.


Maîtriser Talend dans un environnement Big Data
Durée : 1h
Méthodes pédagogiques : exposé/échanges
Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle
Intégration de Talend dans un environnement Hadoop. Parallélisation des tâches.
Comprendre les mécanismes BigData dans la suite Talend. Dénormalisation BigData et normalisation SGBD.
Présentation des composants BigData, connexion HDFS, mappage et stockage HDFS.
Les composants BigData disponibles.
Lire et écrire des données sur HDFS et dans des bases de données NoSQL avec des Jobs Talend
Durée : 2h
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Liens avec les bases de données : présentation des bases de données supportées.
Lecture et écriture HDFS et bases Nosql supportées.
Comprendre les composants tHDFSInput, tHDFSOutput et tHDFSConnection.
Atelier : création d'un Job ETL de base de transformation.


Utiliser Sqoop pour faciliter la migration de bases de données relationnelles dans Hadoop
Durée : 2h
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Comprendre le composant tSqoopExport et le projet Sqoop pour transférer des données du système de fichiers distribué Hadoop (Hadoop Distributed File System, HDFS) vers un système de gestion de base de données relationnelle (SGBDR).
Atelier : Mise en oeuvre de tSqoopExport / tSqoopImport entre une base SQL et Hadoop HDFS


Réaliser des Jobs de transformation à l'aide de Pig et Hive
Durée : 3h
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Jointure Pig. Comprendre les composants tPigLoad, tPigStoreResult et tPigMap
Comprendre les composants tHiveConnection et tHiveRow
Couplage HBase.
Atelier : réalisation d'un ETL Pig sur un lac Hadoop distribué, entre des fichiers plats et des fichiers parquets.

Atelier : réalisation d'un requêteur Hive les fichiers structurés Hadoop


Effectuer des traitements ETL (Extraction, Transform and Load) simple et complexes de bout en bout
Durée : 1h30
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Traitement de données multi-sources.
Le composant tMap
Génération de sorties multiples
Extensions :
décomposition de jobs, mise en oeuvre du tRunJob,
debugging, analyse des statistiques d'exécution,
reporting avec jJasperOutput
Atelier : création de jointures, transformations à l'aide des variables, expressions et jointures, qualification des données à l'aide de filtres.



Retour au descriptif
Modalités et délais d'accès
Méthodes mobilisées