Formation : Spark ML

Durée	2 jours
Code cours	DS033
Inscription

Public:

Chefs de projet,architectes

Objectifs:

Savoir mettre en oeuvre les outils de Machine Learning sur Spark, savoir créer des modèles et les exploiter.

Connaissances préalables nécessaires:

Connaissance d'un langage de programmation comme Python, Java ou Scala.

Déroulé pédagogique


	Introduction
Durée : 1h30 Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Rappels sur Spark : principe de fonctionnement, langages supportés.

	DataFrames
Durée : 1h30 Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Objectifs : traitement de données structurées. L'API Dataset et DataFrames Optimisation des requêtes. Mise en oeuvre des Dataframes et DataSet. Chargement de données, pré-traitement : standardisation, transformations non linéaires, discrétisation Génération de données.

	Traitements statistiques de base
Durée : 1h30 Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Introduction aux calculs statistiques. Paramétrisation des fonctions. Applications aux fermes de calculs distribués. Problématiques induites. Approximations. Précision des estimations. Exemples sur Spark : calculs distribués de base : moyennes, variances, écart-type, asymétrie et aplatissement (skewness/kurtosis)

	Machine Learning
Durée : 1h30 Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Apprentissage automatique : définition, les attentes par rapport au Machine Learning Les valeurs d'observation, et les variables cibles. Ingénierie des variables. Les méthodes : apprentissage supervisé et non supervisé. Classification, régression. Fonctionnalités : Machine Learning avec Spark, algorithmes standards, gestion de la persistence, statistiques.

	Mise en oeuvre sur Spark
Durée : 3h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Mise en oeuvre avec les DataFrames. Algorithmes : régression linéaire, k-moyennes, k-voisins, classification naïve bayésienne, arbres de décision, forêts aléatoires, etc ... Création de jeux d'essai, entraînement et construction de modèles. Prévisions à partir de données réelles. Atelier : régression logistiques, forêts aléatoires, k-moyennes. Recommandations, recommendForAllUsers(), recommendForAllItems();

	Modèles
Durée : 1h30 Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Chargement et enregistrement de modèles. Mesure de l'efficacité des algorithmes. Courbes ROC. MulticlassClassificationEvaluator(). Mesures de performance. Descente de gradient. Modification des hyper-paramètres. Application pratique avec les courbes d'évaluations.

	Spark/GraphX
Durée : 3h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Gestion de graphes orientés sur Spark Fourniture d'algorithmes, d'opérateurs simples pour des calculs statistiques sur les graphes Atelier : exemples d'opérations sur les graphes.

	IA
Durée : 1h Méthodes pédagogiques : exposé/échanges Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle	Introduction aux réseaux de neurones. Les types de couches : convolution, pooling et pertes. L'approche du Deep Learning avec Spark. Deeplearning4j sur Spark.

Retour au descriptif
Modalités et délais d'accès
Méthodes mobilisées

Pythagore-F.D.

01 55 33 52 10
pfd@pythagore-fd.fr

Calendrier
Code cours : DS033

Contenu de la formation
Spark ML:

Introduction
DataFrames
Traitements statistiques de base
Machine Learning
Mise en oeuvre sur Spark
Modèles
Spark/GraphX
IA

Accès à la liste des cours

Vous pouvez bien entendu composer votre programme personnel à partir de nos descriptifs de cours

Version du document : R726
Date de mise à jour du document : 2024/08/26

Formations au coeur des technologies