
Data Science : Python (pandas, numpy), R, Exploratory Data Analysis, Modélisation statistique
Formation créée le 24/01/2025. Dernière mise à jour le 28/01/2025.
Version du programme : 1
Programme de la formation
Cette formation complète en Data Science vous permettra de maîtriser les outils essentiels tels que Python (avec pandas et numpy), R, et de comprendre les concepts clés de l'Exploratory Data Analysis (EDA) ainsi que la modélisation statistique. À l’issue de cette formation, vous serez capable d'analyser et de modéliser des données complexes, de réaliser des prévisions, et de rendre les résultats accessibles pour des décisions stratégiques.
Objectifs de la formation
- Utiliser Python et R pour analyser et traiter des données.
- Appliquer des bibliothèques telles que pandas, numpy en Python pour l'analyse de données.
- Mettre en œuvre des techniques d'Exploratory Data Analysis (EDA) pour explorer les ensembles de données et en extraire des informations pertinentes.
- Construire des modèles statistiques pour effectuer des prévisions et des analyses prédictives.
- Communiquer les résultats de manière claire et efficace pour des prises de décision basées sur les données.
Profil des bénéficiaires
- Développeurs souhaitant se spécialiser en Data Science.
- Chercheurs ou étudiants en mathématiques, statistique, économie ou informatique, qui souhaitent travailler avec des outils de data science.
- Analystes de données, data analysts ou data engineers désireux d'approfondir leurs compétences.
- Aucune expérience préalable en Data Science n'est requise, mais une bonne maîtrise des concepts de programmation est un plus.
Contenu de la formation
-
Jour 1 : Introduction à Python et R pour la Data Science
- Présentation de l'environnement Python et R
- Manipulation des données avec pandas et numpy
- Structure des données en Python et R
- Importation et nettoyage des données
-
Jour 2 : Exploratory Data Analysis (EDA)
- Visualisation de données avec matplotlib et seaborn (Python)
- Techniques d'exploration pour comprendre la distribution des données
- Détection des outliers et gestion des données manquantes
- Calculs statistiques descriptifs et analyses initiales
-
Jour 3 : Introduction à la modélisation statistique
- Concepts fondamentaux de la statistique descriptive et inférentielle
- Tests statistiques (t-test, chi2 test, ANOVA)
- Introduction à la régression linéaire
- Evaluation de modèles avec métriques de performance (MSE, RMSE, R²)
-
Jour 4 : Modélisation avancée et machine learning
- Régression multiple et logistique
- Introduction aux modèles de machine learning (classification, clustering)
- Algorithmes de machine learning (forêts aléatoires, SVM)
- Sur-apprentissage et sous-apprentissage
-
Jour 5 : Projets et mise en pratique
- Réalisation d'un projet complet de modélisation statistique
- Discussion des résultats et présentation des insights
- Préparation des résultats pour une présentation professionnelle
Responsable Julien Broue j.broue@easypartner.fr Référente Handicap - Sandrine Blondeau /s.blondeau@easypartner.fr Formateurs Externes à venir
Modalités de certification
- À la fin de la formation, chaque participant doit démontrer sa capacité à effectuer des analyses de données avancées, modéliser statistiquement des datasets et en tirer des conclusions utiles.
- Les participants devront réaliser un projet de fin de formation, qui sera évalué en fonction de la précision de l’analyse, la qualité du modèle, et la clarté des résultats présentés.
- Les participants recevront un certificat de compétence reconnu dans l'industrie, attestant de leur capacité à utiliser des outils de data science pour résoudre des problèmes complexes.