sales_prediction_multiple_linear_regression

Ce projet, intitulé "Regression House Sales", est un exercice réalisé dans le cadre de la formation "Data analyst" suivie à la Wild Code School. L'exercice a été conçu pour développer une compréhension approfondie de l'exploration de bases de données et de la prédiction à l'aide de la régression linéaire multiple. L'objectif principal était de prédire les prix des maisons à partir d'un jeu de données.

Objectifs pédagogiques

A partir d'un notebook vierge : Maîtriser la manipulation et l'exploration de données avec Python (via pandas, numpy, et seaborn). Identifier et corriger les problèmes dans les données (valeurs manquantes, doublons, types de colonnes incorrects). Comprendre les relations entre variables (corrélations, distributions, et outliers). Mettre en place une modélisation prédictive à l'aide de la régression linéaire multiple.

Détails du jeu de données

Le jeu de données utilisé (« kc_house_data.csv ») comprend 21 colonnes et 21 613 entrées représentant les caractéristiques et les prix des maisons dans une région spécifique. Voici un échantillon des colonnes disponibles :

price : Prix de vente de la maison. bedrooms : Nombre de chambres. bathrooms : Nombre de salles de bain. sqft_living : Superficie habitable en pieds carrés. floors : Nombre d'étages. waterfront : Présence d'une vue sur le bord de mer (booléen). condition et grade : Qualité de la maison.

Méthodologie

1. Exploration des données

Inspection initiale : Dimensions, types de données, et valeurs manquantes.

Visualisations : Histogrammes, boxplots, scatterplots et matrice de corrélation.

Nettoyage des données : Gestion des doublons, traitement des valeurs manquantes, et conversion des types incorrects.

2. Analyse des variables

Catégorisation des variables qualitatives et quantitatives.

Identification des relations entre variables (corrélation, moyennes par catégorie).

3. Modélisation prédictive

Implémentation d'une régression linéaire multiple.

Évaluation des performances du modèle (erreur quadratique moyenne, coefficient de détermination R²).

Prérequis

Python 3.8+

Bibliothèques Python : pandas, numpy, matplotlib, seaborn, scikit-learn

Utilisation

Clonez ce dépôt :

git clone <URL-du-dépôt>

Installez les dépendances :

pip install -r requirements.txt

Lancez le notebook :

jupyter notebook "Regression House sales - Alice GONTIER.ipynb"

Suivez les étapes dans le notebook pour exécuter les analyses et le modèle.

Structure du dépôt

Regression House sales - Alice GONTIER.ipynb : Notebook Jupyter contenant les analyses et modèles.

README.md : Documentation du projet.

Résultats

Le modèle de régression linéaire multiple présente une bonne robustesse entre l'entrainement et le test. La qualité des prédictions reste moyennement performante avec des métriques d'évaluation acceptables pour un premier modèle. Les observations sur la qualité des données et les caractéristiques influentes permettent d'envisager des modèles plus avancés pour des prédictions encore plus précises.

Auteur

Ce projet a été réalisé par Alice Gontier dans le cadre d'un exercice d'apprentissage des méthodologies d'analyse de données et de modélisation prédictive.

Licence

Ce projet est sous licence GPL.

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
README.md		README.md
Regression House sales - Alice GONTIER .ipynb		Regression House sales - Alice GONTIER .ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

sales_prediction_multiple_linear_regression

Objectifs pédagogiques

Détails du jeu de données

Méthodologie

1. Exploration des données

2. Analyse des variables

3. Modélisation prédictive

Prérequis

Utilisation

Clonez ce dépôt :

Installez les dépendances :

Lancez le notebook :

Structure du dépôt

Résultats

Auteur

About

Releases

Packages

Languages

aliceaupaysdesdata/sales-prediction-multiple-linear-regression

Folders and files

Latest commit

History

Repository files navigation

sales_prediction_multiple_linear_regression

Objectifs pédagogiques

Détails du jeu de données

Méthodologie

1. Exploration des données

2. Analyse des variables

3. Modélisation prédictive

Prérequis

Utilisation

Clonez ce dépôt :

Installez les dépendances :

Lancez le notebook :

Structure du dépôt

Résultats

Auteur

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages