RÃ©gression linÃ©aire

La rÃ©gression linÃ©aire est l'un des algorithmes les plus connus. Elle est toujours enseignÃ© au lycÃ©e. Il permet de rÃ©soudre des problÃ¨mes de rÃ©gression de type linÃ©aire.

DÃ©finition

La rÃ©gression linÃ©aire est un modÃ¨le de rÃ©gression linÃ©aire est un modÃ¨le de rÃ©gression qui cherche Ã Ã©tablir une relation linÃ©aire entre une variable, dite expliquÃ©e, et une ou plusieurs variables, dites explicatives.
WikipÃ©dia : https://fr.m.wikipedia.org/wiki/R%C3%A9gression_lin%C3%A9aire

La rÃ©gression linÃ©aire repose sur l'hypothÃ¨se d'une relation linÃ©aire entre la variable dÃ©pendante y et les prÃ©dicteurs X. La valeur de y serait donc une combinaison linÃ©aire des prÃ©dicteurs.

La solution d'une rÃ©gression est obtenue grÃ¢ce Ã la mÃ©thode des moindres carrÃ©s ordinaires qui consiste Ã minimiser les erreurs de prÃ©dictions.

On appelle rÃ©sidu (ou erreur) la diffÃ©rence entre la valeur prÃ©dite et la valeur rÃ©elle. On note epsilon = y - Å·

https://scikit-learn.org/stable/modules/linear_model.html#ordinary-least-squares

Principe de la rÃ©gression linÃ©aire

1. ProblÃ¨me

La rÃ©gression linÃ©aire permet de rÃ©pondre Ã des problÃ¨mes linÃ©aires. L'utilisation de la rÃ©gression linÃ©aire suppose qu'il existe une relation linÃ©aire entre les variables explicatives et la variable expliquÃ©e.

Exemples:

PrÃ©dire la valeur d'un bien
PrÃ©dire le poids en fonction de la taille
PrÃ©dire la tempÃ©rature sur la base

2. DonnÃ©es

Les variables explicatives sont dÃ©signÃ©es par X et la variable expliquÃ©e par Y. X est une matrice de taille (n, p), n Ã©tant la taille des donnÃ©es et p le nombre de variables.

3. Fonction de perte

L'erreur de prÃ©diction sur la moyenne de la somme des carrÃ©es des erreurs. MAE

4. MÃ©thode d'optimisation

La solution d'une rÃ©gression linÃ©aire peut Ãªtre dÃ©terminÃ©e de maniÃ¨re analytique. Il est possible d'apprendre une rÃ©gression linÃ©aire avec une mÃ©thode itÃ©rative, dans ce cas on utilise gÃ©nÃ©ralement la descente de gradient.

Solution analytique (approche directe)
Descente de gradient (approche itÃ©rative)

Librairies

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, r2_score

Importation des donnÃ©es

Le jeu de donnÃ©es contient les rÃ©sultats d'Ã©lÃ¨ves.

data = pd.read_csv("data/StudentsPerformance.csv")
data.head()

	gender	race/ethnicity	parental level of education	lunch	test preparation course	math score	reading score	writing score
0	female	group B	bachelor's degree	standard	none	72	72	74
1	female	group C	some college	standard	completed	69	90	88
2	female	group B	master's degree	standard	none	90	95	93
3	male	group A	associate's degree	free/reduced	none	47	57	44
4	male	group C	some college	standard	none	76	78	75

La tÃ¢che consiste Ã prÃ©dire la note en Ã©criture writing score en fonction de la note en lecture reading score.

Exploration

plt.figure(figsize=(10, 8))
sns.scatterplot(x="reading score", y="writing score", alpha=0.5, data=data)
plt.show()

$No description has been provided for this image$

Ã‰chantillonnage

X = data["reading score"].values.reshape(-1, 1)
y = data["writing score"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3, shuffle=True, random_state=42)

ModÃ©lisation

lr = LinearRegression()
lr.fit(X_train, y_train)

LinearRegression()

a, b = lr.coef_[0], lr.intercept_
print("ModÃ¨le: aX + b")
print("a =", a)
print("b =", b)

ModÃ¨le: aX + b
a = 0.9916505366266591
b = -0.5086241001645675

plt.figure(figsize=(10, 8))
sns.scatterplot(x=X_train[:, -1], y=y_train, alpha=0.5, label="DonnÃ©es")
plt.plot([0, 100], [b, a*100+b], color="red", label="ModÃ¨le")
plt.xlabel("reading score")
plt.ylabel("writing score")
plt.title("RÃ©gression linÃ©aire de `writing score` sur `reading score`")
plt.legend(loc="best")
plt.show()

No description has been provided for this image

Ã‰valuation

y_pred = lr.predict(X_test)

print("Moyenne des carrÃ©s des erreurs: ", mean_absolute_error(y_test, y_pred))
print("R^2 Score: ", r2_score(y_test, y_pred))

Moyenne des carrÃ©s des erreurs:  3.6737022607831356
R^2 Score:  0.9154964112229643

plt.figure(figsize=(10, 8))
sns.scatterplot(x=y_test, y=y_pred)
plt.plot([0, 100], [b, a*100+b], color="black")
plt.xlabel("Bonnes valeurs")
plt.ylabel("Valeurs prÃ©dites")
plt.show()

La rÃ©gression linÃ©aire Ridge est une variante de a rÃ©gression linÃ©aire abordÃ©e dans la publication prÃ©cÃ©dente. Elle prend en compte les corrÃ©lations qui peuvent avoir entre certaines variables explicatives, ainsi ces variables seront pondÃ©rÃ©es de la maniÃ¨re.

from sklearn.linear_model import Ridge

reg = Ridge(alpha=alpha)
reg.fit(X_train, y_train)

a, b = reg.coef_, reg.intercept_

from sklearn.linear_model import Lasso

reg = Lasso(alpha=alpha)
reg.fit(X_train, y_train)

a, b = reg.coef_, reg.intercept_

RÃ©fÃ©rences

Pour signaler un problÃ¨me que vous avez rencontrÃ© durant l'exÃ©cution des cahiers, merci de crÃ©er une issue. Assurez-vous que vous avez les bonnes versions des packages*