SÃ©parateurs Ã Vastes Marges#

DÃ©finition#

Il sâ€™agit dâ€™un algorithme de classification binaire de type linÃ©aire. Un SVM cherche Ã maximiser la marge entre les classes.

Trouver la meilleure droite pour laquelle les points sont le plus Ã©loignÃ©s possible. (deux dimensions).

Principe de la rÃ©gression linÃ©aire#

1. ProblÃ¨me#

Il sâ€™agit dâ€™un algorithme de classification binaire de type linÃ©aire. Un SVM cherche Ã maximiser la marge entre les classes.

Trouver la meilleure droite pour laquelle les points sont le plus Ã©loignÃ©s possible. (deux dimensions).

Classification non-linÃ©aires
Classification multi-classes
RÃ©gression

Exemples:

PrÃ©dire la valeur d'un bien
PrÃ©dire le poids en fonction de la taille
PrÃ©dire la tempÃ©rature sur la base

2. DonnÃ©es#

Les variables explicatives sont dÃ©signÃ©es par X et la variable expliquÃ©e par Y. X est une matrice de taille (n, p), n Ã©tant la taille des donnÃ©es et p le nombre de variables.

3. Fonction de perte#

L'erreur de prÃ©diction sur la moyenne de la somme des carrÃ©es des erreurs. MAE

4. MÃ©thode d'optimisation#

La solution du problÃ¨me est obtenu graÄ‰e Ã des solveurs

RÃ©Ã©crire la fonction objectif
Trouver le problÃ¨me dual
Câ€™est le problÃ¨me dual qui est rÃ©solu

Packages#

Scikit-learn implÃ©mente l'algorithme des sÃ©parateurs Ã vastes marges avec la classe sklearn.svm.LinearSV.

Importer les packages

from sklearn.svm import LinearSV

Standardiser les donnÃ©es#

Les variables n'ont pas la mÃªme Ã©chelle de grandeur et il faut corriger cela. Si l'algorithme utilisÃ© est juste ie s'il ne s'agit pas d'un algorithme dont l'apprentissage est itÃ©ratif, on peut bien garder les valeurs comme telles. Mais dans notre exemple ici, nous allons ramener toutes les variables Ã la mÃªme Ã©chelle de grandeur.

Standardiser les donnÃ©es

scaler = StandardScaler()
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_train_scaled = pd.DataFrame(X_train_scaled, columns=list(X_train.columns))

Conversion en valeurs numÃ©riques#

Les algorithmes de machine learning ne consomment que des chiffres et des nombres, il est donc nÃ©cessaire de convertir les valeurs non numÃ©riques (catÃ©gorielles) en numÃ©rique.

Noyau polynomial
Noyau sigmoidal
Noyau gaussien

Classification multi-classes#

One vs Rest ou One vs All#

Une maniÃ¨re de le faire est dâ€™entraÃ®ner autant de modÃ¨les que de classes. Ensuite on prÃ©dit la classe dont le modÃ¨le donne le plus grand score.

RÃ©fÃ©rences#

Pour signaler un problÃ¨me que vous avez rencontrÃ© durant l'exÃ©cution des cahiers, merci de crÃ©er une issue. Assurez-vous que vous avez les bonnes versions des packages*