Aller au contenu

Du neurone formel au perceptron


Dans ce tutoriel, nous allons extraire les données contenues dans un tableau d'une page web.

Rubrique ML n°3 - Le perceptron

Dans le troisième numéro de la série de publications sur le machine learning et l'intelligence artificielle, je vous parle du perceptron (la régression logistique). En 1958, Franck Rosenblatt propose le perceptron (le réseau de neurone) basé sur le neurone formel (inspiré du neurone biologique) proposé plus tôt en 1943 par Warren McCulloch et Walter Pit. Le perceptron est la première version des réseaux de neurones. Il s'agit d'un algorithme de machine learning de classification de type linéaire. C'est une amélioration du neurone formel. Pour rappel, pour le neurone formel, les entrées tout comme les sorties sont des valeurs binaires (0 ou 1), le perceptron quant à lui prend entrée des nombres réels et est capable de résoudre des problèmes linéaires. Toutefois il est très limité aux problèmes plus complexes. Aujourd'hui il porte le nom de régression logistique.

Architecture (voir capture 📷)

Le perceptron est relativement simple. Il est composé d'une couche d'entrée de taille n (n est le nombre de variable explicatives) et une couche de sortie qui retourne une probabilité. La couche de sortie comprend une fonction d'activation qui est appliquée au résultat de la couche d'entrée (plus de détails dans la suite).

Paramètres

La régression logistique possède n + 1 paramètres qui ne sont rien d'autres que les n coefficients associés aux n variables explicatives en plus du biais. On va les noter a1, a2,....,an et b. Fonctionnement (Inférence) On effectue une combinaison linéaire des entrées avec les coefficients à laquelle on ajoute le biais. Au résultat de la combinaison linéaire on applique la fonction sigmoïde f(x) = 1/(1-exp(x)) (une valeur en 0 et 1). La sigmoïde est appelée fonction d'activation. f(x) >= 0.5 : la donnée est classée positive -> 1 f(x) < 0.5 : la donnée est classée négative -> 0 Fonction de coût et Méthode d'optimisation Pour apprendre une régression logistique, on utilise l'entropie croisée binaire comme fonction de coût et la descente de gradient comme méthode d'optimisation.

Hyper paramètres

Le pas d'apprentissage Plus il est petit, le modèle mettra du temps à trouver le minimum local.

Apprentissage

L'apprentissage se fait par lots sur plusieurs itérations. L'objectif de l'apprentissage est de trouvere les valeurs des paramètres ai et b pour lesquelles la valeur de l'entropie croisée binaire est minimale. On cherche un minimum local.

Évaluation

Plusieurs métriques peuvent être utilisées pour évaluer une régression logistique.

  1. L'accuracy (le taux de bonnes prédictions)
  2. Le rappel
  3. La précision
  4. Le F1-score

Application

La régression logistique est utilisée dans plusieurs domaines :

  • La prédiction du diagnostic médical
  • La détection de fraude
  • Le scoring

En 1960 par le professeur Bernard Widrow et Ted Hoff développe une autre variante du neurone formel, Adaptive Linear Element assez similaire au perceptron à la seule différence que ses poids sont ajustés en fonction de la somme pondérée des données en entrées au lieu des étiquettes.


Pour en savoir plus sur le machine learning et l'intelligence artificielle, abonnez-vous à la page et partager autour de vous.

Partagez sur les réseaux sociaux

Commentaires