Les fondamentaux du Machine Learning
L'intelligence artificielle n'est plus un mythe, elle est devenue une réalité. Les machines sont capables d'affectuer des tâches initialement réservées aux humains et cela est possible grâce à l'apprentissage, c'est tout l'objet du machine learning. Dans cette formation, je vous propose de découvrir les notions fondamentales du machine learning et la librairie Scikit-learn de l'INRIA.
Les machines apprennent est une phrase assez tendance ces dernières années, mais de quoi s'agit-il exactement et comment est-ce que cela marche. Concrètement, les machines apprennent à partir des données. Les machines L'apprentissage automatique consiste à identifier des modèles dans des données à des fins de prédiction.
Le nouveau paradigme
Traditionnellement, on décrit de manière explicite à la machine le comment elle doit effectuer une tâche. Dans le cadre du machine learning, la machine apprend elle-même comment effectuer les tâches à partir des donnnées.
L'apprentissage automatique
L'apprentissage automatique est la science qui construit des machines capables d'apprendre à partir de données. Il s'agit d'un ensemble de techniques permettant de construire des modèles prédictifs à partir de données. On distingue trois formes d'apprentissage, l'apprentissage supervisé, l'apprentissage non supervisé et l'apprentissage par renforcement.
Le machine learning est à la croisée de trois disciplines, Mathématiques + Statistique + Informatique.
Il existe trois différents types d'apprentissage automatique à savoir :
- l'apprentissage supervisé,
- l'apprentissage non-supervisé
- et l'apprentissage par renforcement.
L'apprentissage supervisé
Il s'agit de la forme d'apprentissage la plus répandue. Ensemble de techniques permettant de construire des modèles prédictifs à partir de données. Voici quelques problèmes qu'il permet de résoudre:
- Quel est le risque qu’un client ne puisse pas rembourser son crédit ?
- Quel est le prix juste d’une maison étant donné ses caractéristiques ?
- Quelle est la nature d’une tumeur ?
L'apprentissage non supervisé
Dans le cadre de l'apprentissage par renforcement, les données ne sont pas labelisées, l'algorithme doit identifier des modèles dans les données.
L'apprentissage par renforcement
L'apprentissage par renforcement est un mode d'apprentissage exploratoire où la machine apprend à effectuer une tâche sur le principe de l'exercice. Plus long est l'apprentissage, meilleur est le résultat. C'est le mode d'apprenitssage par lequel, on apprend aux machine à jouer, Alpha Go est un exemple.
Les applications
Les systèmes d’Intelligence Artificielle battent les humains aux échecs ou au jeu de Go, ils sont capables de conduire des voitures et même de piloter des avions de chasse, ils sont capables d’effectuer des diagnostics médicaux particulièrement la détection de cancers. Le monde du travail connaît de grandes mutations, les métiers de Data Scientist ou encore d’Ingénieur Machine Learning pour ne citer que ceux-là voient le jour. Bien entendu, comme l'imprimante a provoqué la disparition des scribes, certains métiers sont menacés de disparition par l'Intelligence Artificielle va aussi provoquer de nombreuses mutations dans le monde du travail, les métiers de traducteur, de chauffeur de taxi.
L'intelligence artificielle
L'intelligence artificielle repose essentiellement sur le machine learning. En effet depuis, la plupart des systèmes d'intelligence artificielle sont basés sur des modèles de machine.
Les progrès de l’Intelligence Artificielle sont très rapides et aujourd'hui, l’on ne parle plus du numérique sans évoquer le sujet. Ses enjeux sont tels qu'elle est devenue une priorité stratégique et politique pour les grandes puissances qui ont consenti d'importants investissements dans la recherche. Du diagnostic médical aux voitures autonomes en passant par les systèmes de reconnaissance faciale, la publicité ciblée, la transcription de la parole, les robots humanoïdes ou encore les assistants vocaux, l’Intelligence Artificielle a envahi tous les domaines et cela va s’amplifier dans les années à venir. Il ne fait aucun doute que nous assistons à une nouvelle révolution technologique dont les promesses sont juteuses. Selon l’étude Sizing the prize du cabinet PwC, en 2030, l’IA devrait générer plus de 15.000 milliards de dollars.
Pas de confusion
Une phrase revient très souvent lorsqu’on parle d’intelligence artificielle, la fameuse phrase «Les machines apprennent.» et l’on a tendance à identifier l’IA à l’apprentissage automatique. L’apprentissage automatique n’est qu’un sous-domaine de l’IA. Cette quasi association vient du fait que la ferveur autour de l’IA est due aux dernières avancées en apprentissage automatique (l’apprentissage profond en particulier).
Les game changers
Trois phénomènes sont à l’origine de cette révolution, d’une part les avancées théoriques réalisées dans dans le domaine de l'apprentissage automatique avec la mise au point de nouveaux algorithmes (les réseaux de neurones convolutionnels et l’algorithme de rétropropagation du gradient en particulier), et d’autre part l’arrivée de nouvelles cartes graphiques les GPUs (Graphics Processing Unit) qui rendent les machines capables de milliards d’opérations par seconde et enfin l’augmentation des capacités de stockage et de traitement des données massives (Big Data), données qui ont notamment servi à alimenter les algorithmes.
Les métiers
On distingue deux grand métiers du machine learning à savoir:
- Data Scientist
- Machine Learning Engineer
- MLOps Engineer
Pour en savoir sur les métiers du machine learning, je vous renvoie à cet article qui traite du sujet cliquez ici.
Azure Data Scientist Associate
La certification Google Tensorflow Developer Certificate est une certification qui permet aux Data Scientist de mettre en valeur leur expertise du machine learning.
- Concevoir et préparer une solution de Machine Learning
- Explorer les données et entraîner des modèles
- Préparer un modèle pour le déploiement
- Déployer et réentraîner un modèle
Cas Pratique
Dans le cadre de cette formation, nous travaillerons sur un projet directeur, la détection du cancer de la prostate.
Je vous invite à lire ce document dans lequel Yann LeCun explique très bien ce que c'est que l'apprentissage automatique, Intelligence_Artificielle_Y_LeCun.pdf. Dans la prochaine, nous allons mettre en place l'environnement de travail et installer les dépendances.