Restez à l'avant-garde. Recevez les derniers articles en suivant notre page LinkedIn
ai bias

IA : corriger les biais de l’apprentissage automatique

Nous publions une série de trois articles traitant de l’intelligence artificielle. Le premier article propose une réflexion sur les biais de l’IA. Le deuxième article met en lumière la réglementation de l’IA dans l’UE. Dans le troisième article, nous cherchons à expliquer les décisions prises par les algorithmes d’IA.

IJ’ai participé au sommet de l’IA in Lyon il y a quelques jours, une conférence organisée par OMNES Education. Je suis conférencier dans cette école. Je préfère que vous le sachiez afin d’éviter un biais de lecture. Mes articles parlent et analysent les technologies émergentes. Les biais sont partout, qu’ils soient conscients ou non (idéologie, connaissance partielle, névrose…, factures à payer).
Quand on parle d’Intelligence Artificielle, les personnes averties savent qu’au-delà de la technologie, l’élément le plus important est la donnée – la taille des jeux de données, la récurrence de nouveaux jeux, la qualité des données, etc. – qui alimentent le « cerveau » de l’IA.
our les non-experts – parfois réticents – le biais de l’IA est donc assez évident : c’est le biais lié aux données. Comme pour tout système, toute entité, toute recherche, éviter les biais est la clé du succès. Mais il faut en être conscient ! Les biais humains ne peuvent jamais être corrigés : c’est ce qui fait tout le plaisir de notre vie. Phylosophiquement, c’est la caractéristique de l’être humain. Les biais d’une IA peuvent être corrigés (par l’humain ou de manière méta, c’est-à-dire par des IA spécialisées), c’est la nature de l’artificiel.

LIRE ÉGALEMENT L’IA et la Blockchain vont transformer les études de marché

Depuis la disparition de Neandertal, l’Homme avait le monopole de l’intelligence conceptuelle. Le terme « intelligence » décrit la fonction cognitive qui consiste à prendre conscience des situations, à en tirer des enseignements et à les appliquer pour prendre des décisions. Le terme « artificiel » fait référence aux machines.
Le terme « intelligence artificielle » (IA) est utilisé lorsqu’une machine imite les fonctions cognitives que les humains associent à d’autres esprits humains. Par rapport à l’intelligence programmée par l’homme, l’IA est capable de créer ses propres algorithmes par le biais du processus d’apprentissage machine (ML).

Les principaux défis auxquels l’intelligence artificielle est actuellement confrontée

Les trois sujets considérés comme des défis dans le domaine de l’apprentissage machine (ML) sont : le biais et l’équité, les signaux faibles et l’apprentissage sur les réseaux.
Il ne s’agit que d’une vue partielle des défis de l’IA, qui est un domaine très vaste et surtout interdisciplinaire. L’IA est un ensemble d’outils, de méthodes et de technologies qui permettent à un système d’effectuer des tâches de manière quasi-autonome, et il existe différentes façons d’y parvenir.

Le ML consiste en l’apprentissage de la machine à partir d’exemples, en s’entraînant à effectuer des tâches de manière efficace par la suite. Les grandes réussites dans ce domaine sont la vision par ordinateur et l’écoute automatique, utilisées pour des applications en biométrie par exemple, ainsi que le traitement du langage naturel. L’une des questions qui se posent actuellement est de savoir quelle confiance on peut accorder aux outils de ML, car l’apprentissage profond nécessite de très grands volumes de données, qui proviennent souvent du web.

Contrairement aux ensembles de données qui étaient auparavant collectés par les chercheurs, les données du web ne sont pas acquises de manière « contrôlée ». Et la nature massive de ces données peut parfois conduire à ignorer les questions méthodologiques qu’il faudrait se poser pour exploiter les informations qu’elles contiennent. Par exemple, l’entraînement d’un modèle de reconnaissance de visages directement à partir de données web peut conduire à des biais, dans le sens où le modèle ne reconnaîtrait pas tous les types de visages avec la même efficacité. Dans ce cas, le biais peut être induit par un manque de représentativité des visages utilisés pour l’entraînement.

Cependant, les disparités de performance peuvent également être dues à la difficulté intrinsèque du problème de prédiction et/ou aux limites des techniques ML actuelles.
Il est bien connu, par exemple, que le niveau de performance atteint pour la reconnaissance des visages de nouveau-nés par apprentissage profond est beaucoup plus faible que pour les visages d’adultes.
Mais aujourd’hui, nous ne disposons d’aucun éclairage théorique clair sur le lien entre la structure du réseau neuronal profond utilisé et les performances du modèle pour une tâche donnée.

Ces biais pourront-ils être supprimés ou réduits ?

Il existe différents types de biais. Ils peuvent être relatifs aux données, il y a les biais dits  » de sélection « , liés au manque de représentativité, les biais  » d’omission « , dus à l’endogénéité, etc. Les biais sont également inhérents au choix du modèle de réseau de neurones, de la méthode ML, choix qui est inévitablement restreint à l’état de l’art et limité par la technologie actuelle.

Demain, nous utiliserons peut-être d’autres représentations de l’information, plus efficaces, moins gourmandes en ressources informatiques, qui pourraient être déployées plus facilement, et qui pourraient réduire ou éliminer ces biais, mais pour l’instant, ils existent !

Le rôle de la qualité des ensembles de données, utilisés pour l’apprentissage dans les biais

Compte tenu du volume nécessaire, les données proviennent souvent du web et ne sont donc pas acquises de manière suffisamment contrôlée pour assurer leur représentativité. Mais il y a aussi le fait que ces données peuvent être « contaminées », de manière malveillante. C’est actuellement un problème pour les solutions de vision par ordinateur qui équiperont les véhicules autonomes. Le véhicule peut être trompé en manipulant les informations d’entrée.
Le ML repose sur un principe fréquentiste et la question de la représentativité des données lors de la phase d’apprentissage est un enjeu majeur. Pour prendre l’exemple de la conduite autonome, nous voyons aujourd’hui de nombreux véhicules sur la route, équipés de capteurs pour emmagasiner un maximum d’expérience. Cela dit, il est difficile de dire dans combien de temps nous aurons vu suffisamment de situations pour pouvoir déployer un système suffisamment intelligent et fiable dans ce domaine pour faire face à toutes les situations futures.

Il existe des applications pour lesquelles les données disponibles aujourd’hui permettent de mettre en œuvre la ML de manière satisfaisante.
Pour d’autres problèmes, en plus des données expérimentales, on utilisera également des modèles génératifs, produisant des données artificielles pour tenir compte de situations défavorables, mais sans pouvoir prétendre à l’exhaustivité. C’est le cas des applications ML en cybersécurité, pour tenter de détecter automatiquement les intrusions malveillantes dans un réseau par exemple.

D’une manière générale, il existe de nombreux problèmes pour lesquels les données disponibles sont trop éparses pour mettre en œuvre la ML de manière simple. C’est souvent le cas dans la détection d’anomalies, notamment pour la maintenance prédictive de systèmes complexes.
Dans certains cas, l’hybridation de techniques ML et symboliques en IA pourrait apporter des solutions. Ces pistes sont explorées dans le domaine de l’aviation, ainsi qu’en imagerie médicale. Au-delà de leur efficacité, ces approches peuvent également permettre aux machines de prendre des décisions plus faciles à expliquer et à interpréter.

Quel est le moteur de l’IA aujourd’hui ?

Le domaine des mathématiques apporte beaucoup, notamment en termes de représentation efficace de l’information et d’algorithmes. Mais c’est aussi le progrès technologique qui fait avancer l’IA.
Les récents progrès techniques, notamment dans le domaine de la mémoire, ont permis de mettre en œuvre des modèles de réseaux neuronaux profonds.

De même, les architectures informatiques distribuées et les cadres de programmation dédiés ont permis d’intensifier l’apprentissage sur de grands volumes de données. Des approches plus frugales doivent encore être conçues !

Nous publions une série de trois articles traitant de l’intelligence artificielle. Le premier article propose une réflexion sur les biais de l’IA. Le deuxième article met en lumière la réglementation de l’IA dans l’UE. Dans le troisième article, nous cherchons à expliquer les décisions prises par les algorithmes d’IA.