Biais et intelligence artificielle : une fatalité évitable ?
Biais et intelligence artificielle : une fatalité évitable ?
C’est l’une des principales problématiques à laquelle se confronte l’intelligence artificielle. Les biais de traitement sont une réalité et ont la peau dure pour être éradiqués efficacement. Des solutions peuvent pourtant être mises en place notamment au niveau de la qualification des données, mais pas que… Focus.
Ils défrayent la chronique régulièrement et font le jeu de ses détracteurs. Si l’Homme a été conçu à l’image de Dieu, l’IA est conçue par l’Homme et reflète ainsi ses qualités comme ses défauts. Des défauts nommés biais de traitement qui font souvent la une des médias. Le côté obscur de l’intelligence artificielle comme l’indiquait un article des Échos (1).
Ils se veulent parfois difficile à appréhender. Les exemples sont légion. En 2015, Amazon décide de recruter de nouveaux talents à l’aide d’un algorithme. Résultats ? Sur des centaines de milliers de CV reçus depuis dix ans, l’IA sélectionnait majoritairement des hommes du fait que la plupart des postulants étaient de sexe masculin. Toujours en 2015, une IA de Google confondait deux jeunes afro-américains avec des gorilles (2). En septembre 2016, une autre IA, devenue jury d’un concours de beauté, a éliminé la plupart des candidats noirs.
Ces cas ne font malheureusement pas exception et demandent une attention de tous les instants. Mais avant d’aller plus loin, définissons ce qu’est réellement un biais de traitement.
Les biais, kézako ?
Si les biais sont forcément liés aux données. Il est possible de distinguer deux types de biais. Le premier est intrinsèquement lié à la non-représentativité du jeu de données, plus ou moins facilement identifiable, que nous dénommerons biais de traitement (aussi connu sous le nom de biais statistiques). Et l’autre, plus difficilement appréciable car faisant partie inhérente de l’être humain, que nous appellerons biais cognitif, renvoie directement aux sciences éponymes et correspond aux biais présents dans notre société.
Le premier se focalise sur les données sur lesquelles se base l’algorithme pour faire son auto-apprentissage. Ainsi, dans le cas d’une IA focalisée sur la reconnaissance de personnes, le principal biais de traitement pourrait être lié à la part d’hommes et de femmes présents dans la base de données, à la couleur et à la morphologie des individus suivants s’ils sont de types européens, asiatiques, africains, etc.
« C’est un exemple caractéristique d’un biais d’échantillonnage. Éviter ce type de biais nécessite de réfléchir au préalable à la création du jeu de données pour équilibrer chaque catégorie.», explique Etienne Balit, responsable scientifique chez Neovision. Et Olivier Lienhard, ingénieur R&D chez Neovision d’ajouter : « plusieurs solutions techniques peuvent être envisagées. Par exemple, l’une des solutions consiste à répartir uniformément le jeu de données en prenant soin d’avoir une part égale de personnes de type asiatique, européen, latin, africain, etc.. Une seconde solution revient à mettre un “poids” différent dans chaque catégorie de manière à rééquilibrer le jeu de données, une catégorie sous-représentée sera alors proposée plusieurs fois à l’algorithme. »
Le casse-tête du biais cognitif
A l’heure actuelle, le deuxième biais relève d’un véritable challenge, car il est directement issu de notre manière de penser, de nos croyances. À l’inverse du biais d’échantillonnage, le jeu de données peut être biaisé avant même son élaboration. En effet, le monde dans lequel nous vivions et la perception que nous en avons peuvent être directement biaisés.
L’an dernier, deux chercheurs de Stanford, Michal Kosinski et Yilun Wang, créaient la polémique avec une IA permettant de détecter l’orientation sexuelle d’un individu à son seul visage (3). Le rapport « Algorithmes : biais, discrimination et équité » réalisé conjointement par des chercheurs de Télécom ParisTech et de l’Université Paris Nanterre notait alors que les travaux de Michal Kosinski et Yilun Wang étaient plus « révélateurs de leurs propres perceptions que d’une quelconque réalité. » Les biais cognitifs peuvent ainsi se définir comme une distorsion de la manière dont l’information est traitée par rapport à un traitement rationnel ou à la réalité (4). Selon le rapport « Algorithmes : biais, discrimination et équité », le biais dit du « mouton de Panurge » peut conduire « le programmeur à suivre des modélisations populaires sans s’assurer de leur exactitude. »
Autre type de biais celui des stéréotypes que l’on retrouve dans les modèles de langage. C’est le cas de la langue française – et plus précisément des jeux de données basés sur des romans, articles de presse, etc. – qui intègre des notions de genre (masculin/féminin) au sein des mots. « Il existe beaucoup de recherches dans ce domaine. L’une des solutions proposée consiste ainsi à dédoubler les phrases dans le jeu d’apprentissage, une fois au masculin et une fois au féminin. Et malgré tout, des résultats récents montrent que cette solution reste imparfaite », souligne Etienne Balit. Dans la même veine, les moteurs de recherche ont souvent tendance à associer le mot « femme » à d’autres termes tels que « femme de ménage », « nourrice », « femme enceinte », « réceptionniste », « coiffeuse », etc. Au point que Google a intégré récemment dans son champ de recherche une option « Signaler des prédictions inappropriées » pour ajuster l’apprentissage de son algorithme.
IBM analyse les décisions des IA
Le groupe américain pionnier dans l’intelligence artificielle, IBM, a lancé en septembre dernier une solution logicielle capable de détecter les biais des algorithmes. Destinée aux entreprises, cette technologie s’intégrant à IBM Cloud, mais aussi avec les solutions concurrentes et open source, permet d’expliquer le raisonnement d’une IA. « L’utilisateur pourra comprendre en temps réel comment le modèle d’IA a abouti à une décision. Il pourra accéder, dans des termes clairs, aux éléments de recommandation utilisés par l’IA, et voir sur quels faits et données ils sont basés », indique Jean-Philippe Desbiolles, vice-président Cognitive Solutions chez IBM France dans un entretien pour le journal La Tribune (7). La solution d’IBM ne s’arrête pas là puisqu’elle intègre un dispositif de détection instantanée des biais, couplé à un système d’alerte auprès de l’utilisateur. Mieux ! Elle préconise les données à ajouter pour atténuer le biais détecté. En parallèle, IBM compte mettre à disposition de la communauté open source sa boîte à outils AI Fairness 360, destinée aux universitaires, chercheurs et scientifiques pour élaborer, sur cette base, des solutions de détection des biais.
En avril 2017, un groupe de trois chercheurs de l’université de Princeton publient une étude sur les « word embedding », un algorithme particulièrement usité dans le traitement du langage. Cette approche consiste à construire une représentation mathématique du langage en associant un mot à d’autres revenants fréquemment. Ce système est particulièrement intégré aux logiciels de traduction automatique de langue et par les moteurs de recherche. Or, il est imparfait du fait qu’il capture des biais culturels implicites. Le mot « homme » est associé plus souvent à des termes « carrières », « business », « management » alors que les mots liés à la famille sont plus fortement corrélés aux mots liés aux femmes. Si le « word embedding » (5) est utilisé dans un logiciel de recrutement, il pourrait générer des erreurs de traitement implicite et induire des traitements inégaux difficiles à identifier de suite sans des tests approfondis.
Le dilemme de l’introduction d’une morale et d’une équité de traitement
L’IA devrait, dans l’idéal, être neutre et équitable. Dans les faits, ce n’est pas toujours le cas en raison des biais cités ci-dessus. Cela ne signifie pas pour autant qu’il faille rejeter l’IA, qui a démontré son utilité et continue à se perfectionner.
« Aujourd’hui, l’IA nous force à expliciter nos règles morales pour les intégrer à nos modèles mathématiques », affirme Etienne Balit. Cela pose le problème des valeurs et de leur universalité.
Or, chaque société possède sa propre morale qui évolue au fil du temps. Le concept d’équité, développé par Aristote, distingue à la fois une équité horizontale correspondant à une égalité de traitement des individus indépendamment de leur origine sociale, ethnique, de genre… et l’équité verticale qui précise que les individus qui sont, par essence inégaux, soient traités inégalement. Ce jugement de valeur est particulièrement délicat à implémenter.
Et pourtant ! La législation sur la protection des données (RGPD) en Europe qui s’articule autour de trois grands axes (profiling, transparence, biais et discriminations) ainsi que l’Equal Credit Opportunity Act aux États-Unis, exigent tous deux, un traitement égal des individus, sans considération d’origine ethnique, de langue, de religion voire d’orientation sexuelle (6). Si les biais sont particulièrement difficiles à identifier, des solutions existent et sont en cours de développement comme celles portées par IBM (voir encadré) indiquant les choix décisionnels pris par une IA, et ce, en toute transparence !
Sources :
1. Source : Article du cercle des Echos du 11 décembre 2018. https://www.lesechos.fr/idees-debats/cercle/cercle-189843-opinion-ia-responsable-corriger-les-biais-de-lintelligence-artificielle-2229082.php
2. Source : Article du Parisien du 2 juillet 2015. https://www.lesechos.fr/idees-debats/cercle/cercle-189843-opinion-ia-responsable-corriger-les-biais-de-lintelligence-artificielle-2229082.php
3. Source : Article de Sciences et Avenir du 2 mars 2019. https://www.sciencesetavenir.fr/high-tech/intelligence-artificielle/les-algorithmes-sont-partout-leurs-biais-nous-trompent_131820
4. Source : Etude « Algorithmes : biais, discrimination et équité » de février 2019 de Télécom ParisTech et de l’Université Paris Nanterre . https://www.telecom-paristech.fr/recherche/publications/algorithmes-biais-discrimination-equite.html
5. Source : Article du site La Data en Clair du 25 juin 2018. http://ladataenclair.fr/2018/06/25/quest-ce-que-la-fairness-en-intelligence-artificielle/
6. Source : Tribune libre du 6 juin 2018 d’Aurélie Jean, développeur informatique sénior chez Bloomberg parue dans l’Opinion. https://www.lopinion.fr/edition/economie/biais-algorithmique-est-meilleur-ennemi-fintech-tribune-d-aurelie-jean-146359
7. Source : Article de La Tribune du 19 septembre 2018. https://www.latribune.fr/technos-medias/comment-ibm-ouvre-la-boite-noire-de-l-intelligence-artificielle-790877.html