Pas d’IA sans humain

Des ordinateurs capables d’apprendre, ce n’est plus de la science-fiction, c’est du machine learning. Et pour apprendre, les machines ont besoin que l’homme leur fournisse des quantités colossales de données. Pour s’assurer de leur qualité, le statisticien Joseph Salmon mise sur la coopération.

Pl@ntNet ce sont 25 millions d’utilisateurs qui fournissent des données photo et renvoient les noms des plantes. © IRD – PlantNet

Comment les voitures autonomes savent-elles lire les panneaux indicateurs ? Comment un smartphone peut-il reconnaître le chant du rossignol ou la feuille d’un chêne ? Si tout cela est désormais possible et même courant, c’est grâce au machine learning, ou apprentissage automatique. « C’est la base même de l’intelligence artificielle », explique Joseph Salmon, chercheur en statistiques à l’Institut montpelliérain Alexander Grothendieck1.

Pour être capable de différencier le rossignol de la mésange ou le chêne du peuplier, l’ordinateur a dû « regarder » beaucoup de feuilles d’arbre ou « écouter » beaucoup de chants d’oiseaux. Ces images et ces sons, ce sont les données, le nerf de la guerre de l’IA. « L’apprentissage automatique demande de grandes quantités de données pour fonctionner correctement, notamment dans les tâches de classification. »

Et la qualité de ces informations que l’on appelle des données d’entrée est cruciale pour la réussite des tâches à accomplir. « Garbage in, garbage out », résume le spécialiste. Déchets à l’entrée, déchets à la sortie. Autrement dit fournir à l’ordinateur des données défectueuses ou absurdes donnera lieu à des réponses tout aussi absurdes de sa part. Pour illustrer cet aphorisme d’informaticien, Joseph Salmon cite un exemple connu, celui de Barack Obama qui aurait été reconnu par une IA comme étant un singe. En cause : la base de données utilisée par les algorithmes de reconnaissance qui contient pour l’essentiel des visages de personnes blanches.

Pas d’IA sans coopération

Alors pour s’assurer de disposer de données de qualité en grande quantité, Joseph Salmon mise sur la coopération. En 2019, il a obtenu une chaire de recherche et d’enseignement en intelligence artificielle financée par l’ANR. Avec Camelot, c’est son nom, le chercheur et ses collaborateurs souhaitent notamment relever les défis de l’identification de la biodiversité par la science participative et le crowd-sourcing, autrement dit le fait de faire appel au grand public pour obtenir des données.

Une stratégie déjà mise à profit pour développer l’application de reconnaissance Pl@ntNet, un projet de science citoyenne conçu pour identifier automatiquement les plantes grâce à des photos auquel Joseph Salmon a participé. « Pl@ntNet ce sont 25 millions d’utilisateurs qui fournissent des données photo et renvoient les noms des plantes. Le crowd-sourcing permet de synthétiser et d’utiliser toutes ces connaissances », souligne le statisticien pour qui « il n’y a pas d’IA sans coopération ». D’ailleurs pour le chercheur l’intelligence artificielle n’a finalement rien d’artificiel. « On prend toute l’énergie des êtres humains qu’on a synchronisée, l’IA fait juste le lien d’un effort collectif. »

Réseau de neurones

D’ailleurs apprendre à apprendre, ce n’est rien d’autre que ce que fait le cerveau humain. Pour prêter ce pouvoir aux machines, les mathématiciens et statisticiens mobilisés sur ces problématiques s’inspirent justement du fonctionnement cérébral afin d’en mimer les processus d’apprentissage. « L’outil mathématique utilisé s’appelle un réseau de neurones. On peut combiner des dizaines voire des centaines de couches de neurones, chacune recevant et interprétant les informations de la couche précédente. On parle alors de deep learning, ou apprentissage profond », explique Joseph Salmon. Les mathématiques permettent ici de créer un algorithme visant à minimiser l’erreur. « Le réseau de neurone est une fonction mathématique qui part d’une image à l’entrée et doit donner un nom à la sortie, ce qui nécessite de programmer des fonctions gigantesques », explique Joseph Salmon.

Reconnaissance de caractères

À la fin des années 90, la première application importante du deep learning fut la reconnaissance automatisée des chèques bancaires. Le principe est simple : l’ordinateur doit reconnaître automatiquement la somme, écrite à la main en chiffres et en lettres, sur chaque chèque. Le travail que cela demande est lui complexe, car des chiffres écrits à la main ne seront jamais tout à fait identiques. « Pour faire en sorte qu’un ordinateur soit capable de reconnaître un chiffre manuscrit il a fallu lui fournir un gros paquet d’images annotées. Dans ce jeu d’apprentissage, l’ordinateur doit donner la bonne réponse en minimisant les erreurs », explique le statisticien.

Lors de l’apprentissage, l’algorithme vise à diminuer l’écart entre les résultats obtenus et les résultats attendus pour affiner sa reconnaissance. Un fonctionnement qui s’apparente à celui du cerveau capable d’analyser une multitude d’informations imprécises en elles-mêmes et d’interpréter leur combinaison pour au final reconnaître à coup sûr un 2 comme un 2. Ou une feuille de chêne comme une feuille de chêne.

  1. Imag (UM, CNRS, Inria)
    ↩︎