Intelligence artificielle : « les capacités des réseaux de neurones sont un grand mystère »

Stéphane Mallat, titulaire de la chaire des sciences de données du Collège de France, 29 mars

L’intelligence artificielle, ça marche mais on ne sait pas pourquoi. C’est ce que résume Stéphane Mallat, titulaire de la chaire des sciences de données du Collège de France. Il a pris la parole à l’occasion de l’événement AI for humanity, le 29 mars, organisé à l’occasion de la présentation de sa stratégie intelligence artificielle par le Président de la République.

Savoir généraliser à partir d’exemples

Ces dernières années, l’intelligence artificielle a vécu une accélération mais pour autant les réseaux de neurones qui sont derrière demeurent un grand mystère. Il faut ouvrir cette boîte noire pour expliquer les résultats et savoir quand ils se trompent, propose le chercheur.

Un des atouts de l’intelligence artificielle est de savoir généraliser, à partir d’exemples. Illustration : l’intelligence artificielle doit identifier un chat dans une photo qu’elle n’a jamais vue mais après voir vu une masse de photos de chats. « La grande surprise, c’est que les réseaux de neurones sont capables de généraliser particulièrement bien et avec précision. Il y a là un grand mystère mathématique pour comprendre le pourquoi de cette généralisation » admet Stéphane Mallat.

« Ces algorithmes fonctionnent beaucoup mieux que ce que l’on attendait » reprend-il. Il attribue cette accélération à l’acquisition de masses considérables de données et à l’accélération énorme de vitesse des ordinateurs qui  ont permis de passer un seuil. « Personne dans notre communauté n’imaginait qu’il y aurait des algorithmes capables de reconnaître aujourd’hui des visages mieux que l’humain, des voitures qui circulerait de façon autonome. La plupart anticipait cela pour dans 50 ans mais certainement pas comme quelque chose au présent. Il y a eu une accélération. La recherche touche énormément de branches de l’économie » décrit-il.

Le chercheur voit aujourd’hui la nécessité d’ouvrir la boîte noire. « Le premier problème c’est de comprendre pourquoi ces algorithmes vont généraliser efficacement et quand ils vont faire des erreurs. C’est très important pour s’assurer que ces systèmes seront fiables. On a du mal à maîtriser .la précision des réponses des algorithmes. Cela va prendre du temps en recherche fondamentale  » annonce-t-il. C’est crucial pour des applications critiques comme la voiture autonome ou de santé.

Expliquer le résultat de l’intelligence artificielle

Second point, il faudra être capable d’expliquer le pourquoi d’un résultat. Cela permettra de fonctionner avec beaucoup moins de données. « Il y a des cas où la cause peut être donnée assez facilement. Mais il y a des cas, en médecine par exemple, où on ne peut pas toujours expliquer. Il faut savoir réagir par rapport aux erreurs potentielles de la machine » ajoute-t-il.

Sur les dix dernières années, l’explosion de l’I.A. est due à l’apprentissage par ordinateur (Machine Learning) rappelle Stéphane Mallat. Il s’agit par exemple de reconnaître un animal dans des images. Cela utilise un algorithme qui inclut un très grand nombre de paramètres qui seront fixés dans la phase d’apprentissage. Pour cela, on donne des exemples à l’algorithme. Il va essayer de fixer des valeurs à ces paramètres afin de ne pas faire d’erreur sur les exemples. Par exemple, sur une image de chat, il s’agit de bien reconnaître un chat.

L’objectif est que l’algorithme trouve la bonne réponse pour des données qu’il n’a jamais vues auparavant. L’algorithme trouve une forme de régularité dans les données. La difficulté c’est que les algorithmes travaillent à partir d’un très très grand nombre de variables.

Yann LeCun, le pionnier

Dans une image de 1 million de pixels, il va falloir trouver ces régularités dans ces millions de variables. C’est sur cela que porte la recherche en particulier sur les réseaux de neurones (Deep Learning) qui ont des paramètres organisés en couches, et qui sont reliés par interactions. En particulier, Yann LeCun, actuel patron de la recherche du laboratoire d’intelligence artificielle parisien de Facebook, a développé des structures particulièrement profondes dans les années 90.

Une réaction sur “Intelligence artificielle : « les capacités des réseaux de neurones sont un grand mystère »” :

  1. mp.mac

    A mon modeste niveau je ne voudrais pas contredire un « titulaire de la chaire des sciences de données du Collège de France », mais un autre intervenant du collège de France : Yann LeCun dit quand même, dans un article dont il faudrait que je recherche les références, qu’il est tout a fait possible de suivre pas à pas ce que fait un réseau de neurones, comme on peut le faire pour n’importe quel programme informatique d’ailleurs !
    Pour moi, c’est souvent de comprendre pourquoi on utilise telle ou telle formule mathématique pour entraîner un réseau de neurones, qui reste bien souvent mystérieux…

    Répondre
  2. IA-france

    il s’agit de Stéphane Mallat, titulaire de la chaire, et non de Stéphane Mallard, évangéliste sur le thème de l’intelligence artificielle, sans vouloir réduire les talents de l’un ou l’autre, ils sont néanmoins très différents

    Répondre
  3. F. Lefebvre-Naré

    Yann LeCun et Stéphane Mallat (pas Mallard, camarades de La Revue !) sont d’accord sur ces sujets, rassurez-vous 😉

    Le point de Yann LeCun auquel fait référence le commentaire de mp.mac : on sait (facilement) tracer comment un réseau de neurones (RN) a classé des images données comme chien au lieu de chat. On sait quels neurones ont pesé de façon importante, par exemple, plutôt des neurones qui ont évalué des textures, ou plutôt des neurones qui ont évalué des contrastes…

    Par ailleurs, on a aussi une base théorique claire et simple (pour un matheux !) pour l’algorithme de rétro propagation du gradient, qui entraîne les RN.

    Le point de Stéphane Mallat, c’est : on ignore pourquoi les RN profonds marchent aussi bien ; pourquoi ils distinguent les chiens des chats mieux que d’autres méthodes, notamment sur des images « de test », celles qu’ils ne connaissaient pas quand ils ont été entraînés. Dit autrement : on ignore pourquoi, sur des RN profonds, la rétro propagation du gradient converge vers un état proche d’un optimum global. Ou plus justement, sans doute : on ignore en quoi l’architecture des RN définit une mesure de la distance entre images qui rend proches entre elles les images de chats susceptibles d’être proposées à la reconnaissance, et idem des images de chiens, tout en éloignant les images de chats des images de chiens. Mais si j’ai mal pigé je compte sur le cours de 2019 pour m’éclairer… !

    Répondre
  4. La Revue du Digital Post author

    Merci pour vos précisions. Et nous avons rétabli la bonne orthographe du nom de Stéphane Mallat, détenteur de la chaire des sciences de données du Collège de France.

    Répondre

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *