Le monde de la recherche en IA est en ruine. Des universitaires donnant la priorité aux programmes faciles à monétiser plutôt qu’à l’innovation, à l’élite de la Silicon Valley utilisant la menace de perte d’emploi pour encourager des hypothèses favorables aux entreprises, le système est un gâchis brisé.
Et Google mérite la part du lion du blâme.
Comment ça a commencé
Il y avait environ 85 000 articles de recherche publiés dans le monde sur le sujet de l’IA / ML en l’an 2000. Avance rapide jusqu’en 2021 et il y en avait près de deux fois plus publiés aux États-Unis seulement.
Dire qu’il y a eu une explosion sur le terrain serait un énorme euphémisme. Cet afflux de chercheurs et de nouvelles idées a fait de l’apprentissage en profondeur l’une des technologies les plus importantes au monde.
Entre 2014 et 2021, les grandes technologies ont pratiquement abandonné leurs principes “web first” et “mobile first” pour adopter des stratégies “IA first”.
Maintenant, en 2022, les développeurs et les chercheurs en IA sont plus demandés (et reçoivent plus de salaire) que presque tous les autres emplois dans la technologie en dehors de la suite C.
Mais ce type de croissance sans entraves a aussi un côté sombre. Dans la course pour répondre à la demande du marché en produits et services basés sur l’apprentissage en profondeur, le domaine est devenu aussi impitoyable et capricieux que le sport professionnel.
Au cours des dernières années, nous avons vu le “GANfather”, Ian Goodfellow, passer de Google à Apple, Timnit Gebru et d’autres se faire virer de Google pour des opinions dissidentes sur l’efficacité de la recherche, et un torrent virtuel d’articles douteux sur l’IA parviennent à dégager en quelque sorte l’examen par les pairs.
Le flot de talents qui est arrivé à la suite de l’explosion de l’apprentissage en profondeur a également entraîné un glissement de terrain de mauvaises recherches, de fraude et de cupidité des entreprises.
Comment ça va
Google, plus que toute autre entreprise, porte la responsabilité du paradigme de l’IA moderne. Cela signifie que nous devons donner à grand G toutes les notes pour apporter le traitement du langage naturel et la reconnaissance d’image aux masses.
Cela signifie également que nous pouvons créditer Google d’avoir créé l’environnement chercheur-manger-chercheur dans lequel certains étudiants et leurs professeurs partenaires de grandes technologies traitent les documents de recherche comme un simple appât pour les investisseurs en capital-risque et les chasseurs de têtes d’entreprise.
Au sommet, Google a montré sa volonté d’embaucher les chercheurs les plus talentueux du monde. Et il a également été démontré à de nombreuses reprises que cela les licenciera en un clin d’œil s’ils ne respectent pas la ligne de conduite de l’entreprise.
L’entreprise a fait la une des journaux du monde entier après avoir licencié Timnit Gebru, un chercheur qu’elle avait embauché pour l’aider à diriger sa division d’éthique de l’IA, en décembre 2020. Quelques mois plus tard, elle a licencié un autre membre de l’équipe, Margaret Mitchell.
Google soutient que le travail des chercheurs n’était pas à la hauteur des spécifications, mais les femmes et de nombreux partisans affirment que les licenciements n’ont eu lieu qu’après avoir soulevé des préoccupations éthiques concernant la recherche que le patron de l’IA de l’entreprise, Jeff Dean, avait approuvée.
C’est maintenant à peine plus d’un an plus tard et l’histoire se répète. Google a licencié un autre chercheur en intelligence artificielle de renommée mondiale, Satrajit Chatterjee, après avoir dirigé une équipe de scientifiques pour contester un autre article que Dean avait approuvé.
L’effet coulée de boue
Au sommet, cela signifie que la concurrence pour les emplois bien rémunérés est féroce. Et la chasse au prochain chercheur ou développeur talentueux commence plus tôt que jamais.
Les étudiants qui préparent des diplômes d’études supérieures dans les domaines de l’apprentissage automatique et de l’IA, qui souhaitent éventuellement travailler en dehors du milieu universitaire, doivent rédiger ou co-rédiger des articles de recherche qui démontrent leur talent.
Malheureusement, le pipeline du milieu universitaire à la grande technologie ou au monde des startups dirigé par VC est jonché d’articles de merde écrits par des étudiants dont tout le penchant est d’écrire des algorithmes qui peuvent être monétisés.
Une recherche rapide sur Google Scholar pour « traitement du langage naturel », par exemple, affiche près d’un million de résultats. La plupart des articles répertoriés ont des centaines ou des milliers de citations.
À première vue, cela indiquerait que la PNL est un sous-ensemble florissant de la recherche sur l’apprentissage automatique qui a attiré l’attention des chercheurs du monde entier.
En fait, les recherches sur « réseau de neurones artificiels », « vision par ordinateur » et « apprentissage par renforcement » ont toutes donné une surabondance similaire de résultats.
Malheureusement, une partie importante de la recherche sur l’IA et le ML est soit intentionnellement frauduleuse, soit pleine de mauvaise science.
Ce qui a peut-être bien fonctionné dans le passé devient rapidement un mode potentiellement obsolète de communication de la recherche.
Stuart Richie du Guardian a récemment écrit un article se demandant si nous devrions supprimer complètement les articles de recherche. Selon eux, les problèmes de la science sont ancrés assez profondément :
Ce système est livré avec de gros problèmes. Le principal d’entre eux est le problème du biais de publication : les examinateurs et les éditeurs sont plus susceptibles de donner à un article scientifique une bonne rédaction et de le publier dans leur revue s’il rapporte des résultats positifs ou passionnants. Les scientifiques se donnent donc beaucoup de mal pour dynamiser leurs études, s’appuient sur leurs analyses pour produire de “meilleurs” résultats, et parfois même commettent des fraudes afin d’impressionner ces gardiens très importants. Cela déforme radicalement notre vision de ce qui s’est réellement passé.
Le problème est que les gardiens que tout le monde essaie d’impressionner ont tendance à détenir les clés du «futur emploi et de l’admission des universitaires dans des revues ou des conférences prestigieuses – les chercheurs peuvent ne pas obtenir leur approbation à leurs risques et périls.
Et, même si un article parvient à passer l’examen par les pairs, il n’y a aucune garantie que les personnes qui font passer les choses ne dorment pas à l’interrupteur.
C’est pourquoi Guillaume Cabanac, maître de conférences en informatique à l’Université de Toulouse, a créé un projet appelé Problematic Paper Screener (PPS).
Le PPS utilise l’automatisation pour signaler les articles contenant du code, des mathématiques ou du verbiage potentiellement problématiques. Dans un esprit de science et d’équité, Cabanac s’assure que chaque article signalé fait l’objet d’un examen manuel par des humains. Mais le travail est probablement trop important pour qu’une poignée d’humains puisse le faire pendant leur temps libre.
Selon un rapport de Spectrum News, il existe de nombreux articles problématiques. Et la majorité a à voir avec l’apprentissage automatique et l’IA :
L’examinateur a jugé environ 7 650 études problématiques, dont plus de 6 000 pour avoir torturé des phrases. La plupart des articles contenant des phrases torturées semblent provenir des domaines de l’apprentissage automatique, de l’intelligence artificielle et de l’ingénierie.
Les phrases torturées sont des termes qui attirent l’attention des chercheurs parce qu’ils tentent de décrire un processus ou un concept déjà bien établi.
Par exemple, l’utilisation de termes tels que “neurone contrefait” ou “neurone artificiel” pourrait indiquer l’utilisation d’un plug-in de thésaurus utilisé par de mauvais acteurs essayant de s’en tirer en plagiant des travaux antérieurs.
La solution
Bien que Google ne puisse être blâmé pour tout ce qui est fâcheux dans les domaines de l’apprentissage automatique et de l’IA, il a joué un rôle démesuré dans la décentralisation de la recherche évaluée par des pairs.
Cela ne veut pas dire que Google ne soutient pas et ne soutient pas également la communauté scientifique par le biais de l’open source, d’une aide financière et d’un soutien à la recherche. Et nous n’essayons certainement pas de laisser entendre que tous ceux qui étudient l’IA sont juste là pour gagner rapidement de l’argent.
Mais le système est mis en place pour encourager la monétisation des algorithmes d’abord, et pour faire avancer le domaine ensuite. Pour que cela change, les grandes technologies et les universités doivent s’engager à réformer en profondeur la manière dont la recherche est présentée et examinée.
Actuellement, il n’y a pas d’autorité de vérification tierce largement reconnue pour les papiers. Le système d’évaluation par les pairs ressemble plus à un code d’honneur qu’à un ensemble de principes convenus suivis par les institutions.
Cependant, il existe un précédent pour la création et le fonctionnement d’un comité de surveillance ayant la portée, l’influence et l’expertise nécessaires pour gouverner au-delà des frontières académiques : la NCAA.
Si nous pouvons unifier un système de compétition équitable pour des milliers de programmes d’athlétisme amateur, il y a fort à parier que nous pourrions former un organe directeur pour établir des lignes directrices pour la recherche et l’examen universitaires.
Et, en ce qui concerne Google, il y a plus de chances que zéro que le PDG Sundar Pichai se retrouve à nouveau convoqué devant le congrès si l’entreprise continue de licencier les chercheurs qu’elle embauche pour superviser ses programmes éthiques d’IA.
Le capitalisme américain signifie qu’une entreprise est généralement libre d’embaucher et de licencier qui elle veut, mais les actionnaires et les travailleurs ont également des droits.
Finalement, Google devra s’engager dans une recherche éthique ou il se trouvera incapable de rivaliser avec les entreprises et les organisations qui le souhaitent.