Anatomie

d’une bulle

Partie 2.
La bulle deep

Introduction

La décennie 2010-2020 voit les acteurs économiques entrer dans une transformation profonde de leurs usages numériques.

L’envergure de cette transformation fait penser à celle relative à l’utilisation massive des outils numériques, initiée dans les années 1960s-1970s. A l’époque, l’introduction des mini-ordinateurs permet de disposer d’une puissance de calcul et d’une capacité de traitement à des coûts plus abordables que les mainframes IBM. La transformation actuelle concerne l'utilisation systématique des outils décentralisés (SaaS), qui n’est pas sans rappeler l’architecture client/serveur du début de l’informatique d’entreprise, et l’exploitation massive des données opérationnelles.

Ces deux sujets sont une conséquence directe de l’ouverture du web pour le grand public et de la massification des usages, commencé dans les années 2000. Les survivants de la bulle internet (dot.com) sont devenus les nouveaux acteurs dominants. Google (Alphabet), Facebook (Meta), Amazon en sont les symboles. Microsoft, IBM et Apple se sont réinventés. La Chine a créé ses propres géants. Leur point commun ? Un modèle économique basé sur la manipulation de symboles et l’utilisation massive et systématique des décisions algorithmiques. Leur forte rentabilité vient d’une position commerciale hégémonique. Leur image de marque très flatteuse comme principaux acteurs de l’innovation informatique, et maintenant en intelligence artificielle, finalise le tableau. Les BigTechs sont des modèles.

La situation actuelle s’inscrit donc dans un mouvement continu. A lire la presse économique des dernières années, les uniques relais de croissance pour les acteurs économiques (entreprises, états) sont liés à l’innovation numérique, cette fameuse tech, et supposent la constitution et l’exploitation de vastes bases de données. Les mots-clés sont connus : BigData, puis data science, et maintenant deep learning.

Depuis 2014

2. La bulle deep

DeepMind, un symbole

DeepMind est une petite société anglaise fondée en 2010 par des chercheurs en IA. Son équipe de 25 personnes est spécialisée dans une activité assez particulière : elle apprend à des programmes à jouer à des jeux vidéo. On peut sourire dans un premier temps, surtout si on sait que les jeux sont des antiquités des années 1980 comme Pong, Breakout ou Space Invaders. La publication scientifique date de 2015. On ne sourit plus quand on apprend que cette société est achetée par Google en 2014 pour 650 millions de dollars.

DeepMind est un symbole. Les jeux vidéo auxquels ses ingénieurs s’intéressent sont des mondes fermés où les règles sont limitées. Ce sont des terrains de jeu parfait pour les réseaux de neurones. La performance remarquable de DeepMind est d’avoir mis au point des techniques d’apprentissage qui s’adaptent au jeu rencontré. Le programme découvre le jeu et apprend à le maîtriser en observant les images affichées à l’écran et le score. Aucune autre information n’est fournie, et c’est un point crucial. Le programme découvre Pong, et au bout de quelques dizaines d’heures de jeu, atteint un niveau humain.

Ces techniques sont de véritables tours de force en ingénierie et en recherche appliquée. Un éventail de raffinements sont ajoutés à l’arsenal technologique de l’apprentissage profond au fil du temps, par les nombreux acteurs du domaine souvent proches des GAFA. 

Notre méthode est plus performante qu’un expert humain sur BreakOut, Enduro et Pong et il atteint des performances proches de l’humain sur Beam Rider. [Nous sommes] loin des performances humaines sur des jeux [plus difficiles] comme Q*bert, Seaquest, Space Invaders, [qui] demandent au réseau de trouver une stratégie à long terme.
— DeepMind, 2013

La bulle gonfle.

Les principaux acteurs académiques des réseaux de neurones profonds rejoignent les GAFA. Geoffrey Hinton travaille pour Google depuis 2013. La même année, son ancien thésard Yann LeCun, est recruté par Facebook. Les deux recevront le prix Turing avec Yoshua Bengio en 2018. Nous plaçons le début de la bulle entre 2014 et 2016, année où AlphaGo fait les gros titres. En 2023, le buzz est toujours assourdissant.

Des succès impressionnants

Les applications des réseaux de neurones sont impressionnantes dans de nombreux domaines. Les réseaux de neurones sont meilleurs que les humains pour la classification d’images. La traduction de texte en ligne progresse à un niveau correct pour les langues les plus représentées dans les corpus électroniques. La génération d’image et le text-to-image est une avancée majeure, avec Dall-E (2021) et MidJourney (2022). Des agents conversationnels intéressants sont disponibles, comme GPT-3 (2020) et ChatGPT (2022).

Les cas d’usage sont nombreux, probablement plus nombreux que ceux immédiatement visibles - mais qui marquent les esprits. De manière générale, les réseaux de neurones profonds sont des outils très utiles dans la détection et l’exploitation de tendances et motifs dans les bases de données massives, notamment les images. On s’attend à des progrès à long terme sur les sujets liés à l’industrie et, naturellement, les services numériques basés sur le profilage et la recommandation.

 Aux échecs, AlphaZero de DeepMind montre de très belles performances face aux programmes spécialisés comme Stockfish, qui intègre maintenant des réseaux de neurones dans ses heuristiques de calcul. En 2016, DeepMind bat bruyamment et brillamment des champions humains au go. En 2019, DeepMind s’attaque à StarCraft 2 et propose un programme, DeepStar, qui égale les meilleurs joueurs humains.

Notons que pendant ce temps, les autres algorithmes d’apprentissage automatique (dont font partie les réseaux de neurones) sont tout à fait absents de la scène médiatique.

Les limites

2. La bulle deep

Un pas vers l’IA générale ?

En 2020, DeepMind publie Agent57, un agent qui surpasse les performances humaines sur 57 jeux disponibles sur Atari 2600. Cet agent prolonge et étend les performances obtenues en 2015. Les réseaux de neurones ne sont pas adaptés à une IA générale. Si l'augmentation de la puissance des ordinateurs actuelle permet aux programmes de traiter beaucoup plus de  neurones qu’auparavant, les limites dures ne bougent pas. Les réseaux de neurones sont différents des cerveaux sur d'innombrables points importants - et certains ne sont même pas encore connus !

[Ce programme] Atari a suscité l’enthousiasme - et mérité une publication dans Nature - en partie parce qu’il semblait être un pas vers l’intelligence artificielle. Un seul algorithme, n’utilisant pas une représentation spécifique de la connaissance, a développé un large éventail de compétences sur des tâches très variées impliquant une entrée en dimension assez grande. Aucun programme n’avait fait cela auparavant.

Cependant, une AGI complète ferait beaucoup plus. S’il est difficile de construire des systèmes IA spécialistes très performant, il est beaucoup plus difficile de construire un système d’IA généraliste.

L’apprentissage profond n’est pas la solution : ses aficionados admettent que “de nouveaux paradigmes sont nécessaires” pour le combiner avec un raisonnement complexe. C’est une formule classique en recherche, pour dire “nous n’avons pas la moindre idée de la suite”. C’est pourquoi la plupart des chercheurs en IA ont abandonné cet espoir initial, se tournant plutôt vers la résolution de tâches très spécialisées - souvent avec un succès spectaculaire.
— Margaret Boden, 2016
Par rapport au cerveau, les ANN sont trop propres, trop simples, trop limités et trop secs.

Trop propres, parce que les réseaux construits par l’homme privilégient l’élégance et la puissance mathématiques, alors que les cerveaux évolués biologiquement ne le font pas.

Trop simples, parce qu’un seul neurone est aussi complexe sur le plan informatique [...] qu’un petit ordinateur. Et il existe une trentaine de types de neurones différents.

Trop limités, car même les ANN comportant des millions de neurones sont minuscules comparés aux cerveaux humains.

Et trop sec, parce que les chercheurs ignorent généralement [beaucoup de comportements biologiques].
— Margaret Boden, 2016

Étroitesse, spécialisation, consommation

Les réseaux de neurones ne sont pas parfaits, loin de là.

Les réseaux de neurones sont opaques. L’extrême complexité de l’architecture des systèmes IA construits par DeepMind, Meta, Google et d’autres, est un obstacle majeur à la compréhension des processus d’apprentissage. On empile des réseaux de neurones différents, chacun composé de multiples couches interconnectées (ou pas). Les architectures actuelles des agents conversationnels basés sur GPT-3 comptent jusqu’à 175 milliards de paramètres. On ne sait pas comment est encodée l’information dans ces outils. On ne sait pas comment ils calculent leurs résultats. On ne sait pas entrer dans la boîte noire qu’on entraîne, ou plutôt la base de données qu’on engendre. L’ingénieur IA travaille en aveugle, à partir d’exemples, et tente de construire une machine en empilant des légos dans le noir. Seules les performances comptent. La fin justifie-t-elle les moyens ?

Les réseaux de neurones sont spécialisés. On parle d’IA étroite, en opposition avec l’IA générale décrite plus haut. Un système construit par apprentissage automatique sait généralement effectuer une seule tâche. S’il sait jouer à Pacman, il ne saura pas jouer à Pong. S’il sait catégoriser des images d’animaux, il ne saura rien dire d’utile des voitures. Il faudra dans le meilleur cas ré-entraîner le système, et dans le pire des cas construire un nouveau système IA avec des traitements spécifiques ; on comprend encore mieux la puissance de AlphaZero, qui peut apprendre différents jeux sans être modifié. Même s'il maîtrise 1000 jeux, on doute qu'il soit bon sur le 1000 et unième. Les réseaux de neurones profonds sont des outils particulièrement fragiles. Jetables, oserons-nous dire.

Les réseaux de neurones sont gourmands. Gourmands en données, car les jeux de données d'entraînement nécessaires sont souvent énormes, avec des millions d’exemples. La constitution de ces bases implique fréquemment un travail humain d’étiquetage fastidieux, sinon abrutissant. Gourmands en énergie, car la puissance de calcul requise pour évaluer les milliards de paramètres lors du processus d’apprentissage est très importante. Cette puissance de calcul est fournie par des processeurs spécialisés (graphics processing unit, tensor processing unit), rares et coûteux. On parle de 190 000 kWh pour entraîner le modèle GPT-3 (large language model), soit un aller-retour pour la Lune en voiture. La question de l'utilité doit être posée.

Et les autres ?

Ces caractéristiques ne sont pas propres aux réseaux de neurones. Elles peuvent s’appliquer à d’autres algorithmes  d’apprentissage automatique. La spécialisation est commune.

L’opacité est fréquente. Comprendre le processus de décision dans un arbre de décision est possible, mais rien ne garantit que les règles fassent sens pour un non spécialiste. Certains algorithmes (dits frugaux) ont des approches qui minimisent le nombre de paramètres utilisés en entrée, permettant ainsi de réduire le nombre de variables explicatives.

La gourmandise énergétique n’est pas une fatalité en soi. Elle est souvent liée à la quantité de données à intégrer. Il existe des méthodes qui peuvent fournir des résultats utiles à partir de petites bases d'entraînement.

2. La bulle deep

Le deep learning
est un echec 

Un échec scientifique

 Le deep learning est un échec scientifique, car la discipline de l’IA n’a pas progressé vers l’IA générale. La culture qui prévaut chez les spécialistes des réseaux de neurones est une culture de l’efficacité, doublée d’une tendance à construire de gros systèmes. On ne retient, pour l’instant, que la capacité à construire des outils d’aide à la décision qu’on sait rendre performants dans certaines conditions, et dans certains cas. C’est appréciable. Cependant, peut-on mieux qualifier l’intelligence en général ? Sait-on modéliser efficacement un processus d’apprentissage ? Comprend-on mieux le cerveau humain ? A-t-on la moindre idée de ce qui se passe quand un réseau profond apprend à différencier un chat d’un pneu ? Les réponses, si elles sont positives, n’ont pas émergé des laboratoires.

Un échec intellectuel

Le deep learning est un échec intellectuel. Certains auteurs parlent de Big Data AI, pour marquer le lien avec la mode technique précédente. Au-delà de l’approche purement descriptive et réactionnaire, cette réticence à faire appel à une modélisation mathématique, sinon scientifique, s’apparente à une démission intellectuelle. Le calcul des caractéristiques (features) relève plus de la cuisine que d’une réelle démarche scientifique. Utiliser un modèle permet de réduire la dimensionnalité des problèmes et, ainsi, contribue habituellement à des systèmes moins gourmands en ressources (données, calcul, mémoire). Les données ne parlent que si on les leur pose les bonnes questions. De plus, l’hypothèse d’un apprentissage sur des données issues du passé pour une utilisation dans le futur : c’est restrictif et simplement faux quand les résultats concernent les humains. Couplé à l’opacité intrinsèque des réseaux de neurones, le système se retrouve à calquer aveuglément des comportements passés. Cette situation est très certainement problématique, dans un cas général.

Un échec social

Le deep learning est un échec social. DeepBubble a commencé depuis huit ans : quels sont les bénéfices concrets apportés par cette technologie pour l’humanité ? Pour les travailleurs ou employés, col blancs ou cols bleus ? La question semble peut-être exagérée, voire ridicule. Mais à reprendre les innombrables communications, dont celles de la puissance publique, les budgets engagés et les financements publics consentis, il faut s’y intéresser. A ce jour, force est de constater que les retours pour le public sont maigres. On pourrait même y voir un moyen de légitimer la puissance des acteurs majeurs du numériques, principalement états-uniens et chinois, qui bénéficie de la manne publique pour innover à peu de frais. Il faut, en passant, mentionner l’esclavage indirect des populations pauvres, à qui est confié les très pénibles tâches d’annotation des bases de données nécessaires aux algorithmes d’apprentissage automatique. Voire les micro-tâches réalisées par des humains pour les services faisant prétendument appel à l’IA, mais n’étant en réalité qu’un travail humain déguisé - on parle d’ailleurs d’intelligence artificielle artificielle. Amazon Mechanical Turk était honnête.

Le constat est sévère

Il n’est pas lieu de condamner individuellement les ingénieurs ou scientifiques qui travaillent sur ces techniques. Le propos est systémique, il concerne la communauté, les financiers, les décideurs politiques et économiques. C’est essentiellement un problème d’inculture scientifique et de méconnaissance technique.

Investir des sommes importantes sur des technologies très complexes, coûteuses, dispendieuses en ressources et assez probablement inadaptées dans 90% des cas réels, c’est une erreur stratégique. Doublé d’une erreur technique flagrante. En faire l’alpha et l’omega des sujets d’innovations publics et privés est un non-sens.

L’hiver arrive.

2. La bulle deep

Inéluctabilité

Tous les éléments sont réunis pour que la DeepBubble laisse place à un nouvel hiver de l’intelligence artificielle. L’attention médiatique est forte, les attentes économiques sont fortes, l’intérêt du politique est fort. La question de la rentabilité économique se pose. Ces outils apportent-ils de la valeur ? Sont-ils utiles ?

Pour les BigTechs, la réponse est oui. Ils ont construit leur succès autour de l’exploitation des données, à des fins principalement publicitaires pour Google et Meta. Amazon utilise massivement les algorithmes de profilage et de recommandation pour sa place de marché. Les organisations qui disposent de données massives et qui ont un intérêt à les traiter, que ce soit pour des contraintes opérationnelles ou pour proposer de nouveaux services, peuvent tirer profit de ces outils. Si elles arrivent à embaucher et garder de bons techniciens.

Les professionnels sont rares, surtout lorsqu’il s’agit de techniciens expérimentés. Construire un réseau de neurones profond capable de traiter de manière satisfaisante des téraoctets de données est extrêmement difficile. Les équipes sont très peu nombreuses. Pour ne rien arranger, les BigTechs accaparent les ingénieurs IA, profitant de leur image de marque et de salaires attractifs. Nos échanges avec les entreprises et industriels français vont tous dans ce sens : les membres du CAC40 recrutent difficilement. Il y aurait sûrement des parallèles historiques à faire, dans d’autres domaines.

Quel sera le déclencheur ?

Les prédictions sont difficiles, surtout quand elles concernent le futur, qu’on soit Niels Bohr ou Yogi Berra. Voici notre sentiment.

Le coup d’arrêt ne viendra pas de l’intérieur du domaine. Les spécialistes de l’IA, dont nous ne faisons pas partie, qui portent un message critique sur les réseaux de neurones ne sont pas visibles médiatiquement, sauf peut-être Gary Marcus (New York University). Le mode de financement de la recherche occidentale rend un tel revirement très improbable : trop risqué, trop extrême.

Le coup d’arrêt viendra de l’extérieur, sous la forme d’un scandale, d’un événement avec une charge symbolique forte. Plus forte que Cambridge Analytica, par exemple… Un scandale mondial sur un service qui délègue ses décisions à un algorithme ? Aux Etats-Unis ou peut-être en Chine ? Des gens doivent mourir, en masse, pour que l’opinion publique réagisse. La chute d’un des magnats de l’innovation comme Elon Musk ? La fin d’un des GAFA, Meta semblant mal embarqué dans son pari de Metaverse ? Difficile à dire.

Et si le coup d’arrêt ne venait pas ? Le désintérêt du public pourrait venir d’une forme de lassitude : l’homme de la rue a compris que les réseaux de neurones sont des outils puissants, c’est acté. Le désintérêt du public pourrait aussi venir d’une déconnexion des avancées avec son expérience quotidienne : ce qui paraissait auparavant époustouflant est maintenant classique, comme “converser” avec un perroquet stochastique (=un chatbot). Les entreprises, lassées de payer (cher) des ingénieurs sans générer suffisamment de retours, pourraient stopper les frais.

Sans vouloir jouer les oiseaux de mauvais augure, nous ne sommes pas très optimistes sur le futur du domaine.

Que retenir de la bulle deep ?

Il est tentant de proposer une lecture psychologique de la bulle.

Marvin Minsky est mort en 2016, au tout début de la DeepBubble. De nombreuses personnes le tiennent responsable du long coma du mouvement connexionnisme dans les années 1970 et 1980. Les réseaux de neurones ont eu leur vengeance… et leur véritable moment de gloire, après les perceptrons et le moment PDP. Au prix d’une consommation énergétique délirante, d’une opacité totale de la décision algorithmique et d’une démission intellectuelle. Pour quelle avancée théorique majeure ? Aucune.

La DeepBubble a fourni les outils permettant d’analyser les données du web. C’est un mouvement d’ingénierie des données extrêmement complexe, qui a pris le parti de ne pas se préoccuper du sens et de confier ces tâches à des algorithmes. La décision algorithmique n’est acceptable que si elle a une base humaine. Les difficultés d'applicabilité des réseaux de neurones, et plus généralement des algorithmes d’apprentissage automatique qui ont un fonctionnement opaque, sont rédhibitoires à nos yeux pour un usage à long terme qui soit pérenne et serein. Ce constat est direct, et devrait être partagé par les pouvoirs publics.

« Ne travaillons surtout pas avec les gens qui connaissent le problème, cela pourrait introduire des biais dans l’apprentissage » : cette recommandation étonnante, nous l’avons rencontrée plus d’une fois au sein d’équipe de data scientists.

Le paradigme de la naïveté ? Non. Plutôt une erreur fondamentale et historique.

FIN - ÉTÉ 2022 

Références

Mind as a machine, Margaret Boden (Oxford, 2006). Une référence absolue sur l’histoire des sciences cognitives, le contre-exemple parfait du livre de plage. A la fois illisible et indispensable. Tous les domaines sont abordés, des premiers pas dans le calcul automatique à la vie artificielle, en passant par l’apprentissage automatique, les réseaux de neurones et le traitement du langage. 1500 pages de texte, 130 pages de références, le travail d’une vie.

Deux autres historiques de l’intelligence artificielle sont à conseiller : AI : Its Nature and Future (Oxford, 2016) de la même Margaret Boden, qui résume le domaine à grands traits dans un style direct et simple à lire, et le plus classique The Quest for Artificial Intelligence (2010) de Nils Nilsson.

A Brief History of Artificial Intelligence: What It Is, Where We Are, and Where We Are Going (Oxford, 2021) de Michael. Wooldridge se concentre sur l’apprentissage automatique des dernières années, en donnant les éléments de compréhension nécessaire. L’auteur dépasse le cadre technique en élargissant sa réflexion. Très agréable à lire.

The Myth of Artificial Intelligence: Why Computers Can’t Think the Way We Do, Erik. J. Larson (2021) tient plus de l’essai que du panorama historique, mais amène une réflexion critique sur les développements actuels en apprentissage automatique.

Atlas of AI. Power, Politics, and the Planetary Costs of Artificial Intelligence (Yale, 2021) de Kate Crawford propose un tour d’horizon géographique sur l’industrie de l’apprentissage automatique actuel, dans sa version réseaux de neurones essentiellement. Matériaux, énergie, données, applications : l’ensemble des sujets sont abordés, notamment la provenance des jeux de données utilisés habituellement.

Computer: A History of the Information Machine, de Martin Campbell Kelly, William Aspray , Nathan Ensmenger et Jeffrey R. Yost. (Routledge; 4th ed, 2023)

A New History of Modern Computing, de Thomas Haigh et Paul E. Ceruzzi (MIT Press, 2021)