Anatomie

d’une bulle

Partie 1.1
Une très brève histoire de l’intelligence artificielle

Calculer rapidement

Les machines de Turing

L’histoire commence dans les années 1930, lorsque le mathématicien de génie Alan Turing invente une machine conceptuelle pour résoudre un problème mathématique. Est-il possible de décider si un énoncé logique, ou un algorithme, a un sens ? Il s’agit du problème de la décision. Turing reformule ce problème dans un cadre nouveau, en s’inspirant de nombreux scientifiques dont le logicien K. Gödel. Cette machine, dite de Turing, va pouvoir exécuter cet « algorithme ». Il prouve ainsi que ce problème est équivalent à imaginer une méthode universelle qui décidera si un « algorithme » opéré par cette machine s’arrêtera, ou pas. C’est le problème de l’arrêt. La réponse est négative.

Alan Turing invente le concept d’ordinateur, décrit comme une universal computing machine. Il montre dans le même mouvement, et avec une certaine ironie, qu’ils ne peuvent pas résoudre tous les problèmes. Ces travaux restent très théoriques et relativement confidentiels.

Les premiers calculateurs sont des outils stratégiques

Les débuts de l’informatique sont foisonnants. De nombreux ingénieurs et scientifiques inventent des machines et les assemblent en Europe et aux Etats-Unis.

Avant la Seconde Guerre mondiale, quelques calculateurs automatiques existent. Ces machines réalisent un petit nombre d’opérations de base par seconde. Additions et multiplications sont en binaires ou en décimal.

Les usages sont principalement militaires. En Pologne, la Bomba (1938) de M Rejewski est utilisée pour des calculs de cryptanalyse. En Allemagne, les Z2 et Z3 (1940) de K Zuse sont utilisées pour des calculs d’aérodynamique. Ces calculateurs électromécaniques sont les ancêtres des ordinateurs que nous connaissons aujourd’hui. A Bletchley Park en Angleterre, Alan Turing et Gordon Welchman conçoivent The Bomb en 1940, un calculateur capable de décrypter le code Enigma utilisé par les Nazi pour chiffrer leurs communications. Colossus prend la suite en 1944 : 5 tonnes, 2500 tubes à vides, 7 km de câblage, une pièce de 20m2. C’est le premier ordinateur programmable, à l’aide de connecteurs électriques et de relais physiques. ENIAC est ensuite construit aux Etats-Unis, en 1945.

Ces premiers ordinateurs sont câblés en dur. Leur fonctionnement est fixé physiquement. Les circuits logiques de calculs doivent donc être modifiés lorsqu’on veut modifier leur fonctionnement. Il faudra attendre le bond conceptuel majeur qu’apporte les travaux de von Neumann (EDVAC) et Turing (ACE) en 1945-456, pour parler de programmation. Les instructions utiles pour décrire le fonctionnement d’un programme sont traitées comme des informations, qui peuvent donc être stockées en mémoire. Le fonctionnement de l’ordinateur devient une donnée. La mise en œuvre intervient en 1948-49.

Ces calculateurs marquent symboliquement le début d’une ère où les machines viendront réaliser des calculs à des vitesses que les humains ne peuvent égaler.

Qui a construit le premier ordinateur ?

La question n’est pas tranchée. L’ensemble des briques se met en place, à différents endroits. L’invention de l’ordinateur est une histoire collective, qui se déroule en partie dans le brouillard et le secret de la Seconde Guerre. Les questions de paternité sont donc difficiles à établir - et peu intéressantes, en définitive.

Une sorte de légende se noue autour d’Alan Turing, et de son travail crucial dans le décryptage des messages nazis. Ses contemporains le décrivent comme un génie, et son apport à l’informatique en tant que science et technique est considérable. En plus de son travail sur the Bomb, il participe activement à l’invention de calculateurs (ACE, Manchester Mark 1) et pense les bases de l’intelligence artificielle (1950) et les biomathématiques (1952). Il meurt trop tôt, et pour de mauvaises raisons, en 1954.

Avant et pendant la Seconde Guerre mondiale, tous les ordinateurs sont des machines destinées à un usage spécial. Elles sont conçues pour résoudre un problème particulier lié à la guerre. Après la guerre, les machines à usage général, dites Turing-complète, voient le jour.

Trois groupes de personnes ont conçu et réussi à faire fonctionner des ordinateurs dans les années 1940. Ils travaillent en relative indépendance. Le groupe anglais de Bletchley Park situé dans la campagne anglaise entre Oxford et Cambridge, auquel appartient Turing, invente Colossus. Aux États-Unis, le groupe auquel appartient von Neumann invente l’ENIAC et EDVAC (1949), qui font partie des premiers ordinateurs programmables à partir d’instructions situées en mémoire vive. Isolé et allemand, l’ingénieur Konrad Zuse finalise le Z3 en 1941. Détruit pendant la guerre, il est peut-être le premier ordinateur à architecture moderne. Mentionnons aussi IBM SSEC (USA, 1948), Manchester Mk1 (UK, 1949), EDVAC (UK,1949).

Les progrès techniques suivants sont mieux connus. Les transistors sont inventés en 1947. Plus petits, plus économes et plus fiables, ils remplacent progressivement les lampes à vide à partir de 1955. Les circuits intégrés sont inventés en 1957 et commencent à équiper les ordinateurs dans les années 1960. Les microprocesseurs suivront en 1971 (Intel 4004).

1. Un éclairage historique

Le premier printemps : l’IA symbolique

Cerveaux électroniques

Dans les années 1960, les bases de leur architecture de l’ordinateur moderne sont jetées. L’architecture générale pensée par John von Neumann et Turing est restée inchangée.

Ces machines peuvent effectuer des opérations basiques : addition, mémorisation, branchement logique. Leur fonction majeure est de pouvoir réaliser ces opérations sans se tromper, sans se fatiguer et très vite. Scientifiques et ingénieurs amélioreront énormément leurs performances, en optimisant les composants matériels (Loi de Moore) et les techniques de programmation. Le champ de recherche mêle des contraintes très pratiques (câblage électrique, surchauffe et fragilité des composants, inventions des premiers processeurs, programmation), des sujets scientifiques (modélisation) et des interrogations philosophiques (intelligence, conscience). Nous nous limiterons principalement aux aspects scientifiques.

De la délicate définition de l’intelligence

L'objectif premier de l'intelligence artificielle est de rendre les machines plus intelligentes. Présentés à l’époque comme des cerveaux électroniques, ces appareils n’ont cependant pas d’intelligence au sens animal du terme.

L'intelligence pose de nombreuses questions, non résolues. Qu’est-ce que l’intelligence ? Intelligence humaine ? Intelligence animale ? Intelligence générale ? Définir l'intelligence est une tâche qui occupe encore les philosophes, il n’y a pas vraiment de définition claire. La seconde question est plus difficile : doit-on s’intéresser au cerveau, siège matériel de l’intelligence, ou à l’esprit ? Que faire de la conscience : est-elle nécessaire à la manifestation de l’intelligence ? Est-ce une conséquence ? Que faire de la relation au corps et au monde, si importante dans le cas des exemples que nous connaissons instinctivement : les bébés humains ?

Le scientifique cherchera à comprendre ce qu’est l'intelligence. L’ingénieur cherchera à rendre les machines utiles. Le positionnement de l’activité est différent si on cherche à comprendre ou à utiliser. D’un point de vue opérationnel, le domaine cherche à rendre les machines capables d’accomplir des tâches qui, à nos yeux d’humains et selon un consensus implicite, nécessitent de l’intelligence. Les acteurs se sont également retrouvés impliqués dans les questions fondamentales de l'informatique, telles que la programmation et l'architecture des ordinateurs.

Nous n’essaierons pas d’être plus précis. Définir le domaine précis de l’intelligence artificielle est un cauchemar conceptuel, que les auteurs de science-fiction arpentent depuis le début du XXème siècle.

“Les hommes ont autrefois confié la pensée aux machines dans l’espoir de se libérer ainsi. Mais cela permit seulement à d’autres hommes de les réduire en esclavage, avec l’aide des machines.”

— Frank Herbert, Dune (1965)

Dartmouth, 1956

On parle souvent d’âge d’or pour décrire les deux décennies qui s’étendent entre l’école d’été de Dartmouth (USA) en 1956 et la publication du rapport Lighthill (UK) en 1974.

L’école d’été de Dartmouth est un des mythes fondateurs du domaine.

Une vingtaine de scientifiques ont assisté à cette école d’été, dont John McCarthy, Ray Solomonoff, Marvin Minsky, Claude Shannon, Oliver Selfridge, Herbert Simon, Allen Newell et John Nash. Cette conférence permet de lancer officiellement le domaine - et de créer le terme d’intelligence artificielle !

“Nous proposons qu’un groupe de dix personnes mène une réflexion autour de l’intelligence artificielle pendant deux mois lors de l’été 1956 à Dartmouth College [USA]. Cette réflexion doit être basée sur la conjecture selon laquelle chaque aspect de l’apprentissage ou toute autre caractéristique de l’intelligence soit, en principe, être précisément décrite pour qu’une machine puisse être conçue afin de la simuler [...] Nous pensons que des progrès significatifs pourront être réalisés si un groupe soigneusement sélectionné de scientifiques travaillent ensemble pendant un été”

— John McCarthy, 1955

“Il ne s’agissait pas d’un projet de recherche dirigée. C’était plutôt comme inviter une bande de personnes brillantes à une conférence de huit semaines, où chacun débordait d’idées.”

— G Solomonoff, 2011

Décomposer l’intelligence humaine

Les ordinateurs sont des machines nouvelles. L’IA a pour but d’étudier la possibilité de les rendre intelligents et, si possible, de créer les outils et méthodes pour y arriver. Pour manier ces concepts abstraits, voire mouvants, les chercheurs font un pari qui paraît raisonnable : diviser cette « intelligence » en un ensemble de fonctions, construire une brique solution pour chacune, et ensuite assembler l’ensemble de ces briques. C’est la méthode classique appelée « diviser pour régner » (divide & conquer). Des thématiques principales émergent :

observer l’environnement en le mesurant avec des capteurs ;
interpréter les informations reçues ;
mener un raisonnement logique ;
établir une stratégie de résolution d’un problème ;
planifier l’exécution d’une stratégie ;
apprendre à partir des connaissances passées et de l’expérience accumulée ;
utiliser et comprendre le langage humain ;
interagir avec le monde physique et humain.

La liste n’est pas exhaustive.

Les scientifiques se concentrent surtout sur le raisonnement logique et la modélisation de la pensée humaine. Le but est de créer une intelligence artificielle générale. Elle est illustrée par le HAL de 2001 (S Kubrick, 1969), qui représente bien les attentes de l’époque : un ordinateur avec une intelligence surhumaine, capable de se substituer à un équipage entier. Cette approche sera appelée plus tard GOFAI, Good Old Fashion Artificial Intelligence.

Si l’ambition est forte, et les attentes sont énormes. L’ambiance est à l’optimisme, chez les scientifiques. Les prédictions des experts sont relativement débridées.

Mon but n'est pas de vous surprendre ou de vous choquer.
Pour le dire simplement, nous disposons aujourd’hui de machines qui pensent, qui apprennent et qui créent. De plus, leurs capacités sur ces sujets vont augmenter rapidement jusqu'à ce que, à un horizon proche, l'éventail des problèmes qu'elles pourront traiter sera proche de ce que l'esprit humain peut faire.
Herbert Simon est prix Turing 1975.
D'ici dix ans :
1. Un ordinateur sera champion du monde d'échecs, à moins que les règles ne l'empêchent de concourir.
2. Un ordinateur découvrira et prouvera un nouveau théorème mathématique important.
3. La plupart des théories de psychologie prendront la forme de programmes informatiques ou de spécifications techniques précises de tels programmes.
Herbert Simon est prix Turing 1975.
D'ici peu, nous pourrions apprendre à faire travailler ces programmes sur l'amélioration de leurs propres capacités.
Une fois un certain seuil franchi, cela pourrait conduire à une spirale d'accélération et il pourrait être difficile de mettre au point des garde-fous fiables pour la freiner.

Marvin Minksy est prix Turing 1969.
On tentera de trouver comment faire en sorte que les machines utilisent le langage, forment des abstractions et des concepts, résolvent des types de problèmes aujourd'hui réservés aux humains et s'améliorent elles-mêmes.
John McCarthy est prix Turing 1971.

Des progrès rapides

Les progrès sont rapides, le champ est en défrichage. Scientifiques et ingénieurs s’attèlent à la réalisation concrète de leurs idées.

Le but d’une intelligence artificielle générale (AGI) n’est toutefois pas atteint.

Le domaine fait de beaux progrès dans la thématique de la résolution de problèmes (problem solving). De nombreux systèmes dits intelligents sont inventés, principalement des programmes (SHRDLU, ELIZA, General Problem Solver) et certains robots (SHAKEY). Les premiers langages de programmation sont inventés pour programmer plus efficacement les premiers ordinateurs qui existaient ; LISP en fait partie, et il est encore utilisé aujourd’hui.

La Logic Theory Machine réussit à prouver 18 théorèmes logiques considérés comme clés par Russell, en proposant une démonstration jugée plus élégante. Le logicien, ravi, propose de publier un article sur cette performance, mais le journal refuse d’accepter le programme comme co-auteur.

Le General Problem Solver (GPS) généralise le LTM. Il n’est plus limité à la logique et peut être appliqué à n’importe quel problème. D’où son nom. Une fois que l’humain a décrit le problème à traiter, sous la forme d’objectifs hiérarchisés et de moyens d’actions, GPS s’occupe de la logique. GPS sait par exemple résoudre le problème des missionnaires et des cannibales, qui est difficile même pour un humain (essayez !).

Pandemonium est une assemblée de démons, sous la forme d’un programme de logique symbolique parallélisé. Chaque démon est spécialisé dans la reconnaissance d’un motif précis. Il se manifeste de façon plus ou moins bruyante, et de façon souvent contradictoire par rapport aux autres voisins. Dans cette cacophonie, un démon supérieur choisit le motif le plus plausible. Pandemonium a beaucoup influencé les approches connexionnistes et symboliques.

Enfin, SHRDLU, un des programmes de traitement du langage les plus connus. Créé au début des années 1970, il peut construire des assemblages de blocs à partir d’instructions en langage naturel. Il peut aussi modifier un assemblage initial, et déterminer seul la liste des actions à mener. Son influence est importante et sort du domaine restreint des spécialistes de l’IA. Une avancée importante réside dans sa capacité à traiter la syntaxe de phrases parfois complexes - jusqu’à un certain point.

“De mon point de vue, les progrès de l’intelligence artificielle dans les années 60 et 70 ont été rapides et très impressionnants, car tous ceux que je connaissais travaillaient sur le raisonnement, la représentation symbolique et ce genre de choses.”

— Marvin Minsky, 2011

Jusqu’à un certain point.

L’âge d’or prend fin au début des années 1970. L'optimisme communicatif porté par les pionniers est progressivement douché par la réalité, souvent frustrante. Le programme de recherche était bien entendu trop ambitieux, et les résultats trop limités au vu des investissements et de l'engouement public.

Les critiques sont nombreuses. Elles culminent avec le fameux Alchemy and AI du philosophe américain H Dreyfus (Alchemy and AI, 1965, What Computers Can’t Do: A Critique of Artificial Reason, 1972) etle rapport anglais de Pr Lighthill (Artificial Intelligence: A General Survey, 1972). L’approche dite connexionniste, représentée par les premiers réseaux de neurones, se révèle décevante. Les financements se tarissent, avec notamment une réorientation en 1972 des budgets de recherche états-uniens vers des applications militaires dans le cadre de la guerre du Vietnam.

“Les découvertes faites jusqu’à présent n’ont pas produit l’impact majeur qui était alors promis [dans les années 1960].”

— Sir James Lighthill, 1972

1. Un éclairage historique

Le premier hiver

midjourney > a realistic photography AI winter

Modéliser le raisonnement ?

L’approche dite symbolique se heurte à la difficile modélisation du raisonnement logique (humain). Ce problème n’est pas résolu aujourd’hui, et ne semble pas en passe de l’être.

Une mauvaise nouvelle n’arrivant jamais seule, ce premier printemps a mis en évidence le problème du cadre, ou du sens commun (frame problem). Un programme ne sait rien d’implicite ; or l’expérience humaine du monde est construite sur un empilement d’implicites. Il faut tout décrire à un programme. Cette constatation est conceptuellement problématique, et limite fortement les interactions entre humaines et machines (et robots).

“Il n’existe pas d’algorithme pour l’intelligence [artificielle] générale. [...] Il est beaucoup plus probable qu’une percée scientifique majeure soit nécessaire, et personne ne sait à quoi elle ressemblerait et encore moins des détails pour y parvenir.”

— Erik Larson, 2021

“Voici mon exemple préféré. Si un homme de vingt ans peut cueillir cinq kilogrammes de fraises en une heure, et qu’une femme de dix-huit ans peut en cueillir quatre, combien en ramasseront-ils s’ils vont en cueillir ensemble ? Il est certain que “neuf” n’est pas une réponse plausible. Ce pourrait être beaucoup plus (parce qu’ils font les malins tous les deux) ou, plus probablement, beaucoup moins…”

— Margareth Boden, 2016

Le mur de l’explosion combinatoire

Les programmes de résolution de problèmes rencontrent aussi une limite mathématique : la complexité algorithmique.

La stratégie classique revient souvent à décomposer une tâche complexe en une suite de tâches suffisamment simples pour être exécutée par un ordinateur. On mise ensuite sur l'enchaînement rapide des calculs pour résoudre l’ensemble des petites tâches pour remonter à la tâche initiale.

Les ordinateurs utilisés pour construire ces premiers systèmes ont des capacités de calcul qui excèdent largement les capacités humaines. Ils sont capables de réaliser quelques milliers d’opérations (additions, multiplications) par seconde. En pratique, lorsque la tâche à résoudre devient suffisamment proche de cas réels, ceux qui nous intéressent, la réponse ne peut pas être calculée en un temps raisonnable. Les ordinateurs actuels, plus rapides, rencontrent cependant exactement la même limite, un peu plus tard. L’augmentation des performances des processeurs ne suffit pas à résoudre des problèmes proches des cas réels. La cause est mathématique.

Cette approche logique de décomposition en tâches simples multiplie les branchements. L’espace des possibles devient gigantesque. On parle d’explosion combinatoire. Ce phénomène est au cœur de nombreux problèmes qui intéressent les chercheurs en intelligence artificielle : optimisation logistique (problème du voyageur de commerce), allocation de ressources (problème du sac à dos), parcours de graphes (problème de la clique, coloration de graphe) et généralement des problèmes de puzzles logiques. C’est une découverte majeure de l’époque, qui intéresse les mathématiciens et les informaticiens théoriciens : si certaines classes de problèmes peuvent être résolues par un calcul mécanique en utilisant un algorithme adapté, le calcul en lui-même peut être extrêmement long. Curiosité mathématique ? Non, car de nombreux problèmes d’optimisation du monde réel se réduisent à ces cas.

L’intelligence ne se résume pas à un calcul. Même rapide.

Désillusion

“Il ne faut pas sous-estimer les dommages infligés à l’IA au milieu des années 1970. De nombreux universitaires ont commencé à considérer l’IA comme une pseudo-science - cette mauvaise réputation s’est installée lors de l’hiver de l’IA et le domaine en a souffert jusqu’à très récemment”

— Michael Wooldridge, 2021

Les dommages infligés au milieu des années 1970 sont tels que de nombreux universitaires commencent à considérer l'IA comme une pseudo-science. La guérison sera lente. Jusque dans les années 1970s, les chercheurs font des prédictions pour le moins téméraires sur les progrès futurs dans le domaine. Leur sincérité et leur enthousiasme sont compréhensibles. Cette époque est marquée, rétrospectivement, par une bonne dose de naïveté. Ces prédictions n'ont cessé de hanter l'IA depuis lors. Au milieu des années 1970, la période faste était terminée et un retour de bâton vicieux s'est amorcé - un cycle d'expansion et de ralentissement de l'IA amené à se répéter au cours des prochaines décennies.

1.2 ->

Anatomie

d’une bulle

Partie 1.1 Une très brève histoire de l’intelligence artificielle

Calculer rapidement

Les machines de Turing

Les premiers calculateurs sont des outils stratégiques

Qui a construit le premier ordinateur ?

1. Un éclairage historique

Le premier printemps : l’IA symbolique

Cerveaux électroniques

De la délicate définition de l’intelligence

Dartmouth, 1956

Décomposer l’intelligence humaine

Herbert Simon (1958)

Herbert A. Simon (1958)

Marvin Minsky (1968)

John McCarthy (1955)

Des progrès rapides

Jusqu’à un certain point.

1. Un éclairage historique

Le premier hiver

Modéliser le raisonnement ?

Le mur de l’explosion combinatoire

Désillusion

Partie 1.1
Une très brève histoire de l’intelligence artificielle