Techonologie

Un système d’IA a atteint le niveau humain lors d’un test d’« intelligence générale ». Voici ce que cela signifie

Un nouveau modèle d’intelligence artificielle vient d’obtenir des résultats presque humains à un test conçu pour mesurer l’« intelligence générale ».

Le 20 décembre, le système o3 d’OpenAI a obtenu un score de 85 % au test de référence ARC-AGI, ce qui est nettement supérieur au meilleur score de l’ précédente (55 %) et équivalent au score humain moyen. Il a également obtenu de bons résultats à un test de mathématiques très difficile.

La création d’une  générale artificielle (AGI) est l’objectif déclaré de tous les grands laboratoires de recherche sur l’IA. À première vue, OpenAI semble avoir fait un pas significatif vers cet objectif.

Même si le scepticisme demeure, de nombreux chercheurs et développeurs en IA ont le sentiment que quelque chose vient de changer. Pour beaucoup, la perspective de l’AGI semble désormais plus réelle, plus urgente et plus proche que prévu. Ont-ils raison ?

Généralisation et intelligence

Pour comprendre la signification du résultat o3, il faut comprendre ce qu’est le test ARC-AGI. En termes techniques, il s’agit d’un test de « l’efficacité de l’échantillon » d’un système d’IA en  d’adaptation à quelque chose de nouveau, ou combien d’exemples d’une situation nouvelle le système doit voir pour comprendre comment il fonctionne.

Un système d’IA comme ChatGPT () n’est pas très efficace en termes d’échantillonnage. Il a été « formé » sur des millions d’exemples de textes humains, en construisant des « règles » probabilistes sur les combinaisons de mots les plus probables.

Le résultat est assez satisfaisant pour les tâches courantes. Il est moins performant pour les tâches plus rares, car il dispose de moins de données, d’échantillons sur ces tâches.

Tant que les systèmes d’IA ne pourront pas apprendre à partir d’un petit nombre d’exemples et s’adapter avec plus d’efficacité, ils ne seront utilisés que pour les tâches très répétitives et celles pour lesquelles un échec occasionnel est tolérable.

La capacité à résoudre avec précision des problèmes inconnus ou nouveaux à partir d’échantillons limités de données est connue sous le nom de capacité de généralisation. Elle est largement considérée comme un élément nécessaire, voire fondamental, de l’intelligence.

Grilles et motifs

Le test de référence ARC-AGI évalue l’adaptation efficace à partir d’un échantillon en utilisant de petits problèmes de quadrillage comme celui présenté ci-dessous. L’IA doit trouver le modèle qui transforme la grille de gauche en grille de droite.

Chaque question donne trois exemples à partir desquels il est possible d’apprendre. Le système d’IA doit ensuite déterminer les règles qui « généralisent » les trois exemples au quatrième.

Cela ressemble beaucoup aux tests de QI dont vous vous souvenez peut-être de l’école.

Faiblesse des règles et de l’adaptation

Nous ne savons pas exactement comment OpenAI a procédé, mais les résultats suggèrent que le modèle o3 est très adaptable. À partir de quelques exemples seulement, il trouve des règles qui peuvent être généralisées.

Pour trouver un schéma, nous ne devons pas faire d’hypothèses inutiles, ni être plus précis qu’il ne faut. En théorie, si vous pouvez identifier les règles les plus « faibles » qui vous permettent d’obtenir ce que vous voulez, vous avez maximisé votre capacité d’adaptation à de nouvelles situations.

Qu’entend-on par « règles les plus faibles » ? La définition technique est compliquée, mais les règles les plus faibles sont généralement celles qui peuvent être décrites par des énoncés plus simples.

Dans l’exemple ci-dessus, une expression simple de la règle pourrait être quelque chose comme : Toute forme ayant une ligne saillante se déplacera jusqu’à l’extrémité de cette ligne et « couvrira » toutes les autres formes qu’elle chevauchera.

Recherche de chaînes de pensée ?

Bien que nous ne sachions pas encore comment OpenAI est parvenu à ce résultat, il semble peu probable qu’ils aient délibérément optimisé le système o3 pour trouver des règles faibles. Cependant, pour réussir les tâches de l’ARC-AGI, il doit les trouver.

Nous savons qu’OpenAI a commencé par une version générale du modèle o3 (qui diffère de la plupart des autres modèles, car il peut passer plus de temps à « réfléchir » à des questions difficiles) et l’a ensuite entraînée spécifiquement pour le test ARC-AGI.

Le chercheur français en IA François Chollet, qui a conçu le test de référence, estime que le modèle o3 recherche différentes « chaînes de pensée » décrivant les étapes à suivre pour résoudre la tâche. Il choisirait ensuite la « meilleure » en fonction d’une règle vaguement définie ou d’une «  ».

Source : futura-sciences.com