Une équipe d’experts en technologie a lancé lundi un appel mondial pour identifier les questions les plus difficiles à poser aux systèmes d’intelligence artificielle, qui gèrent de plus en plus souvent des tests de référence populaires comme un jeu d’enfant.
Baptisé « Le dernier examen de l’humanité », le projet vise à déterminer quand l’IA de niveau expert est arrivée. Il vise à rester pertinent même si les capacités progressent dans les années à venir, selon les organisateurs, une association à but non lucratif appelée Center for AI Safety (CAIS) et la start-up Scale AI.
Cet appel intervient quelques jours après que le créateur de ChatGPT a présenté un aperçu d’un nouveau modèle, connu sous le nom d’OpenAI o1, qui « a détruit les repères de raisonnement les plus populaires », a déclaré Dan Hendrycks, directeur exécutif du CAIS et conseiller de la startup xAI d’Elon Musk.
Hendrycks a coécrit deux articles de 2021 qui proposaient des tests de systèmes d’IA désormais largement utilisés, l’un les interrogeant sur leurs connaissances de niveau licence sur des sujets comme l’histoire des États-Unis, l’autre sondant la capacité des modèles à raisonner à travers des mathématiques de niveau compétition. Le test de type licence est plus téléchargé depuis le hub d’IA en ligne Hugging Face que n’importe quel autre ensemble de données de ce type.
A l’époque où ces articles ont été publiés, l’IA donnait des réponses presque aléatoires aux questions des examens. « Elles sont désormais écrasées », a déclaré M. Hendrycks à Reuters.
À titre d’exemple, les modèles Claude du laboratoire d’IA Anthropic sont passés d’un score d’environ 77 % au test de premier cycle en 2023, à près de 89 % un an plus tard, selon un important classement des capacités.
Ces repères communs ont par conséquent moins de sens.
Selon le rapport AI Index de l’université de Stanford d’avril, l’intelligence artificielle semble obtenir de mauvais résultats aux tests moins utilisés impliquant la formulation de plans et les énigmes de reconnaissance de formes visuelles. OpenAI o1 a obtenu un score d’environ 21 % à une version du test de reconnaissance de formes ARC-AGI, par exemple, ont déclaré vendredi les organisateurs de l’ARC.
Certains chercheurs en intelligence artificielle estiment que des résultats comme ceux-ci montrent que la planification et le raisonnement abstrait sont de meilleurs indicateurs de l’intelligence, même si Hendrycks a déclaré que l’aspect visuel de l’ARC le rend moins adapté à l’évaluation des modèles linguistiques. « Le dernier examen de l’humanité » nécessitera un raisonnement abstrait, a-t-il déclaré.
Les réponses aux tests de référence courants pourraient également avoir été intégrées aux données utilisées pour entraîner les systèmes d’IA, ont indiqué des observateurs du secteur. Hendrycks a déclaré que certaines questions du « dernier examen de l’humanité » resteront privées pour garantir que les réponses des systèmes d’IA ne proviennent pas de la mémorisation.
L’examen comprendra au moins 1 000 questions participatives à soumettre avant le 1er novembre, auxquelles il sera difficile pour les non-experts de répondre. Ces questions seront soumises à un examen par les pairs, et les soumissions gagnantes se verront offrir une co-rédaction et des prix pouvant atteindre 5 000 $ sponsorisés par Scale AI.
« Nous avons désespérément besoin de tests plus rigoureux pour les modèles de niveau expert afin de mesurer les progrès rapides de l’IA », a déclaré Alexandr Wang, PDG de Scale.
Une restriction : les organisateurs ne veulent pas de questions sur les armes, qui, selon certains, seraient trop dangereuses à étudier pour l’IA.