Il y a quelques semaines, un lycéen américain un peu angoissé a envoyé un mail à Martin Hairer, l’un des boss absolus des maths modernes. Le gars a une Fields Medal, un Breakthrough Prize, bref, c’est le genre de personne qui fait des équations pendant que nous on galère à choisir une pizza. Le lycéen, passionné de maths, voyait l’IA progresser à la vitesse d’un speedrun glitché et se demandait si tout ça n’allait pas rendre les humains… obsolètes. Ambiance Blade Runner dans la salle de classe.
Sa question était simple et directe: si une machine devient meilleure que nous pour résoudre des problèmes, est‑ce que les maths perdent leur magie ? Hairer, qui partage son temps entre Lausanne et Londres, lui a répondu avec un calme de Jedi: oui, beaucoup de domaines flippent à cause de l’IA, mais les maths, elles, sont plutôt “safe”. Les modèles actuels sont très bons pour résoudre des problèmes inventés, mais pas pour créer des idées vraiment nouvelles. Pas de révolution conceptuelle, pas de nouveau théorème sorti du néant. En gros, l’IA sait jouer avec les briques, mais elle ne sait pas encore en inventer de nouvelles.
C’est dans ce contexte qu’arrive First Proof, un projet un peu fou lancé par le mathématicien et trois autres pointures, Mohammed Abouzaid (Stanford), Lauren Williams (Harvard) et Tamara Kolda (MathSci.ai). Leur idée, créer un benchmark vraiment sérieux pour mesurer ce que les IA savent faire en maths de recherche, pas juste en mode “résous ce petit exercice de lycée”.
Leur méthode est simple et élégante, chaque mathématicien du groupe fournit une vraie question issue de ses travaux en cours, jamais publiée. Les réponses existent, mais elles sont chiffrées et ne seront dévoilées qu’à une date précise. L’objectif est de voir si les IA peuvent dépasser ce qu’elles ont déjà vu dans leurs données d’entraînement. Pas de triche, pas de solutions sur internet, pas de “j’ai déjà vu ça sur StackExchange”. Les premiers tests ont été faits sur des modèles haut de gamme comme ChatGPT‑5.2 Pro ou Gemini 3.0 Deep Think. Verdict, même avec une seule tentative autorisée, elles se plantent souvent. Parfois elles tournent en boucle, parfois elles répondent à côté, parfois elles donnent des détails inutiles et zappent le cœur du problème. Un peu comme un étudiant qui meuble pour cacher qu’il n’a pas compris.
Pourtant, les chercheurs ne sont pas méprisants. Au contraire, ils reconnaissent que les IA sont déjà très utiles pour manipuler des arguments connus, faire des calculs intermédiaires, ou structurer une preuve simple. Mais elles manquent encore de ce petit truc qui fait la différence, l’intuition, la capacité à poser la bonne question, à sentir où se cache la vraie difficulté. Et c’est là que réside la magie des maths, pas seulement dans la résolution, mais dans l’art de formuler les problèmes. La recherche mathématique, c’est un peu comme la science expérimentale, il faut d’abord imaginer la grande question, puis construire le cadre, puis seulement résoudre les sous‑problèmes. First Proof teste uniquement la dernière étape, parce que c’est la seule mesurable.
Le projet se veut aussi un antidote au discours sensationnaliste du moment, celui qui annonce que l’IA va “résoudre les maths”. Les auteurs veulent éviter que des étudiants se détournent du domaine par peur de devenir inutiles, ou que des financeurs se disent que les humains ne servent plus à rien. Et puis il y a une inquiétude plus subtile. Si les IA apprennent nos biais, nos intuitions, nos erreurs, est‑ce qu’elles risquent de figer la science au lieu de la faire avancer ? Un humain, ça débat, ça contredit, ça surprend. Une IA, elle, adopte le point de vue qu’on lui demande. Pas très stimulant pour inventer le futur.

Aucun commentaire:
Enregistrer un commentaire