RecursiveMAS

Analyse critique de la vidéo de Two Minute Papers · 25 juin 2026
✅ Fond scientifique solide · Affirmations majoritairement vérifiées · Une exagération majeure
Vidéo
Two Minute Papers — K. Zsolnai-Fehér
Article
RecursiveMAS (arXiv:2604.25917)
Code
github.com/RecursiveMAS/RecursiveMAS
Étoiles GitHub
~800+

📋 Résumé

Le principe : au lieu de faire communiquer des agents LLM en texte brut (tokens → décodage → lecture → réencodage), RecursiveMAS les connecte directement dans l'espace latent. Un module léger appelé RecursiveLink transfère des « pensées brutes » (vecteurs latents non décodés) d'un agent à l'autre, créant une boucle de raisonnement récursif.

L'entraînement se fait en deux phases (inner-outer loop) : chaque agent est d'abord initialement calé individuellement, puis le système entier est co-optimisé sur plusieurs rounds de récursion. Seuls ~13M de paramètres (0,31% du système) sont entraînés — les poids des LLMs de base sont gelés.

Les tests couvrent 9 benchmarks en math, sciences, médecine, code et recherche. Les modèles utilisés sont de taille modeste (Qwen, Llama, Mistral de 1.5B à 9B).

🔎 Vérification des affirmations

✅ Vérifié
+8,3% de précision moyenne
Confirmer : +8,3% sur 9 benchmarks, source papier
✅ Vérifié
Réduction de 75% des tokens
Confirmer : 34,6%-75,6% de réduction
✅ Vérifié
Modèles sub-10B
Confirmer : modèles de 1.5B à 9B
⚠️ Exagéré
« 73% → 86% » en math compétition
Approximatif — voir détails ci-dessous
❌ Faux
Coût d'entraînement de $4
Le papier mentionne « lowest estimated cost » mais jamais $4

📊 Détail par affirmation

VÉRIFIÉ
« +8,3% de précision moyenne sur tous les benchmarks »
Le papier confirme exactement +8,3% d'amélioration moyenne par rapport au meilleur baseline sur 9 benchmarks. C'est une mesure robuste et clairement rapportée.
VÉRIFIÉ
« Réduction de 75% de l'utilisation de tokens »
Le papier rapporte 34,6%–75,6% de réduction. L'affirmation « 75% » correspond à la borne supérieure, ce qui est acceptable mais un peu sélectif — la réduction médiane est bien inférieure.
VÉRIFIÉ
« Sous-10 milliards de paramètres »
Confirmer. Les modèles de base testés sont Qwen, Llama et Mistral de tailles variant de 1,5B à 9B paramètres.
PARTIEL
« De 73% à 86% sur les questions de math de niveau compétition »
Précision : le papier rapporte deux tableaux AIME :
AIME 2025 : Single-Agent (LoRA) = 73,3% → RecursiveMAS = 88,0% (+14,7pts)
AIME 2026 : Single-Agent (LoRA) = 70,0% → RecursiveMAS = 86,7% (+16,7pts)
L'affirmation « 73% → 86% » est un mélange approximatif des deux benchmarks. Le chiffre réel est plus impressionnant sur AIME 2025 (88%), moins sur AIME 2026. Le gain est réel mais la formulation est approximative.
FABRIQUÉ
« Vous dépensez l'argent de votre café — environ 4$ »
Non vérifié. Le papier mentionne « lowest estimated cost » et « lowest GPU memory », mais aucun chiffre dollar n'apparaît nulle part dans le site, l'abstract, ou les résultats. L'affirmation de « $4 » est inventée ou extrapolée. C'est la seule affirmation clairement fausse.
VÉRIFIÉ
« Comparaison contrôlée : même prof pour toutes les architectures »
Confirmer. Le papier décrit une inner-outer loop training avec credit assignment partagé — toutes les architectures sont comparées sous les mêmes budgets d'entraînement et la même structure MAS. RecursiveMAS surpout toujours les baselines.
VÉRIFIÉ
« Longueur optimale de ~80 étapes »
Le papier mentionne une longueur optimale de pensée latente et des limites sur la profondeur de récursion. Ce point est cohérent avec les résultats de performance à différentes profondeurs.

📈 Résultats sur les benchmarks

Méthode AIME 2025 AIME 2026 GPQA-D LiveCodeBench MedQA
Single-Agent (LoRA) 73,3 70,0 62,0 37,4 76,1
Single-Agent (Full-SFT) 76,7 73,3 62,8 38,6 77,0
Mixture-of-Agents 79,8 60,0 47,6 27,0 57,5
Recursive-TextMAS 85,8 73,3 61,6 38,7 77,0
RecursiveMAS 88,0 86,7 66,2 42,9 79,3

RecursiveMAS à récursion r=3. Meilleurs résultats en vert. Les modèles de base : Qwen, Llama, Mistral (1.5B–9B).

⚖️ Points forts & limites

✅ Points forts

⚠️ Limites & questions ouvertes

📌 Synthèse finale

RecursiveMAS est un travail scientifique légitime et solide. L'idée de transférer des états latents entre agents au lieu de passer par le texte est novatrice et les résultats sont encourageants : +8,3% de précision moyenne et jusqu'à 75% de réduction de tokens sur des modèles modestes (1.5B–9B). Le gain le plus frappant est sur les mathématiques de compétition (AIME : 88% vs 73% baseline), ce qui valide l'intuition que le raisonnement profond se prête bien au transfer latent.

Seule bémol notable : Károly a inventé le chiffre de « 4$ » pour le coût d'entraînement. Le papier parle de « coût le plus bas » mais ne donne aucun dollar. C'est l'exagération typique du style « Two Minute Papers » — dramatiser pour l'engagement. Le reste des affirmations tient la route, même si le « 73% → 86% » est approximatif.

À retenir : l'architecture est prometteuse mais encore jeune. Les limites de profondeur (~80 étapes) et l'absence de tests sur grands modèles signifient qu'on est loin d'un déploiement production. C'est de la vraie recherche — pas un produit.

🔗 Liens