Analyse : RecursiveMAS — Synthèse & Vérification

Vidéo

Two Minute Papers — K. Zsolnai-Fehér

Article

RecursiveMAS (arXiv:2604.25917)

Code

github.com/RecursiveMAS/RecursiveMAS

Étoiles GitHub

~800+

📋 Résumé

Le principe : au lieu de faire communiquer des agents LLM en texte brut (tokens → décodage → lecture → réencodage), RecursiveMAS les connecte directement dans l'espace latent. Un module léger appelé RecursiveLink transfère des « pensées brutes » (vecteurs latents non décodés) d'un agent à l'autre, créant une boucle de raisonnement récursif.

L'entraînement se fait en deux phases (inner-outer loop) : chaque agent est d'abord initialement calé individuellement, puis le système entier est co-optimisé sur plusieurs rounds de récursion. Seuls ~13M de paramètres (0,31% du système) sont entraînés — les poids des LLMs de base sont gelés.

Les tests couvrent 9 benchmarks en math, sciences, médecine, code et recherche. Les modèles utilisés sont de taille modeste (Qwen, Llama, Mistral de 1.5B à 9B).

🔎 Vérification des affirmations

✅ Vérifié

+8,3% de précision moyenne

Confirmer : +8,3% sur 9 benchmarks, source papier

✅ Vérifié

Réduction de 75% des tokens

Confirmer : 34,6%-75,6% de réduction

✅ Vérifié

Modèles sub-10B

Confirmer : modèles de 1.5B à 9B

⚠️ Exagéré

« 73% → 86% » en math compétition

Approximatif — voir détails ci-dessous

❌ Faux

Coût d'entraînement de $4

Le papier mentionne « lowest estimated cost » mais jamais $4

📊 Détail par affirmation

VÉRIFIÉ

« +8,3% de précision moyenne sur tous les benchmarks »

Le papier confirme exactement +8,3% d'amélioration moyenne par rapport au meilleur baseline sur 9 benchmarks. C'est une mesure robuste et clairement rapportée.

VÉRIFIÉ

« Réduction de 75% de l'utilisation de tokens »

Le papier rapporte 34,6%–75,6% de réduction. L'affirmation « 75% » correspond à la borne supérieure, ce qui est acceptable mais un peu sélectif — la réduction médiane est bien inférieure.

VÉRIFIÉ

« Sous-10 milliards de paramètres »

Confirmer. Les modèles de base testés sont Qwen, Llama et Mistral de tailles variant de 1,5B à 9B paramètres.

PARTIEL

« De 73% à 86% sur les questions de math de niveau compétition »

Précision : le papier rapporte deux tableaux AIME :
• AIME 2025 : Single-Agent (LoRA) = 73,3% → RecursiveMAS = 88,0% (+14,7pts)
• AIME 2026 : Single-Agent (LoRA) = 70,0% → RecursiveMAS = 86,7% (+16,7pts)
L'affirmation « 73% → 86% » est un mélange approximatif des deux benchmarks. Le chiffre réel est plus impressionnant sur AIME 2025 (88%), moins sur AIME 2026. Le gain est réel mais la formulation est approximative.

FABRIQUÉ

« Vous dépensez l'argent de votre café — environ 4$ »

Non vérifié. Le papier mentionne « lowest estimated cost » et « lowest GPU memory », mais aucun chiffre dollar n'apparaît nulle part dans le site, l'abstract, ou les résultats. L'affirmation de « $4 » est inventée ou extrapolée. C'est la seule affirmation clairement fausse.

VÉRIFIÉ

« Comparaison contrôlée : même prof pour toutes les architectures »

Confirmer. Le papier décrit une inner-outer loop training avec credit assignment partagé — toutes les architectures sont comparées sous les mêmes budgets d'entraînement et la même structure MAS. RecursiveMAS surpout toujours les baselines.

VÉRIFIÉ

« Longueur optimale de ~80 étapes »

Le papier mentionne une longueur optimale de pensée latente et des limites sur la profondeur de récursion. Ce point est cohérent avec les résultats de performance à différentes profondeurs.

📈 Résultats sur les benchmarks

Méthode	AIME 2025	AIME 2026	GPQA-D	LiveCodeBench	MedQA
Single-Agent (LoRA)	73,3	70,0	62,0	37,4	76,1
Single-Agent (Full-SFT)	76,7	73,3	62,8	38,6	77,0
Mixture-of-Agents	79,8	60,0	47,6	27,0	57,5
Recursive-TextMAS	85,8	73,3	61,6	38,7	77,0
RecursiveMAS	88,0	86,7	66,2	42,9	79,3

RecursiveMAS à récursion r=3. Meilleurs résultats en vert. Les modèles de base : Qwen, Llama, Mistral (1.5B–9B).

⚖️ Points forts & limites

✅ Points forts

Architecture novatrice : le transfert latent évite le surcoût de décodage texte/rendecodage
Très économique : ~13M paramètres entraînables (0,31% du système), poids gelés
Améliorations cohérentes sur 9 benchmarks hétérogènes (math, science, code, médecine)
Comparaison juste : mêmes budgets d'entraînement, même structure MAS pour toutes les baselines
Code et données ouverts — reproductibilité

⚠️ Limites & questions ouvertes

Modèles petits : résultats sur 1.5B–9B. Mise à l'échelle aux grands modèles (70B+) inconnue
Profondeur limitée : optimal autour de 80 étapes — pas de raisonnement profond infini
« Budget $4 » non vérifiable — Károly a inventé ou extrapolé ce chiffre
9 benchmarks couverts — bien que variés, ce n'est pas exhaustif face à l'écosystème MMLU/ARC/etc.

📌 Synthèse finale

RecursiveMAS est un travail scientifique légitime et solide. L'idée de transférer des états latents entre agents au lieu de passer par le texte est novatrice et les résultats sont encourageants : +8,3% de précision moyenne et jusqu'à 75% de réduction de tokens sur des modèles modestes (1.5B–9B). Le gain le plus frappant est sur les mathématiques de compétition (AIME : 88% vs 73% baseline), ce qui valide l'intuition que le raisonnement profond se prête bien au transfer latent.

Seule bémol notable : Károly a inventé le chiffre de « 4$ » pour le coût d'entraînement. Le papier parle de « coût le plus bas » mais ne donne aucun dollar. C'est l'exagération typique du style « Two Minute Papers » — dramatiser pour l'engagement. Le reste des affirmations tient la route, même si le « 73% → 86% » est approximatif.

À retenir : l'architecture est prometteuse mais encore jeune. Les limites de profondeur (~80 étapes) et l'absence de tests sur grands modèles signifient qu'on est loin d'un déploiement production. C'est de la vraie recherche — pas un produit.

🔗 Liens

📄 Papier arXiv : arxiv.org/abs/2604.25917

🌐 Site du projet : recursivemas.github.io

💻 Code GitHub : github.com/RecursiveMAS/RecursiveMAS

🎬 Vidéo Two Minute Papers : youtube.com/watch?v=dUmT0OIGoqE