Le principe : au lieu de faire communiquer des agents LLM en texte brut (tokens → décodage → lecture → réencodage), RecursiveMAS les connecte directement dans l'espace latent. Un module léger appelé RecursiveLink transfère des « pensées brutes » (vecteurs latents non décodés) d'un agent à l'autre, créant une boucle de raisonnement récursif.
L'entraînement se fait en deux phases (inner-outer loop) : chaque agent est d'abord initialement calé individuellement, puis le système entier est co-optimisé sur plusieurs rounds de récursion. Seuls ~13M de paramètres (0,31% du système) sont entraînés — les poids des LLMs de base sont gelés.
Les tests couvrent 9 benchmarks en math, sciences, médecine, code et recherche. Les modèles utilisés sont de taille modeste (Qwen, Llama, Mistral de 1.5B à 9B).
| Méthode | AIME 2025 | AIME 2026 | GPQA-D | LiveCodeBench | MedQA |
|---|---|---|---|---|---|
| Single-Agent (LoRA) | 73,3 | 70,0 | 62,0 | 37,4 | 76,1 |
| Single-Agent (Full-SFT) | 76,7 | 73,3 | 62,8 | 38,6 | 77,0 |
| Mixture-of-Agents | 79,8 | 60,0 | 47,6 | 27,0 | 57,5 |
| Recursive-TextMAS | 85,8 | 73,3 | 61,6 | 38,7 | 77,0 |
| RecursiveMAS | 88,0 | 86,7 | 66,2 | 42,9 | 79,3 |
RecursiveMAS à récursion r=3. Meilleurs résultats en vert. Les modèles de base : Qwen, Llama, Mistral (1.5B–9B).
RecursiveMAS est un travail scientifique légitime et solide. L'idée de transférer des états latents entre agents au lieu de passer par le texte est novatrice et les résultats sont encourageants : +8,3% de précision moyenne et jusqu'à 75% de réduction de tokens sur des modèles modestes (1.5B–9B). Le gain le plus frappant est sur les mathématiques de compétition (AIME : 88% vs 73% baseline), ce qui valide l'intuition que le raisonnement profond se prête bien au transfer latent.
Seule bémol notable : Károly a inventé le chiffre de « 4$ » pour le coût d'entraînement. Le papier parle de « coût le plus bas » mais ne donne aucun dollar. C'est l'exagération typique du style « Two Minute Papers » — dramatiser pour l'engagement. Le reste des affirmations tient la route, même si le « 73% → 86% » est approximatif.
À retenir : l'architecture est prometteuse mais encore jeune. Les limites de profondeur (~80 étapes) et l'absence de tests sur grands modèles signifient qu'on est loin d'un déploiement production. C'est de la vraie recherche — pas un produit.