Emelero atteint 83,9 % sur AML-Bench-FR — premiers résultats publics
Sur le benchmark public CASP/VASP d'AML-Bench-FR, l'infrastructure d'Emelero dépasse Claude Sonnet 4.6 (82,2 %) tout en s'appuyant sur un modèle de génération économique. Méthodologie, résultats détaillés et roadmap.
Par Tom Zielinger
Le marché de la conformité anti-blanchiment souffre d'un déficit de mesures objectives. Chaque éditeur revendique « le meilleur moteur d'analyse » sans qu'aucun référentiel public ne permette de comparer les performances. Emelero souhaite contribuer à corriger cette opacité en publiant régulièrement ses résultats sur des benchmarks indépendants.
Premier exercice : le pilote CASP/VASP d'AML-Bench-FR, un benchmark francophone récemment publié qui évalue sept capacités attendues d'un système LCB-FT sur 39 questions couvrant les prestataires de services sur crypto-actifs.
Résultats
| Système évalué | Score global |
|---|---|
| Emelero (RAG hybride, modèle économique) | 83,9 % |
| Claude Sonnet 4.6 (sans RAG) | 82,2 % |
| Claude Haiku 4.5 (sans RAG) | 62,4 % |
L'infrastructure d'Emelero dépasse Claude Sonnet 4.6 utilisé seul de 1,7 point, tout en s'appuyant pour la majorité des questions sur un modèle de génération quatre fois moins coûteux que Sonnet. La marge contre Haiku 4.5 utilisé seul atteint 21,5 points — l'apport architectural du pipeline est mesurable et significatif.
Lecture par catégorie de question
Le benchmark distingue sept capacités. Emelero domine particulièrement les questions de niveau facile, la classification des risques et la calibration sur les questions de refus. Sonnet seul conserve un léger avantage sur l'interprétation statutaire pure et l'application de cas, où le raisonnement libre du modèle compense l'absence d'un retrieval ciblé.
| Capacité évaluée | Emelero | Sonnet 4.6 | Écart |
|---|---|---|---|
| Difficulté facile | 99,4 % | 85,3 % | +14,1 |
| Classification des risques (D) | 67,7 % | 58,0 % | +9,7 |
| Calibration et refus (G) | 85,7 % | 81,7 % | +4,0 |
| Raisonnement procédural (F) | 91,0 % | 94,3 % | −3,3 |
| Interprétation statutaire (B) | 65,8 % | 77,6 % | −11,8 |
Sur les questions de niveau facile, Emelero obtient un quasi-parfait de 99,4 %. Cette performance valide la promesse opérationnelle du produit : sur les obligations courantes — seuils de vigilance, délais de déclaration, conditions d'agrément — la plateforme livre une réponse correcte avec sources opposables, plutôt que la connaissance approximative d'un modèle généraliste.
Méthodologie
Le banc d'essai a été conçu pour reproduire fidèlement le protocole d'AML-Bench-FR. Les questions fermées (QCM, réponses courtes, multilabel, ranking) sont notées par graders automatiques déterministes : exact match, expressions régulières fournies par le dataset, F1, tau de Kendall. Les questions ouvertes (réponses rédigées, génération structurée) sont notées par modèle juge, Claude Sonnet 4.6 jouant le rôle d'évaluateur sur la rubrique fournie, score normalisé entre 0 et 1.
Chaque question est soumise en parallèle à quatre systèmes : Emelero, Claude Sonnet 4.6 sans contexte injecté, Claude Haiku 4.5 sans contexte, et Claude Opus 4.6 sans contexte. Le harness d'évaluation est versionné et chaque rapport conservé pour permettre la reproduction des résultats.
Pourquoi cette performance
Trois choix d'architecture expliquent l'avantage observé.
Spécialisation du corpus. La base réglementaire d'Emelero couvre l'intégralité du paquet anti-blanchiment européen 2024 (AMLR, AMLAR, 6ᵉ directive), le règlement Travel Rule, le règlement MiCA récemment ingéré, le Code monétaire et financier, les principes d'application sectoriels de l'ACPR ainsi que la jurisprudence complète de la Commission des sanctions. Un modèle généraliste, même large, ne reproduit pas cette couverture avec la même précision.
Conscience temporelle. Une majorité des questions complexes du benchmark dépendent de la date d'application d'un texte. Le règlement AMLR n'est pas applicable avant juillet 2027, le régime PSAN reste en vigueur jusqu'à mi-2026 pour les CASP français. Emelero détecte automatiquement la date implicite d'une question et écarte du contexte les textes qui ne sont pas en vigueur à cette date — un raisonnement qu'un modèle généraliste tend à manquer.
Routage adaptatif. Le pipeline classifie chaque question avant le retrieval. Les questions de typologie ou de calibration, où l'injection de textes réglementaires bruyants détériorait la réponse, court-circuitent désormais le RAG. Les questions complexes à plusieurs paramètres déclenchent une décomposition en sous-questions. Cette modulation explique l'amélioration sur les capacités historiquement les plus difficiles à servir avec un RAG monolithique.
Limites connues
Sur l'interprétation statutaire pure et l'application de cas, Emelero reste légèrement en retrait par rapport à Sonnet seul. Ces catégories nécessitent un raisonnement libre que le RAG, contraint à s'appuyer sur les passages cités, peut rendre plus rigide. L'écart se résorbera avec l'enrichissement du corpus français (ordonnance 2024-936, décret 2025-169, positions AMF) et la calibration du re-ranking.
Le pilote AML-Bench-FR couvre exclusivement le périmètre des prestataires sur crypto-actifs. Les performances sur les autres verticales — banque, assurance, professions juridiques, agents immobiliers, négoce de biens précieux — feront l'objet d'évaluations distinctes au fur et à mesure que les sous-ensembles correspondants seront publiés par le groupe de travail.
Prochaines étapes
L'enrichissement du corpus français reste la priorité immédiate. Trois textes critiques pour le segment CASP rejoindront la base de connaissance dans la semaine : l'ordonnance 2024-936 transposant MiCA en France, le décret 2025-169 d'application, et les lignes directrices EBA/GL/2024/11 sur la Travel Rule appliquée aux self-hosted wallets.
Au-delà, deux chantiers structurels sont engagés : un fine-tuning de l'embedder de retrieval sur des paires de questions LCB-FT spécialisées, et une migration vers un cross-encoder de re-ranking dédié. L'objectif documenté est de franchir le seuil des 90 % sur AML-Bench-FR avant la fin du trimestre.
Engagement de transparence
Emelero s'engage à publier ses scores sur AML-Bench-FR à chaque version majeure du pipeline, et à documenter les régressions éventuelles. La mesure objective de la performance d'un système de conformité doit devenir une norme du marché — c'est dans l'intérêt des assujettis comme des autorités de tutelle.
Pour discuter de l'évaluation d'un dispositif LCB-FT existant ou pour intégrer Emelero dans un système d'information, contactez-nous.