Research · Position paper v0.1

AML-Bench-FR

Vers un référentiel d'évaluation des systèmes d'IA générative en matière de lutte contre le blanchiment de capitaux et le financement du terrorisme, ancré dans le droit français et européen.

Version
Version 0.1 · Mai 2026
Auteurs
AML-Bench-FR Project
Statut
Document de travail · ouvert à la collaboration

Résumé

Les systèmes d'IA générative augmentés par recherche (RAG) sont en cours de déploiement rapide dans les fonctions de conformité LCB-FT, sans qu'aucun cadre d'évaluation standardisé n'existe pour mesurer leur fiabilité dans ce domaine. Ce document propose la construction d'AML-Bench-FR, un benchmark de référence pour évaluer les capacités des LLM et des architectures RAG sur les tâches de conformité LCB-FT, avec un ancrage initial dans le droit français et européen (AMLD, AMLR, lignes directrices ACPR et TRACFIN, recommandations GAFI). Le benchmark adopte une approche multi-axes (sept capacités cognitives), une méthodologie de construction inspirée de GPQA et LegalBench (sourcing primaire, validation contradictoire experte, design adversarial), et un protocole d'évaluation holistique inspiré de HELM (au-delà de la seule accuracy : calibration, fidélité, robustesse, refus approprié). L'objectif est de produire un actif académique, technique et stratégique au service d'une régulation IA crédible dans le secteur de la compliance financière.

Sommaire

  1. 1. Contexte et motivation
  2. 2. État de l'art
  3. 3. Taxonomie des capacités évaluées
  4. 4. Méthodologie de construction du dataset
  5. 5. Formats de tâches
  6. 6. Métriques d'évaluation
  7. 7. Protocole d'évaluation
  8. 8. Gouvernance, diffusion, soutenabilité
  9. 9. Roadmap
  10. 10. Risques et limites
  11. 11. Conclusion et appel à collaboration
  12. Références
  13. Comment citer
  14. Formulaire de collaboration

1. Contexte et motivation

1.1 Convergence réglementaire et technologique

Le paysage LCB-FT européen connaît une transformation structurelle. Le règlement européen AMLR, applicable au 10 juillet 2027, l'établissement de l'autorité européenne AMLA, et l'extension du périmètre des entités assujetties aux activités non-financières (agents immobiliers, professionnels du chiffre, marchands de biens précieux, prestataires de services sur actifs numériques) génèrent un besoin sans précédent en outils d'aide à la conformité. Simultanément, l'AI Act européen classe les systèmes d'IA déployés en compliance financière parmi les usages à haut risque, imposant des obligations d'évaluation, de documentation et de gestion des risques.

Cette double dynamique crée un appel d'air pour des solutions IA, mais aucune méthodologie de référence ne permet aujourd'hui à un acquéreur, un régulateur ou un auditeur d'évaluer objectivement les performances d'un système d'IA appliqué à la LCB-FT. Les benchmarks NLP généralistes (MMLU, BIG-bench) ne couvrent pas le domaine. Les benchmarks juridiques (LegalBench) restent ancrés en common law américain. Les benchmarks financiers (FinanceBench) couvrent l'analyse corporate, non la conformité réglementaire. Cette absence est un risque systémique : elle ouvre la porte à des déploiements d'IA non évalués sur des fonctions à fort enjeu juridique et opérationnel.

1.2 Positionnement

AML-Bench-FR vise à devenir le référentiel d'évaluation des systèmes d'IA — modèles de langage seuls et architectures RAG — sur les tâches de conformité LCB-FT en droit français et européen. Le projet poursuit trois objectifs simultanés :

Académique : produire un dataset et une méthodologie d'évaluation publiables, citables, reproductibles, contribuant à la littérature en NLP juridique et en évaluation des systèmes IA spécialisés.

Industriel : offrir aux éditeurs reg-tech, aux entités assujetties et à leurs auditeurs un outil de mesure objectif des performances et limites des systèmes IA en conformité.

Réglementaire : anticiper les attentes des autorités (ACPR, AMLA, autorités de marché) en matière d'évaluation d'IA à haut risque dans les fonctions de compliance, et fournir un cadre potentiellement adoptable comme référence supervisoire.

2. État de l'art

2.1 Benchmarks généralistes et spécialisés

Nous positionnons AML-Bench-FR par rapport aux principaux efforts d'évaluation existants :

  • MMLU et MMLU-Pro (Hendrycks et al., 2020 ; Wang et al., 2024)Couverture multi-domaine large, format QCM. Limites documentées : saturation par les modèles frontières, contamination probable des données d'entraînement, faible profondeur de raisonnement.
  • GPQA (Rein et al., 2023)Questions de niveau doctoral en sciences naturelles, conçues pour résister à la recherche web. Méthodologie de validation experte contradictoire à laquelle ce projet emprunte explicitement.
  • LegalBench (Guha et al., 2023)162 tâches juridiques, taxonomie IRAC, construction collaborative par juristes. Référence structurelle pour AML-Bench-FR, mais ancrage common law et absence de couverture LCB-FT.
  • FinanceBench (Islam et al., 2023)Questions sur documents 10-K, approche evidence-based avec passages sources annotés. Inspiration pour la traçabilité documentaire mais hors scope LCB-FT.
  • HELM (Liang et al., 2022, Stanford CRFM)Framework d'évaluation holistique : accuracy, calibration, robustness, fairness, bias, toxicity, efficiency. Cadre méthodologique pour la définition de métriques au-delà de l'accuracy.
  • TruthfulQA (Lin et al., 2021)Détection des idées reçues et confabulations. Pertinent pour les misconceptions LCB-FT (seuils, exemptions, périmètre d'obligations).

2.2 Benchmarks RAG

RGB (Chen et al., 2023) et CRAG (Yang et al., Meta 2024) évaluent les systèmes RAG sur quatre capacités : robustesse au bruit (passages non pertinents dans le contexte), rejet négatif (capacité à refuser quand la réponse n'est pas dans le contexte), intégration d'information (synthèse multi-documents), robustesse contrefactuelle (résistance à des informations erronées dans le contexte). Ces axes sont directement pertinents pour évaluer un système de conformité où une hallucination peut entraîner un risque juridique réel. Ragas (Es et al., 2023) propose un ensemble de métriques opérationnelles : faithfulness, answer relevancy, context precision, context recall.

2.3 Lacune identifiée

À la connaissance des auteurs, aucun benchmark public n'évalue les systèmes d'IA sur les tâches de conformité LCB-FT en droit français ou européen. Les seuls travaux proches portent sur la détection d'opérations suspectes par apprentissage supervisé sur données transactionnelles, ce qui relève d'une problématique distincte (classification structurée, non raisonnement réglementaire). AML-Bench-FR vise à combler cette lacune en construisant un référentiel rigoureux, multi-tâches, évalué et maintenu.

3. Taxonomie des capacités évaluées

Le benchmark structure l'évaluation autour de sept capacités cognitives distinctes, chacune correspondant à un type de raisonnement mobilisé par un professionnel LCB-FT. Une question peut être taggée sur plusieurs capacités.

CodeCapacitéDescription
AKnowledge recallRestitution exacte du corpus réglementaire : Code monétaire et financier, AMLD/AMLR, lignes directrices ACPR, doctrine TRACFIN, recommandations GAFI/FATF.
BStatutory interpretationInterprétation de textes ambigus, articulation de normes (lex specialis, hiérarchie UE/national, articulation avec RGPD et secret professionnel).
CCase application (IRAC)Qualification d'un cas concret : identification des obligations applicables, application de la règle, conclusion. Cœur du raisonnement opérationnel.
DRisk classificationClassification du niveau de risque BC-FT (faible, standard, élevé) selon l'approche par les risques, avec justification sur la base des facteurs réglementaires.
ETypology recognitionDétection de schémas typologiques de blanchiment ou financement du terrorisme : smurfing, layering, trade-based ML, abus d'OBNL, circuits crypto.
FProcedural reasoningMaîtrise des délais, formalismes, chaînes déclaratives, durées de conservation, périmètres d'information.
GCalibration & refusalCapacité à exprimer une incertitude calibrée, à refuser les questions hors-scope, à signaler les zones grises doctrinales et à orienter vers une expertise humaine.

3.1 Stratification croisée

Chaque entrée du dataset est en outre stratifiée selon quatre dimensions transverses, permettant des analyses de performance ciblées.

  • Type d'entité assujettie. Établissement de crédit, établissement de paiement, agent immobilier, notaire, expert-comptable, marchand de biens précieux (or, pierres, art), PSAN/CASP. Les obligations varient substantiellement entre ces catégories.
  • Juridiction. Droit français (Code monétaire et financier, livre V titre VI), droit européen (AMLD 4/5/6, AMLR), normes internationales (recommandations GAFI, FATF). Permet de mesurer la confusion inter-régimes.
  • Temporalité. Régime actuel vs régime AMLR (entrée en vigueur juillet 2027). Mesure la capacité d'anticipation du modèle.
  • Difficulté. Calibrée empiriquement (cf. § 4.6), non auto-déclarée. Trois niveaux : easy (recall direct), medium (raisonnement à un ou deux sauts), hard (zones grises, jurisprudence Commission des sanctions, articulation de normes).

4. Méthodologie de construction du dataset

La rigueur méthodologique de construction conditionne la valeur du benchmark. Six principes structurent le processus.

4.1 Sourcing primaire

Chaque question dérive exclusivement de sources faisant autorité : textes législatifs et réglementaires (Code monétaire et financier, règlements européens), lignes directrices et recommandations des autorités (ACPR, TRACFIN, EBA, GAFI), décisions de la Commission des sanctions ACPR, jurisprudence CJUE, rapports annuels TRACFIN (les annexes typologiques constituent un matériau particulièrement précieux pour la capacité E). Les sources secondaires (blogs, commentaires de cabinets) sont exclues du sourcing direct mais peuvent servir d'inspiration pour la formulation.

4.2 Évidence traçable

Chaque entrée du dataset stocke un champ evidence_spans contenant les passages exacts des sources qui justifient la réponse, avec référence officielle (article, considérant, paragraphe, URL). Cette traçabilité poursuit deux objectifs : permettre l'évaluation séparée du retrieval (le système RAG a-t-il trouvé les bons passages ?) et assurer l'auditabilité juridique des réponses de référence.

4.3 Validation contradictoire experte

Le processus d'annotation suit un protocole en quatre étapes inspiré de GPQA : (1) rédaction initiale par un auteur expert LCB-FT ; (2) réponse en aveugle par un second expert — tout désaccord déclenche une discussion documentée et une révision ; (3) validation finale par un troisième expert sur la version révisée ; (4) mesure d'inter-annotator agreement (kappa de Cohen, kappa de Fleiss) sur un sous-ensemble de 100 questions annotées indépendamment par trois experts. Une catégorie présentant un kappa inférieur à 0,6 est jugée mal définie et reformulée.

4.4 Design adversarial

Pour une fraction substantielle des questions (cible : 25%), une variante adversariale est produite. La variante modifie un seul paramètre du cas (juridiction, type d'entité assujettie, seuil voisin, période d'application) de manière à inverser ou modifier la réponse, tout en conservant une formulation très proche. L'objectif est de mesurer si le modèle s'appuie sur des mots-clés superficiels ou sur une compréhension réelle de la règle.

4.5 Anti-contamination

La diffusion publique d'un benchmark crée un risque de contamination des corpus d'entraînement des futurs modèles, ce qui en érode rapidement la valeur diagnostique. Quatre parades sont mises en œuvre : (i) held-out privé — 30% des questions ne sont jamais publiées et constituent l'ensemble d'évaluation officielle accessible uniquement via une API ; (ii) canary strings — chaque entrée publique contient un identifiant unique permettant la détection a posteriori d'une contamination ; (iii) versionnage et rotation — publication par versions semestrielles avec rotation partielle et changelog public ; (iv) reformulation — les cas réels sont systématiquement reformulés et anonymisés.

4.6 Calibration empirique de la difficulté

La difficulté d'une question n'est pas auto-déclarée par l'auteur. Elle est calibrée empiriquement à partir des taux de réussite d'un panel de modèles de référence (cible initiale : Claude Opus 4.7, GPT-5, Gemini 2.5 Pro, Mistral Large, Llama 70B). Les questions sont réparties en trois quantiles selon ce taux de réussite agrégé. Le recours à un modèle d'Item Response Theory (IRT) est envisagé en v2 pour une calibration plus fine.

5. Formats de tâches

Le format QCM, dominant dans MMLU, présente des limites connues : saturation rapide, vulnérabilité au biais de position, faible discrimination sur le raisonnement long. AML-Bench-FR adopte une diversité de formats.

  • QCM 4-5 options avec distracteurs plausibles. Principalement pour les capacités A et F.
  • Réponses ouvertes courtes. Notées par exact match ou expression régulière (seuils numériques, délais, références d'articles).
  • Réponses ouvertes longues. Notées par rubrique structurée et juge LLM calibré sur annotations humaines.
  • Classification multi-label. (« parmi ces 12 obligations, lesquelles s'appliquent à ce cas ? ») évaluée par F1-score.
  • Ranking. Ordonnancement de red flags par criticité, évalué par tau de Kendall.
  • Génération structurée. Production d'une fiche KYC, d'une trame de déclaration de soupçon, évaluée par rubrique de complétude.
  • Tâches de refus. Questions où la bonne réponse est l'expression d'incertitude ou le renvoi vers une expertise humaine. Mesure spécifique du taux de fausse confiance.
  • Tâches contrefactuelles. Modification d'un seul élément du cas, le modèle doit détecter le changement de réponse.

6. Métriques d'évaluation

Conformément à l'esprit du framework HELM, l'évaluation est holistique et ne se réduit pas à l'accuracy.

  • Accuracy. Ventilée par capacité, par type d'entité assujettie, par niveau de difficulté, par juridiction.
  • Calibration (ECE). Expected Calibration Error. Le modèle est invité à exprimer sa confiance ; on vérifie l'adéquation entre confiance déclarée et taux de bonnes réponses. Métrique critique : un système sur-confiant en compliance est dangereux.
  • Faithfulness / hallucination rate. Proportion de claims dans la réponse non supportés par le contexte fourni au modèle (mesure inspirée de Ragas).
  • Citation accuracy. Lorsque le modèle cite une référence (article du Code monétaire et financier, ligne directrice ACPR), vérification automatique de la validité de la citation.
  • Refusal appropriateness. Matrice de confusion sur les questions à refus attendu : refus correct, sur-refus (refus injustifié), sur-confiance (réponse alors qu'un refus était attendu).
  • Robustness. Variance des réponses sous perturbations contrôlées (paraphrase de la question, permutation de l'ordre des options QCM, ajout de bruit dans le contexte RAG).
  • Self-consistency. Taux d'accord avec soi-même sur n=5 runs à température non nulle.
  • Métriques RAG dédiées. Context Precision et Context Recall (Ragas) pour distinguer les erreurs de retrieval des erreurs de génération.
  • Coût et latence. Dimensions opérationnelles pertinentes pour l'usage produit.

7. Protocole d'évaluation

Pour garantir la reproductibilité et la comparabilité inter-modèles, le protocole d'évaluation est strictement standardisé.

  • Few-shot uniforme : évaluations en 0-shot, 3-shot, 5-shot avec exemples identiques pour tous les modèles.
  • Templates de prompt figés et publiés. Les ajustements de prompt sont autorisés en mode sandbox mais ne sont pas pris en compte dans le leaderboard officiel.
  • Seeds fixes et températures reportées (T=0 pour le score officiel, T=0,7 pour la mesure de variance).
  • Multiplicité des runs : n=3 minimum, moyennes et écarts-types reportés.
  • Baseline humaine : un sous-ensemble représentatif est traité par un panel de praticiens LCB-FT.
  • Baselines triviales : random et majority pour les tâches de classification, afin d'objectiver la valeur ajoutée des modèles.

8. Gouvernance, diffusion et soutenabilité

8.1 Documentation. Le projet adopte les standards documentaires de la communauté ML-éthique : Datasheet for Datasets (Gebru et al., 2018) pour le dataset, Model Cards (Mitchell et al., 2019) pour chaque modèle évalué et publié sur le leaderboard. Cette documentation couvre la motivation, la composition, le processus de collecte, les biais connus, les usages recommandés et déconseillés.

8.2 Licence et accès. La partie publique du dataset est publiée sous licence CC-BY 4.0. Le held-out reste sous EULA stricte, accessible uniquement via une API d'évaluation. Cette dichotomie protège la valeur diagnostique tout en favorisant l'adoption.

8.3 Leaderboard et soumission. Un leaderboard public est hébergé sur l'infrastructure Hugging Face Spaces. Les soumissions sont effectuées via API, avec exécution sur l'environnement contrôlé du held-out. Les résultats incluent les scores ventilés par capacité, type d'entité, difficulté et les indicateurs de calibration et de fidélité.

8.4 Publication scientifique. Un article décrivant la méthodologie, le dataset et les résultats initiaux est rédigé en parallèle de la construction du benchmark, avec un dépôt sur arXiv puis une soumission cible à un workshop NLP-Law (NLLP, Jurix) ou aux findings d'une conférence de référence (ACL, EMNLP). Une co-auteurship académique avec un laboratoire de NLP juridique est recherchée.

8.5 Maintenance. Le benchmark est versionné selon un schéma sémantique. Une rotation partielle des questions est effectuée à chaque version mineure ; une refonte taxonomique est envisagée à chaque version majeure. Le projet vise une cadence semestrielle de mise à jour, conditionnée à l'évolution réglementaire (notamment AMLR à compter de juillet 2027).

9. Roadmap

Quatre phases, du cadrage à la diffusion continue.

PhaseDuréeLivrables
0 — CadrageActuel2-3 semainesRevue de littérature consolidée. Position paper finalisé. Premiers contacts académiques. Définition technique du schéma de données.
1 — Pilote1-2 mois50 questions sur une vertical (proposition : agent immobilier). Évaluation de 4-5 modèles. Mini-rapport public. Validation de la méthodologie d'annotation et de calibration.
2 — Extension3-4 mois500-800 questions couvrant la taxonomie complète. Recrutement de 2-3 co-annotateurs experts. Premier leaderboard public. Soumission arXiv.
3 — DiffusionContinueMaintenance du leaderboard. Versions semestrielles. Soumission conférence. Partenariats institutionnels (ACPR, AMLA, milieu académique). Anticipation de l'extension multi-juridictionnelle (BE, LU, DE).

10. Risques et limites

Trois catégories de risques sont identifiées et font l'objet de stratégies d'atténuation.

  • Risque méthodologique. Une taxonomie imparfaite ou un sourcing partiel biaiseraient les conclusions. Atténuation : validation contradictoire experte, mesure formelle d'inter-annotator agreement, ouverture du processus à la revue par les pairs académique et professionnelle.
  • Risque de contamination et d'obsolescence. La diffusion publique érode la valeur diagnostique. Atténuation : held-out privé, canary strings, rotation versionnée. L'évolution réglementaire (AMLR 2027) impose en outre une maintenance active.
  • Risque d'instrumentalisation. Un benchmark peut être utilisé pour justifier abusivement le déploiement d'un système IA en production critique. Atténuation : la documentation insiste explicitement sur le fait que le benchmark mesure des capacités circonscrites et ne constitue ni une certification, ni une garantie de conformité opérationnelle. Une section « usages déconseillés » est intégrée à la datasheet.

11. Conclusion et appel à collaboration

AML-Bench-FR se positionne à l'intersection d'un besoin réglementaire émergent, d'une lacune scientifique avérée et d'une opportunité industrielle réelle. La construction d'un référentiel d'évaluation rigoureux des systèmes d'IA en compliance LCB-FT constitue un actif stratégique pour la communauté reg-tech francophone et européenne, et une contribution scientifique de niveau publication.

Le projet recherche dès la phase 0 des collaborations dans trois directions : (i) un partenariat académique avec un laboratoire de NLP juridique pour la co-auteurship scientifique, (ii) un panel d'experts LCB-FT praticiens pour l'annotation contradictoire, (iii) un dialogue avec les autorités (ACPR, AMLA) pour aligner le benchmark sur les futures attentes supervisoires en matière d'IA à haut risque dans la compliance.

Références

Références indicatives citées dans ce position paper.

  • Chen, J. et al. (2023). Benchmarking Large Language Models in Retrieval-Augmented Generation. arXiv preprint.arXiv:2309.01431
  • Es, S. et al. (2023). RAGAS: Automated Evaluation of Retrieval Augmented Generation. arXiv preprint.arXiv:2309.15217
  • Gebru, T. et al. (2018). Datasheets for Datasets. arXiv preprint.arXiv:1803.09010
  • Guha, N. et al. (2023). LegalBench: A Collaboratively Built Benchmark for Measuring Legal Reasoning in Large Language Models. arXiv preprint.arXiv:2308.11462
  • Hendrycks, D. et al. (2020). Measuring Massive Multitask Language Understanding. arXiv preprint.arXiv:2009.03300
  • Islam, P. et al. (2023). FinanceBench: A New Benchmark for Financial Question Answering. arXiv preprint.arXiv:2311.11944
  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv preprint.arXiv:2211.09110
  • Lin, S. et al. (2021). TruthfulQA: Measuring How Models Mimic Human Falsehoods. arXiv preprint.arXiv:2109.07958
  • Mitchell, M. et al. (2019). Model Cards for Model Reporting. arXiv preprint.arXiv:1810.03993
  • Rein, D. et al. (2023). GPQA: A Graduate-Level Google-Proof Q&A Benchmark. arXiv preprint.arXiv:2311.12022
  • Yang, X. et al. (2024). CRAG — Comprehensive RAG Benchmark. Meta AI.

Sources institutionnelles

Code monétaire et financier (livre V, titre VI) ; Directives AMLD 4/5/6 ; Règlement AMLR ; Lignes directrices ACPR et TRACFIN ; Recommandations GAFI/FATF ; Décisions de la Commission des sanctions ACPR ; Rapports annuels TRACFIN.

Comment citer

Pour référencer AML-Bench-FR dans un travail académique, merci d'utiliser l'entrée BibTeX suivante. La version publiée passera à une référence CEUR ou arXiv une fois soumise.

@misc{aml-bench-fr-2026,
  title        = {AML-Bench-FR: Toward a Benchmark for
                  Evaluating Generative-AI Systems on AML-CTF
                  Compliance under French and European Law},
  author       = {{AML-Bench-FR Project}},
  year         = {2026},
  howpublished = {Position paper v0.1},
  url          = {https://lutteblanchiment.fr/research/aml-bench-fr},
  note         = {Working draft, open for collaboration}
}

Formulaire de collaboration

Si vous souhaitez nous rejoindre comme co-auteur académique, comme expert annotateur LCB-FT, ou en tant que partenaire institutionnel (régulateur, banque centrale, autorité de supervision), utilisez ce formulaire. Nous répondons sous 5 jours ouvrés.

Votre profil (une ou plusieurs cases)

Les données transmises via ce formulaire sont utilisées uniquement pour le traitement de votre demande de collaboration. Rétention : 24 mois. Voir /dpa.

Document de cadrage v0.1 · ouvert à la revue par les pairs · ← retour à la liste Research