IA et système judiciaire

En 2024, j’ai contribué aux travaux préparatoires d’expérimentation de l’intelligence artificielle au sein du parquet général près la cour d’appel de Paris.

Cette initiative a donné lieu, début 2025, au lancement public d’une expérimentation avec l’IA interministérielle de l’État, Albert, afin d’objectiver la valeur ajoutée de cette technologie au service des magistrats du premier parquet général de France.

Cet article a pour vocation de présenter les enjeux organisationnels et théoriques liés à l’introduction de l’intelligence artificielle dans des environnements institutionnels contraints.

L'IA : la bonne réponse aux délais du système pénal ?

De nombreuses administrations publiques se sont emparées, depuis plusieurs années, des différentes technologies rattachées à l’intelligence artificielle : de l’apprentissage automatique (ML), du traitement automatisé du langage (NLP), et plus récemment, des IA génératives (LLM) ainsi que de la synthèse documentaire contextualisée (RAG).

Parmi ces initiatives, Albert avait été développé comme plateforme mutualisée d’accès unique à des modèles d’IA générative (API Gateway), en mettant à disposition des modèles open-source sur infrastructures sécurisées à destination des services de l’État.

Hors considérations technologiques, le système judiciaire français fait face, depuis plusieurs années, à un allongement structurel des délais de traitement de ses procédures. Le problème est devenu majeur, au point que l’État français s’est vu condamner à de nombreuses reprises par la Cour européenne des droits de l’Homme (CEDH), au motif que ces délais contreviennent à l’exigence de « délai raisonnable » des procédures judiciaires (art. 6§1 CEDH). Sur les comparaisons européennes, les délais français se situent en moyenne à 50% au-delà de la médiane des États-membres de l’UE, avec des délais pouvant dépasser les quatre années en matière criminelle.

Avec les gains de productivité attendus par les intelligences artificielles génératives, l'objectif était donc de savoir s'il était possible, et sous quelles conditions, de les déployer utilement dans un environnement aux procédures très encadrées, aux habitudes de travail normées, et sujet à une exposition politique forte.

La difficile équation de la performance d'un système judiciaire

À l’inverse des organisations à but lucratif, les services publics n’ont pas pour objectif d’être profitables, même s’ils sont astreints à des règles qui leur imposent l’équilibre budgétaire.

La détermination de la performance doit donc se faire sur des critères autres que sur des considérations financières. Or, la performance se définit comme la capacité à optimiser, c’est-à-dire faciliter, accélérer, ou adapter les ressources allouées pour l’atteinte d’un objectif.

La détermination de cet objectif en environnement non-lucratif est particulièrement sensible : s’il ne fait pas l’objet d’une évidence certaine et absolue, il fait donc l’objet de divergences au sein de l’organisation de travail. Une solution technologique construite autour de cette vision est par conséquent vouée à l’échec, du fait de l’éclatement des priorités entre les parties prenantes qui vont graviter autour.

L’enjeu est d’autant plus marqué dans les services publics, où les administrations ne peuvent se substituer aux responsables politiques, élus ou désignés par ces derniers, qui sont de ce fait légitimes à déterminer les orientations de fond des organisations sous leurs ordres.

Dans le cas présent, l’initiative ne pouvait émerger que d’une figure autorisée à orienter l’organisation dans son fonctionnement interne, en la personne de la procureure générale. Le périmètre de l’orientation ne pouvait excéder les prérogatives qui lui étaient dévolues, et en l’occurrence, celui du politique.

Hors cas présentement commenté, l'orientation la plus prudente en matière d'objectifs de performance dans les environnements para-lucratifs sont ceux qui sont explicitement formalisés, idéalement de manière continue et constante, malgré les changements d'orientation politique.

La question de la constance de l’objectif malgré les orientations politiques n’est pas qu’un effet d’acceptabilité interne et externe : il est aussi celui d’une logique d’optimisation financière du projet. Le cadrage initial, le développement, le déploiement et l’accompagnement du changement sont coûteux en ressources et en charge cognitive pour les équipes. Il est essentiel de viser une organisation-cible, en cherchant à optimiser selon un objectif qui ne sera pas détricoté quelques mois ou années plus tard.

Identifier les bons goulets, établir le bon protocole

Les délais dans le système judiciaire sont liés à un sous-effectif chronique et documenté, que plusieurs années de réforme et d'aides ciblées n'ont pas permis d'endiguer.

Le gain d'efficacité ne peut pas non plus se traduire par une dégradation de la qualité. Une entreprise qui fait face à une tension sur sa marge peut envisager d'adapter ses coûts et réaligner son positionnement sur la qualité. Le système judiciaire, qui porte l'un des trois pouvoirs, ne peut pas renoncer à la préservation de l'État de droit.

Pour sa mise en œuvre, l'État de droit doit reposer sur le respect de certains formalismes, qui se traduisent dans des corpus documentaires. Ces derniers contiennent des documents de nature très différente : des procès-verbaux, des pièces, des expertises ... Avant qu'un magistrat puisse raisonner, il doit pouvoir prendre connaissance du contenu qui est matérialisé par ces documents, ce qui nécessite une étape de recherche, de tri et de synthèse.

Ce travail, long, répétitif, et à faible valeur ajoutée, est partiellement assumé par des assistants de justice, et constitue le premier goulet.

Un protocole d’expérimentation robuste ne peut se limiter à une comparaison informelle entre équipes. Il doit reposer sur une logique quasi-expérimentale permettant d’isoler l’effet réel de l’outil. Concrètement, un échantillon homogène de dossiers (en nature, complexité et volumétrie documentaire) est traité selon deux modalités : une chaîne de traitement standard, et une chaîne assistée par un moteur de type RAG. Lorsque cela est possible, une rotation des équipes sur les deux modalités permet de neutraliser les biais liés aux pratiques individuelles. L’évaluation ne peut se limiter aux délais de traitement : elle doit intégrer des indicateurs de qualité juridique, tels que le taux de réquisitions suivies, la fréquence des vices de procédure ou les corrections apportées en aval. En complément, des tests comparatifs entre configurations de modèles ou de paramétrage du RAG peuvent être conduits, non pas pour identifier une “meilleure IA” abstraite, mais pour déterminer l’adéquation entre un type de contenu contentieux (volumétrie, structuration, technicité) et un mode de traitement algorithmique donné. L’objectif n’est pas uniquement de mesurer une accélération, mais de qualifier précisément les cas d’usage dans lesquels cette accélération est soutenable juridiquement et opérationnellement. Dans tous les cas, la responsabilité du contenu produit demeure entièrement humaine : l’outil n’intervient qu’en assistance, et toute validation engage exclusivement le magistrat ou l’agent en charge du dossier.

Pour gagner du temps, l'informatisation à compter des années 1990 et 2000 a permis le déploiement de logiciels et de modèles afin d'accélérer la rédaction. L'assistance numérique du magistrat et des personnes qui l'accompagnent n'est pas perçue ici comme un frein, mais au contraire comme un levier utile pour l'aider à mener ses missions à bien.

Transposé au raisonnement avec l'IA, on distingue bien les deux éléments que sont l'assistance d'une part, c'est-à-dire le gain de temps, et la validation d'autre part, qui est le processus humain. L'acceptabilité fonctionnelle de son déploiement ne peut pas contrevenir à ces deux principes.

Aller plus vite ne suffit pas. La question est : plus vite vers quoi ?

Le gain de productivité attendu d'un RAG est réel. Mais il peut masquer une dégradation si le KPI retenu est uniquement le volume de dossiers traités, ou la réduction simple des délais de traitement. Un système judiciaire peut accélérer la production de ses actes tout en fragilisant leur qualité, avec des conséquences réelles sur l'applicabilité de la loi. Il est politiquement, et moralement, difficilement admissible de laisser impunis des auteurs de fait, pour des vices de procédure induits par un traitement automatisé.

S'il n'est pas envisageable que le système judiciaire décide délibérément d'abaisser son seuil de qualité (c'est-à-dire, l'effectivité de l'État de droit), il ne l'est pas plus d'atteindre ce résultat par une organisation-cible qui repose sur une automatisation partielle, devenue indispensable.

Concrètement, cette dégradation doit pouvoir s'objectiver. Le bon indicateur apparaît ici comme le taux de réquisitions non suivies par le siège, c'est-à-dire le nombre de fois où la recommandation de l'avocat générale n'aura pas été suivi. Et en sous-indicateur, la part de ces pertes attribuables à un vice de procédure.

Pourquoi ça compte

Hallucinations : le risque spécifique en contexte judiciaire

Un modèle de langage peut produire des informations incorrectes présentées avec une apparente cohérence : une référence erronée, une date inexacte, un élément inventé. C'est ce que l'on appelle une hallucination. Dans un dossier pénal, ce risque prend une forme précise : une invention matérielle introduite par le RAG peut fonder un vice de procédure soulevé par la défense. Si le RAG réduit ce risque par rapport à un LLM généraliste, parce qu'il s'appuie sur un corpus documentaire identifié et non sur sa mémoire d'entraînement, il ne l'élimine pas.

Ce que ça implique ici : la procédure métier doit rendre systématique le contrôle et la validation humaine. L'outil est ainsi présenté comme une assistance et non une délégation.

C'est pourquoi le processus de travail ne pouvait pas reposer sur une automatisation de bout en bout. Le principe d'assistance et de validation, posé comme condition de l'acceptabilité fonctionnelle, trouve ici sa justification concrète : non seulement dans la logique organisationnelle, mais dans la logique juridique. Un livrable non validé engage une responsabilité que le système ne peut pas déléguer à une machine.

Pour ces raisons, la recherche indexée du RAG a été priorisée au départ sur tout autre cas d'usage.

Pour toute organisation, une IA sans supervision ni validation humaine n'améliore pas la structure de coût, mais la décale en aval, vers le risque contentieux.

Pourquoi le parquet avant le siège.

Le choix du terrain d'expérimentation n'est pas neutre. Une IA qui assiste la rédaction d'une décision de justice, rendue au nom du peuple français et susceptible de priver quelqu'un de liberté, paraît politiquement et symboliquement inacceptable dans l'état actuel du débat public. Une IA qui assiste le parquet dans la préparation de ses réquisitions l'est beaucoup moins : l'avocat de la défense reste en mesure de contester, le magistrat du siège reste en mesure de ne pas suivre. Autrement dit, l'équilibre introduit par le principe du contradictoire absorbe une partie du risque. À la condition, bien évidemment, que cette automatisation ne mène pas à une dégradation de la qualité, quand bien même elle permet d'agir sur les délais des procédures.

Ce choix reflète une règle générale pour les expérimentations en environnement institutionnel contraint : on commence là où la réversibilité est la plus grande et l'exposition politique la plus faible. Pas par timidité, par méthode.

Une hypothèse sur ce que la technologie rend possible, sans le rendre automatique.

L'article 4 du décret n° 2015-1275 du 13 octobre 2015 portant statut particulier des greffiers des services judiciaires définit leurs missions en deux registres distincts. D'un côté, des fonctions procédurales et documentaires : assistance des magistrats dans la mise en état et le traitement des dossiers, recherches juridiques, rédaction des procès-verbaux, mise en forme des décisions. De l'autre, une mission explicitement tournée vers les justiciables : renseigner, orienter et accompagner les usagers dans l'accomplissement des formalités ou procédures judiciaires.

Ces deux registres coexistent dans le même article, sans être hiérarchisés. Mais dans la pratique, la charge documentaire a structurellement absorbé la disponibilité des greffiers au détriment du second.

Si le RAG prend en charge une partie du premier registre, à savoir la recherche, le tri, la synthèse documentaire, la question qui s'ouvre est celle de la capacité libérée pour le second. Le déficit de présence auprès des justiciables est documenté : la loi d'orientation et de programmation du ministère de la Justice 2023-2027 identifie explicitement l'amélioration de l'accueil et de l'accompagnement des usagers parmi ses objectifs. Le texte prévoit par ailleurs 1 500 recrutements supplémentaires de greffiers d'ici 2027, soit un effort réel, mais qui ne résoudra vraisemblablement pas l'enjeu structurelle.

La transformation numérique rend envisageable une réorientation partielle vers ces missions relationnelles. Sans la rendre automatique, elle ne la rend souhaitable que si elle est pensée en amont, et pas subie en aval.

Autrement dit, la mise en production de l'algorithme devra passer par une étape de dialogue social avec les greffiers, dont le métier sera directement affecté par un outil qui ne leur était pas destiné au départ. Hors justice, c'est un angle mort fréquent des projets IA : on cartographie les utilisateurs cibles, rarement les parties prenantes dont le travail se trouve modifié en aval ou en amont de la chaîne.

IA et système judiciaire : construire les conditions d'une expérimentation acceptable.