Par akademiotoelektronik, 19/03/2023
Yannick Meneceur : “L’IA dans la justice ne peut pas avoir réponse à tout”
Un peu comme dans un film de Lautner et d’Audiard, ça a défouraillé sec au Conseil d’État. La veille de la soirée du réveillon 2021-2022, la haute juridiction administrative a rejeté de manière tout à fait catégorique les différents recours déposés contre un décret du 27 mars 2020 portant création de “DataJust” pour une phase expérimentale de deux années.
Rappelons que cet algorithme a été présenté comme l’une des toutes premières applications de l’intelligence artificielle par le ministère de la Justice afin de créer un référentiel d’indemnisation en matière de réparation du préjudice corporel, en exploitant les décisions rendues par les cours d’appels judiciaires et administratives entre 2017 et 2019. Certainement émus par la présence de tous les ingrédients de cette fameuse “justice prédictive”, les différents requérants, dont l’association La Quadrature du Net, ont soulevé divers moyens pour mettre en échec la phase de test de cet algorithme. De manière non exhaustive, il était notamment reproché à DataJust de se substituer à la loi pour fixer des indemnisations, d’être contraire aux principes d’individualisation des décisions et de réparation intégrale des préjudices, ainsi qu’aux principes de minimisation et d’exactitude de données. Aucun de ces arguments n’a convaincu les juges du Palais-Royal, qui ont précisé au détour d’un considérant que le logiciel tendrait au contraire “à assurer un accès plus facile à la jurisprudence sur l’indemnisation des préjudices corporels afin de garantir l’accessibilité et la prévisibilité du droit” (12e considérant).
À lire aussi :Exclusif : le ministère de la Justice renonce à son algorithme DataJustIl faut dire que l’idée d’un référentiel en la matière n’est pas réellement nouvelle car, du point de vue des débiteurs de créance d’indemnisation – qu’il s’agisse de personnes physiques ou d’organismes payeurs privés ou publics –, l’individualisation des décisions est considérée comme un aléa. Le livre blanc de l’Association française de l’assurance de 2008 n’ayant pas conduit le législateur à graver dans le marbre d’une loi un barème national, des échelles indemnitaires, comme la nomenclature “Dintilhac” ou le référentiel “Mornet”, ont été établies par la Cour de cassation avec des méthodes statistiques et servent aujourd’hui de guides aux acteurs de l’indemnisation du dommage corporel afin d’assurer une meilleure harmonisation territoriale de la réponse judiciaire… sans tout le temps y parvenir de manière satisfaisante.
Des mathématiciens ont démontré que l’élargissement d’une base de données conduisait inévitablement à l’apparition de “corrélations fallacieuses”, c’est-à-dire de liens entre des données résultant du hasard et non de réels liens de causalité.
Les algorithmes dits d’apprentissage automatique (machine learning) ont donc réenchanté cette ambition, en rendant possible la création d’une nouvelle génération de référentiels inférés par le traitement massif d’une quantité considérable de décisions de justice. Le ministère de la Justice ne pouvait laisser l’initiative dans le domaine au seul secteur privé, dont les legal tech proposent déjà une offre commerciale principalement à destination des avocats et des directions juridiques. C’est dans ce contexte que la direction des affaires civiles et du Sceau a porté, avec l’appui d’enthousiastes “entrepreneurs d’intérêt général”, l’expérimentation d’un système à destination des victimes, des magistrats, des avocats, des assureurs et des fonds d’indemnisation. DataJust serait donc plutôt une bonne idée a priori, en mettant à disposition du plus grand nombre les bénéfices des dernières technologies. Mais, comme à l’habitude, le diable se cache dans les détails.
Il y a en effet beaucoup à dire sur les fragilités des projets de “jurimétrie”, auxquelles DataJust n’échappe pas, notamment en ce qui concerne l’exactitude des informations produites. Malheureusement, un certain nombre de représentations erronées, intuitives et tenaces, structurent encore les débats à haut niveau en la matière, parfois au mépris de réalités pourtant bien documentées. À titre d’exemple, l’on entend souvent qu’un grand nombre de décisions est nécessaire à la fiabilité de ce type d’algorithme et que l’open data est indispensable pour achever un objectif d’exactitude. Des mathématiciens comme Cristian S. Calude et Giuseppe Longo ont pourtant démontré que l’élargissement d’une base de données conduisait inévitablement à l’apparition de “corrélations fallacieuses”, c’est-à-dire de liens entre des données résultant du hasard et non de réels liens de causalité. C’est ainsi que l’on peut tout à fait sérieusement établir un lien statistique entre le nombre de divorces et la consommation de margarine dans l’État du Maine aux États-Unis. Si cette corrélation prête à sourire, gardons en tête que celles des modèles bâtis avec de l’apprentissage automatique (deep learning) ne sont pas faciles à débusquer dans les milliers, voire les millions, de paramètres constituant de véritables “boîtes noires”.
Ces projets de “jurimétrie” se heurtent également à la croyance qu’une large généralisation de l’apprentissage automatique, et de l’apprentissage profond (deep learning), est possible à la suite de succès comme pour la reconnaissance d’images ou des jeux de société. Or s’il est aisé pour une machine de s’en sortir dans un environnement fermé, avec des règles simples et constantes comme le jeu de go, il est en bien autrement dans des environnements ouverts, emplis d’ambiguïtés, d’événements non prévisibles et exigeant de la contextualisation. Tout ce qu’une intelligence artificielle ne sait pas faire aujourd’hui, notamment face à la “texture ouverte” de l’interprétation juridique, où deux raisonnements valides peuvent conduire à des décisions opposées.
Prophéties autoréalisatrices
Il est donc à craindre que ces divers projets de “jurimétrie” ne soient voués, en réalité, qu’à produire l’illusion d’une connaissance dont le seul pouvoir sera de créer des prophéties autoréalisatrices sous un vernis technologique aggravant potentiellement les inégalités entre individus. Ce triste constat provient des États-Unis, où l’association de journalistes ProPublica a révélé comment l’application “Compas”, placée sur le bureau des juges pour décider du placement en détention provisoire ou du quantum d’une peine, attribuait des scores de risque de récidive plus élevés à des individus afro-américains, sans avoir été bien entendu programmée en ce sens. L’étude de ProPublica a démontré que des critères, comme le lieu de résidence, avaient une influence indirecte sur le score produit. Et il ne s’agit naturellement pas d’une problématique spécifique à Compas, mais d’un problème lié à tout traitement statistique nécessitant une attention toute particulière sur le choix des données collectées et le calibrage de leur traitement pour tenter de minimiser les effets de bord. Mais à qui de décider de ce calibrage ? Un opérateur privé ? Un opérateur gouvernemental ? Aux juges eux-mêmes ? Et un calibrage idéal est-il seulement possible, voire souhaitable ?
En définitive, il serait tentant de se rassurer en mettant en place des garanties pour que l’humain garde en toutes circonstances la main. Mais c’est sans compter sur des biais cognitifs, comme les biais d’automatisation ou d’ancrage. Le premier décrit la propension humaine à privilégier les suggestions automatiques des systèmes de prise de décision. C’est comme cela que l’on se retrouve dans une rue ayant changé de sens de circulation en suivant les conseils de son GPS. Le second désigne la difficulté à se départir d’une première information, même parcellaire, notamment quand il s’agit d’apprécier une situation chiffrée. C’est ainsi qu’en période de soldes, nous sommes conduits à l’impression d’avoir une bonne affaire entre les mains si l’écart entre le prix barré et le prix affiché est important. Avec la combinaison de ces deux biais, l’on comprend sans difficulté que ces algorithmes sont susceptibles de détenir une autorité bien spécifique qui leur impose une exigence accrue d’exactitude.
La justice est-elle donc condamnée à écarter définitivement l’apprentissage automatique de ses tribunaux ? Peut-être pas, si l’on s’intéresse à des applications moins spectaculaires, mais aussi moins hasardeuses. Ainsi, l’optimisation des nouveaux moteurs de recherche juridiques, comme le tout nouveau Judilibre de la Cour de cassation, doivent beaucoup à ces nouvelles technologies. Sans chercher à prédire l’issue d’un procès mais à analyser les motivations, l’emploi d’algorithmes de traitement de langage naturel permettrait vraisemblablement d’identifier et de catégoriser des arguments récurrents dans les décisions. Voilà un “rétroviseur” sur les pratiques judiciaires qui mériterait étude.
Plutôt, donc, que de déployer une véritable stratégie de l’échec en cherchant à généraliser à tout prix l’intelligence artificielle pour se rendre compte de l’incapacité technique à le faire, un examen scrupuleux, neutre d’intérêts commerciaux, par des équipes pluridisciplinaires, de différents cas d’usage permettrait de dégager de réelles pistes d’action. Une belle mission dont le tout nouvel Institut des études et de la recherche sur le droit et la justice (IERDJ) pourrait s’emparer.
*Yannick Meneceur est magistrat en disponibilité, auteur de « L’intelligence artificielle en procès », Bruylant, 2020. Il a notamment conduit les travaux du Conseil de l'Europe sur l'encadrement juridique de l'intelligence artificielle.
Articles Liés