Quand on construit un assistant juridique propulse par l’intelligence artificielle, le choix du modele de langage n’est pas un detail technique. C’est la decision fondatrice. Celle qui va conditionner la qualite des reponses, la fiabilite de l’outil, la confiance des utilisateurs. Pendant le developpement de DAIRIA IA, j’ai teste extensivement GPT-4 d’OpenAI et Claude d’Anthropic. J’ai choisi Claude. Ce n’etait pas un choix par defaut ni un effet de mode. C’etait une decision reflechie, basee sur des centaines d’heures de tests dans un contexte juridique reel. Laissez-moi vous expliquer pourquoi.
Le contexte : pourquoi le choix du modele est critique en droit
En droit, une erreur n’est pas une simple imprecision. Un article de loi mal cite, une jurisprudence inventee, une convention collective confondue avec une autre — chacune de ces erreurs peut avoir des consequences reelles sur la vie d’un salarie ou la strategie d’une entreprise. Le seuil de tolerance a l’hallucination est essentiellement zero.
Cela impose des exigences tres specifiques au modele sous-jacent. Il doit etre capable de traiter de longs documents sans perdre le fil. Il doit savoir dire « je ne sais pas » plutot que d’inventer. Il doit produire des reponses structurees, nuancees, et respecter les instructions complexes qu’on lui donne dans les prompts systeme. C’est sur ces criteres-la, et pas sur des benchmarks generiques, que j’ai fait mon choix.
La rigueur dans le suivi des instructions
C’est le premier point qui m’a frappe lors de mes tests comparatifs. Quand je donne a Claude un prompt systeme detaille — avec des regles de citation, un format de reponse impose, des consignes de prudence sur certains sujets — il les suit avec une fidelite remarquable. GPT-4, dans mon experience, avait tendance a prendre plus de libertes. A reformuler les consignes a sa facon. A « oublier » certaines contraintes en milieu de conversation longue.
En droit du travail, cette rigueur n’est pas un luxe. Quand je demande au modele de toujours citer l’article de loi exact, de distinguer entre une obligation legale et une recommandation, de ne jamais affirmer une position juridique sans la sourcer — j’ai besoin que ces regles soient respectees a chaque interaction, pas neuf fois sur dix. Claude m’a offert cette fiabilite.
La fenetre de contexte et le traitement des documents longs
Un dossier prud’homal, c’est souvent des dizaines de pages. Des contrats de travail, des avenants, des echanges de mails, des rapports d’expertise, des conventions collectives qui font parfois plusieurs centaines de pages. Pour qu’un assistant IA soit utile, il doit pouvoir ingerer tout ce contexte et le traiter de maniere coherente.
La fenetre de contexte etendue de Claude a ete un avantage decisif. Pouvoir injecter une convention collective entiere, un jugement de premiere instance complet, et demander une analyse croisee — c’est un cas d’usage que j’utilise quotidiennement. Et ce qui m’a impressionne, c’est la capacite du modele a maintenir la coherence sur ces grands volumes. Il ne « decroche » pas au milieu du document. Il fait des renvois pertinents entre les differentes sections. Pour un outil juridique, c’est fondamental.
En droit, le diable est dans les details — et souvent dans la page 47 d’une convention collective. Un modele qui perd le fil apres la page 10 est inutilisable en production.
L’approche ethique et la prudence naturelle
Anthropic a construit Claude avec une philosophie de prudence que je trouve profondement alignee avec les valeurs de la profession juridique. Le modele a une tendance naturelle a nuancer ses reponses, a signaler les limites de son analyse, a recommander la consultation d’un professionnel quand la situation l’exige. C’est exactement ce dont j’ai besoin pour un outil juridique.
GPT-4 a, dans mon experience, un biais vers l’affirmation. Il repond avec assurance meme quand il devrait etre prudent. En droit, ce biais est dangereux. Je prefere un modele qui me dit « cette question est complexe et merite une analyse approfondie » plutot qu’un modele qui me balance une reponse tranchee basee sur des donnees incompletes.
Il y a aussi la question de la transparence. Anthropic publie ses recherches sur la securite de l’IA, communique ouvertement sur les limites de ses modeles, et adopte une posture que je trouve plus coherente avec les exigences deontologiques de notre profession. Ce n’est pas juste une question technique — c’est une question de valeurs.
Ce que ca donne en pratique
Concretement, voici ce que le choix de Claude change dans l’experience utilisateur de DAIRIA IA. Les reponses sont structurees de maniere methodique : d’abord le cadre legal applicable, puis l’analyse de la situation, puis les risques et recommandations. Le modele cite systematiquement les textes sur lesquels il s’appuie. Il signale les zones d’incertitude. Il distingue clairement entre ce que dit la loi, ce que dit la jurisprudence, et ce que dit la pratique.
Est-ce que GPT-4 pourrait produire des resultats similaires avec suffisamment d’ingenierie de prompts ? Probablement. Mais il m’aurait fallu beaucoup plus de garde-fous, beaucoup plus de post-traitement, beaucoup plus de verification. Avec Claude, le comportement de base est deja aligne avec ce que j’attends d’un outil juridique. C’est du temps gagne, et c’est de la fiabilite gagnee.
Je ne pretends pas que Claude est parfait. Aucun modele ne l’est. Mais pour le cas d’usage specifique de l’assistance juridique en droit social francais, c’est le modele qui, aujourd’hui, offre le meilleur equilibre entre puissance, fiabilite et prudence. Et dans notre metier, la prudence n’est pas une faiblesse — c’est une vertu cardinale.