Retour au lexique IA
Normes techniques et audit

Évaluation des LLM

Évaluation des LLM

L'évaluation des LLM est la pratique qui consiste à tester systématiquement ce qu'un grand modèle de langage produit, afin de déterminer s'il est exact, sûr et adapté à la tâche, avant comme après son déploiement. Comme ces modèles génèrent du texte ouvert plutôt qu'une seule étiquette correcte, on ne peut pas les juger avec un unique score d'exactitude. L'évaluation doit couvrir plusieurs dimensions, souvent avec un mélange de notation automatisée et de relecture humaine.

Si le sujet retient autant l'attention, c'est que le comportement d'un LLM est difficile à prévoir. Le même modèle peut être utile sur un prompt et se tromper avec aplomb sur un prompt légèrement différent. Sans évaluation structurée, les équipes livrent au feeling et découvrent les défaillances en production, ce que les cadres de gouvernance cherchent précisément à éviter.

Ce que l'on mesure

Une évaluation utile des LLM examine plusieurs propriétés, car un modèle peut bien réussir sur l'une et échouer sur une autre.

L'exactitude. La réponse correspond-elle au résultat attendu ou aux faits connus ? Pour les tâches ayant une bonne réponse, c'est la métrique centrale.

La fidélité. Dans les systèmes qui fournissent un contexte, comme la génération augmentée par récupération, la réponse reste-t-elle ancrée dans la source fournie plutôt que d'ajouter des affirmations non étayées ? Une réponse infidèle est une hallucination, même quand elle paraît plausible.

Le taux d'hallucination. À quelle fréquence le modèle affirme-t-il des choses fausses ou non étayées ? C'est l'une des propriétés de sûreté les plus importantes pour tout usage factuel.

Le biais. Le modèle traite-t-il certains groupes différemment de façon injustifiée, par exemple en produisant des réponses systématiquement différentes selon les prénoms, le genre ou d'autres attributs protégés ?

La toxicité. Le modèle produit-il un contenu nuisible, harcelant ou autrement inacceptable, y compris lorsqu'on le sollicite de façon contradictoire ?

La pertinence et l'utilité. La réponse aborde-t-elle réellement la question, au bon niveau de détail, dans le format attendu ?

Les équipes retiennent les dimensions qui comptent pour leur cas d'usage et définissent des métriques pour chacune, au lieu de courir après un score unique.

Comment l'évaluation est menée

Il existe trois approches courantes, généralement combinées.

La notation par référence. Vous comparez la sortie du modèle à une réponse correcte connue à l'aide de la correspondance exacte, de métriques de chevauchement ou de similarité. Cela fonctionne lorsqu'il existe une cible claire, mais peine pour les réponses ouvertes où de nombreuses formulations sont valables.

La relecture humaine. Des personnes notent les sorties selon une grille. C'est l'approche la plus fiable pour des qualités nuancées comme l'utilité et le ton, mais elle est lente et coûteuse, donc on l'applique généralement à des échantillons.

Le LLM comme juge. Un modèle de langage distinct note les sorties selon des critères que vous définissez, par exemple en évaluant la fidélité ou en détectant la toxicité. Cela passe bien mieux à l'échelle que la relecture humaine et corrèle raisonnablement bien lorsque la grille est claire. Cette approche a des limites : les modèles juges peuvent être biaisés, incohérents et détournés, donc les équipes les calibrent par rapport aux notes humaines et ne traitent pas leurs scores comme une vérité absolue.

La plupart des dispositifs aboutis utilisent des métriques par référence là où les réponses sont déterministes, un LLM juge pour l'échelle, et une relecture humaine sur échantillons pour tenir le juge en bride.

Constituer un jeu d'évaluation

Une bonne évaluation dépend de bonnes données de test. Les équipes rassemblent un jeu de données d'entrées représentatives, incluant des cas ordinaires, des cas limites et des prompts contradictoires destinés à provoquer des défaillances. Pour de nombreuses dimensions, elles consignent aussi une réponse attendue ou une grille.

Le jeu doit refléter l'usage réel et les modes de défaillance qui feraient réellement mal : les questions que posent les utilisateurs, les entrées qui ont déjà causé des problèmes, et les catégories où une mauvaise réponse a des conséquences. Un jeu statique exécuté à chaque changement de modèle transforme l'évaluation en test de non-régression, vous permettant de voir si une mise à jour a amélioré ou dégradé les choses.

Pourquoi la gouvernance et les régulateurs réclament des preuves d'évaluation

L'évaluation n'est pas seulement un raffinement d'ingénierie, c'est de plus en plus la preuve qu'un système a été testé.

Au titre du règlement européen sur l'IA (EU AI Act), les systèmes à haut risque doivent être testés pour l'exactitude, la robustesse et la résilience, et ces tests doivent être documentés. Les résultats d'évaluation font naturellement partie de la documentation technique qui montre que le système fonctionne comme annoncé et qu'il a été vérifié pour les risques pertinents.

La norme ISO 42001, la norme de système de management de l'IA, attend des organisations qu'elles définissent des critères de performance, qu'elles testent par rapport à eux et qu'elles conservent des relevés dans le cadre de l'amélioration continue. L'évaluation est la façon de produire ces relevés.

Le cadre de gestion des risques de l'IA du NIST (NIST AI RMF) appelle de même à mesurer les risques de l'IA, ce qui suppose des métriques définies et des résultats de tests plutôt que des assurances.

Pour les équipes de gouvernance, le message est constant : définissez ce qu'est une bonne performance, testez-la, consignez les résultats, et retestez lorsque le modèle ou son usage change. Un auditeur veut voir le jeu d'évaluation, les métriques, les scores et la preuve que les défaillances ont été traitées.

FAQ

Pourquoi ne puis-je pas me contenter de l'exactitude pour évaluer un LLM ?

Parce que la plupart des sorties d'un LLM sont du texte ouvert, et non une seule étiquette correcte, de sorte qu'un unique score d'exactitude passe à côté de l'essentiel. Un modèle peut être exact sur les faits tout en étant biaisé, toxique sous pression ou infidèle à ses sources. Une évaluation utile mesure plusieurs dimensions et adapte chacune à la façon dont le modèle est réellement utilisé.

Qu'est-ce que le LLM comme juge ?

C'est l'usage d'un modèle de langage distinct pour noter les sorties selon des critères que vous définissez, comme la fidélité ou la toxicité. Cela passe bien mieux à l'échelle que la relecture humaine et fonctionne raisonnablement bien lorsque la grille est claire. Le hic est que les modèles juges peuvent être biaisés, incohérents ou détournés, donc vous les calibrez par rapport aux notes humaines au lieu de faire aveuglément confiance à leurs scores.

Quelle est la différence entre exactitude et fidélité ?

L'exactitude demande si la réponse est factuellement juste par rapport à une vérité connue. La fidélité demande si la réponse reste ancrée dans le contexte précis que le système a fourni, par exemple des documents récupérés, sans ajouter d'affirmations non étayées. Une réponse peut être fidèle à une source erronée, ou exacte dans l'absolu tout en s'écartant de la source, donc les deux méritent d'être mesurées dans les systèmes de récupération.

À quelle fréquence dois-je évaluer un modèle ?

Avant le déploiement, et de nouveau chaque fois que le modèle, ses prompts ou ses sources de données changent. Exécuter un jeu d'évaluation fixe à chaque changement le transforme en test de non-régression, vous permettant de voir si une mise à jour a amélioré ou dégradé le comportement. Les usages à haut risque justifient une évaluation continue en production, et pas seulement une vérification ponctuelle.

Comment évaluer le biais et la toxicité ?

Utilisez des jeux de test ciblés : des entrées variées selon les attributs protégés pour faire ressortir les différences injustifiées (biais), et des prompts contradictoires conçus pour provoquer une sortie nuisible (toxicité). Notez avec des classifieurs ou un LLM juge, et confirmez par une relecture humaine sur échantillons. L'idée est de sonder délibérément ces défaillances plutôt que d'espérer qu'elles ne surviennent pas.

Quelles preuves les régulateurs attendent-ils de l'évaluation ?

Ils veulent voir que vous avez défini ce qu'est une bonne performance, que vous l'avez testée et que vous en avez documenté les résultats. Pour le règlement européen sur l'IA, cela signifie des tests d'exactitude et de robustesse dans la documentation technique. Pour la norme ISO 42001, cela signifie des critères de performance et des résultats de tests consignés. Les artefacts sont votre jeu d'évaluation, vos métriques, vos scores et la preuve que les défaillances ont été traitées.

Résumé

L'évaluation des LLM est le test systématique des sorties d'un modèle selon des dimensions comme l'exactitude, la fidélité, l'hallucination, le biais, la toxicité et la pertinence, car aucun score d'exactitude unique ne saisit le comportement d'un modèle à sorties ouvertes. Les équipes combinent la notation par référence, la relecture humaine et le LLM comme juge, en exécutant un jeu d'évaluation représentatif comme test de non-régression chaque fois que le modèle ou son usage change. Au-delà de sa valeur d'ingénierie, l'évaluation produit la preuve que la gouvernance exige : le règlement européen sur l'IA, la norme ISO 42001 et le cadre NIST AI RMF attendent tous des métriques définies, des résultats de tests documentés et la preuve que les défaillances identifiées ont été traitées.

Mettre en œuvre avec VerifyWise

Fonctionnalités de la plateforme pour appliquer ce concept

Mettre en œuvre Évaluation des LLM dans votre organisation

Commencez avec la plateforme source-available de gouvernance de l'IA de VerifyWise

Évaluation des LLM | Lexique Gouvernance IA | VerifyWise