OutilActif

DeepEval : Le cadre d'évaluation des LLM

Confident AI

DeepEval : Le cadre d'évaluation des LLM

Résumé

DeepEval est un cadre d'évaluation open source qui apporte une rigueur de type tests unitaires à l'évaluation des grands modèles de langage. Le cadre fournit une interface familière de type Pytest pour les développeurs.

Caractéristiques clés

Interface style Pytest : Syntaxe familière pour les développeurs Python
Métriques spécifiques LLM : Métriques d'évaluation spécialisées
Intégration CI/CD : S'intègre aux pipelines de développement
Extensibilité : Métriques et évaluateurs personnalisables

Capacités d'évaluation

Pertinence des réponses
Exactitude factuelle
Qualité de génération
Évaluation de la sécurité

À qui s'adresse cette ressource

Développeurs d'applications LLM testant les sorties
Équipes d'assurance qualité validant les systèmes LLM
Équipes MLOps automatisant l'évaluation des LLM

Mots-clés

évaluation LLMtests de modèlesévaluation IAopen sourcetests unitairesmodèles de langage

En bref

Publié

2024

Juridiction

Mondial

Catégorie

Assessment and evaluation

Accès

Accès public

Plus dans Assessment and evaluation

Modèle d'évaluation d'impact sur les droits fondamentaux du règlement européen sur l'IA

Commission européenne • 2024

Outil d'évaluation d'impact algorithmique du Canada

Gouvernement du Canada • 2019

LM Evaluation Harness d'EleutherAI

EleutherAI • 2023

Ressources connexes

Outils et pratiques d'IA responsable

Tooling and implementation • Microsoft

VerifyWise - Plateforme open source de gouvernance IA

Open source governance projects • VerifyWise

AI Fairness 360

Open source governance projects • IBM Research

Construisez votre programme de gouvernance de l'IA

VerifyWise vous aide à implémenter des cadres de gouvernance de l'IA, à suivre la conformité et à gérer les risques dans vos systèmes d'IA.

Explorer la bibliothèque Essayer gratuitement

DeepEval : Le cadre d'évaluation des LLM | Bibliothèque de la gouvernance de l'IA | VerifyWise