DeepEval : Le marco d'evaluacion des LLM
Resumen
DeepEval est un marco d'evaluacion codigo abierto qui apporte une rigueur de type tests unitaires à l'evaluacion des grands modelos de langage. Le marco fournit une interface familière de type Pytest pour les desarrolladors.
Caractéristiques clés
- Interface style Pytest : Syntaxe familière pour les desarrolladors Python
- Métriques spécifiques LLM : Métriques d'evaluacion spécialisées
- Intégration CI/CD : S'intègre aux pipelines de desarrollo
- Extensibilité : Métriques et évaluateurs personnalisables
Capacités d'evaluacion
- Pertinence des réponses
- Exactitude factuelle
- Qualité de génération
- Evaluacion de la seguridad
A quien va dirigido este recurso
- Desarrolladors d'applications LLM testant les sorties
- Equipos d'assurance qualité validant les systèmes LLM
- Equipos MLOps automatisant l'evaluacion des LLM
Etiquetas
evaluacion LLMtests de modelosevaluacion IAcodigo abiertotests unitairesmodelos de langage
De un vistazo
Publicado
2024
Jurisdicción
Global
Categoría
Assessment and evaluation
Acceso
Acceso público
Construya su programa de gobernanza de IA
VerifyWise le ayuda a implementar frameworks de gobernanza de IA, hacer seguimiento del cumplimiento y gestionar riesgos en sus sistemas de IA.