Confident AI
HerramientaActivo

DeepEval : Le marco d'evaluacion des LLM

Confident AI

Ver recurso original

DeepEval : Le marco d'evaluacion des LLM

Resumen

DeepEval est un marco d'evaluacion codigo abierto qui apporte une rigueur de type tests unitaires à l'evaluacion des grands modelos de langage. Le marco fournit une interface familière de type Pytest pour les desarrolladors.

Caractéristiques clés

  • Interface style Pytest : Syntaxe familière pour les desarrolladors Python
  • Métriques spécifiques LLM : Métriques d'evaluacion spécialisées
  • Intégration CI/CD : S'intègre aux pipelines de desarrollo
  • Extensibilité : Métriques et évaluateurs personnalisables

Capacités d'evaluacion

  • Pertinence des réponses
  • Exactitude factuelle
  • Qualité de génération
  • Evaluacion de la seguridad

A quien va dirigido este recurso

  • Desarrolladors d'applications LLM testant les sorties
  • Equipos d'assurance qualité validant les systèmes LLM
  • Equipos MLOps automatisant l'evaluacion des LLM

Etiquetas

evaluacion LLMtests de modelosevaluacion IAcodigo abiertotests unitairesmodelos de langage

De un vistazo

Publicado

2024

Jurisdicción

Global

Categoría

Assessment and evaluation

Acceso

Acceso público

Construya su programa de gobernanza de IA

VerifyWise le ayuda a implementar frameworks de gobernanza de IA, hacer seguimiento del cumplimiento y gestionar riesgos en sus sistemas de IA.

DeepEval : Le marco d'evaluacion des LLM | Biblioteca de Gobernanza de IA | VerifyWise