HerramientaActivo

DeepEval : Le marco d'evaluacion des LLM

Confident AI

DeepEval : Le marco d'evaluacion des LLM

Resumen

DeepEval est un marco d'evaluacion codigo abierto qui apporte une rigueur de type tests unitaires à l'evaluacion des grands modelos de langage. Le marco fournit une interface familière de type Pytest pour les desarrolladors.

Caractéristiques clés

Interface style Pytest : Syntaxe familière pour les desarrolladors Python
Métriques spécifiques LLM : Métriques d'evaluacion spécialisées
Intégration CI/CD : S'intègre aux pipelines de desarrollo
Extensibilité : Métriques et évaluateurs personnalisables

Capacités d'evaluacion

Pertinence des réponses
Exactitude factuelle
Qualité de génération
Evaluacion de la seguridad

A quien va dirigido este recurso

Desarrolladors d'applications LLM testant les sorties
Equipos d'assurance qualité validant les systèmes LLM
Equipos MLOps automatisant l'evaluacion des LLM

Etiquetas

evaluacion LLMtests de modelosevaluacion IAcodigo abiertotests unitairesmodelos de langage

De un vistazo

Publicado

2024

Jurisdicción

Global

Categoría

Assessment and evaluation

Acceso

Acceso público

Más en Assessment and evaluation

Modelo d'evaluacion d'impacto sur les droits fondamentaux du règlement européen sur l'IA

Commission européenne • 2024

Herramienta d'evaluacion d'impacto algorithmique du Canada

Gouvernement du Canada • 2019

LM Evaluation Harness d'EleutherAI

EleutherAI • 2023

Recursos relacionados

Herramientas et pratiques d'IA responsable

Tooling and implementation • Microsoft

VerifyWise - Plataforma codigo abierto de gobernanza IA

Open source governance projects • VerifyWise

AI Fairness 360

Open source governance projects • IBM Research

Construya su programa de gobernanza de IA

VerifyWise le ayuda a implementar frameworks de gobernanza de IA, hacer seguimiento del cumplimiento y gestionar riesgos en sus sistemas de IA.

Explorar biblioteca Probar gratis