LM Evaluation Harness d'EleutherAI
Resumen
Le LM Evaluation Harness d'EleutherAI est devenu l'herramienta standard pour évaluer les grands modelos de langage dans la communauté de Investigacion. Ce framework codigo abierto permet une evaluacion cohérente à travers des centaines de tâches et Benchmarks.
Caractéristiques
- Couverture de tâches étendue : Centaines de tâches d'evaluacion intégrées
- Implementacion standardisée : Résultats cohérents entre les modelos
- Extensibilité : Ajout facile de nouvelles tâches et métriques
- Support de reproduction : Permet la réplication des résultats de Investigacion
Catégories d'evaluacion
- Compréhension du langage
- Raisonnement et connaissances
- Génération de code
- Evaluacion de la seguridad
- Evaluacion des sesgo
A quien va dirigido este recurso
- Investigadors ML évaluant les modelos de langage
- Equipos de desarrollo de modelos effectuant des Benchmarks
- Equipos de seguridad IA évaluant les propriétés de seguridad des modelos
- Communauté codigo abierto contribuant aux evaluacions
Etiquetas
evaluacionbenchmarkingLLMcodigo abierto
De un vistazo
Publicado
2023
Jurisdicción
Global
Categoría
Assessment and evaluation
Acceso
Acceso público
Más en Assessment and evaluation
Construya su programa de gobernanza de IA
VerifyWise le ayuda a implementar frameworks de gobernanza de IA, hacer seguimiento del cumplimiento y gestionar riesgos en sus sistemas de IA.