EleutherAI
HerramientaActivo

LM Evaluation Harness d'EleutherAI

EleutherAI

Ver recurso original

LM Evaluation Harness d'EleutherAI

Resumen

Le LM Evaluation Harness d'EleutherAI est devenu l'herramienta standard pour évaluer les grands modelos de langage dans la communauté de Investigacion. Ce framework codigo abierto permet une evaluacion cohérente à travers des centaines de tâches et Benchmarks.

Caractéristiques

  • Couverture de tâches étendue : Centaines de tâches d'evaluacion intégrées
  • Implementacion standardisée : Résultats cohérents entre les modelos
  • Extensibilité : Ajout facile de nouvelles tâches et métriques
  • Support de reproduction : Permet la réplication des résultats de Investigacion

Catégories d'evaluacion

  • Compréhension du langage
  • Raisonnement et connaissances
  • Génération de code
  • Evaluacion de la seguridad
  • Evaluacion des sesgo

A quien va dirigido este recurso

  • Investigadors ML évaluant les modelos de langage
  • Equipos de desarrollo de modelos effectuant des Benchmarks
  • Equipos de seguridad IA évaluant les propriétés de seguridad des modelos
  • Communauté codigo abierto contribuant aux evaluacions

Etiquetas

evaluacionbenchmarkingLLMcodigo abierto

De un vistazo

Publicado

2023

Jurisdicción

Global

Categoría

Assessment and evaluation

Acceso

Acceso público

Construya su programa de gobernanza de IA

VerifyWise le ayuda a implementar frameworks de gobernanza de IA, hacer seguimiento del cumplimiento y gestionar riesgos en sus sistemas de IA.

LM Evaluation Harness d'EleutherAI | Biblioteca de Gobernanza de IA | VerifyWise