EleutherAI
OutilActif

LM Evaluation Harness d'EleutherAI

EleutherAI

Voir la ressource originale

LM Evaluation Harness d'EleutherAI

Résumé

Le LM Evaluation Harness d'EleutherAI est devenu l'outil standard pour évaluer les grands modèles de langage dans la communauté de recherche. Ce framework open source permet une évaluation cohérente à travers des centaines de tâches et benchmarks.

Caractéristiques

  • Couverture de tâches étendue : Centaines de tâches d'évaluation intégrées
  • Implémentation standardisée : Résultats cohérents entre les modèles
  • Extensibilité : Ajout facile de nouvelles tâches et métriques
  • Support de reproduction : Permet la réplication des résultats de recherche

Catégories d'évaluation

  • Compréhension du langage
  • Raisonnement et connaissances
  • Génération de code
  • Évaluation de la sécurité
  • Évaluation des biais

À qui s'adresse cette ressource

  • Chercheurs ML évaluant les modèles de langage
  • Équipes de développement de modèles effectuant des benchmarks
  • Équipes de sécurité IA évaluant les propriétés de sécurité des modèles
  • Communauté open source contribuant aux évaluations

Mots-clés

évaluationbenchmarkingLLMopen source

En bref

Publié

2023

Juridiction

Mondial

Catégorie

Assessment and evaluation

Accès

Accès public

Construisez votre programme de gouvernance de l'IA

VerifyWise vous aide à implémenter des cadres de gouvernance de l'IA, à suivre la conformité et à gérer les risques dans vos systèmes d'IA.

LM Evaluation Harness d'EleutherAI | Bibliothèque de la gouvernance de l'IA | VerifyWise