LM Evaluation Harness d'EleutherAI
Résumé
Le LM Evaluation Harness d'EleutherAI est devenu l'outil standard pour évaluer les grands modèles de langage dans la communauté de recherche. Ce framework open source permet une évaluation cohérente à travers des centaines de tâches et benchmarks.
Caractéristiques
- Couverture de tâches étendue : Centaines de tâches d'évaluation intégrées
- Implémentation standardisée : Résultats cohérents entre les modèles
- Extensibilité : Ajout facile de nouvelles tâches et métriques
- Support de reproduction : Permet la réplication des résultats de recherche
Catégories d'évaluation
- Compréhension du langage
- Raisonnement et connaissances
- Génération de code
- Évaluation de la sécurité
- Évaluation des biais
À qui s'adresse cette ressource
- Chercheurs ML évaluant les modèles de langage
- Équipes de développement de modèles effectuant des benchmarks
- Équipes de sécurité IA évaluant les propriétés de sécurité des modèles
- Communauté open source contribuant aux évaluations
Mots-clés
évaluationbenchmarkingLLMopen source
En bref
Publié
2023
Juridiction
Mondial
Catégorie
Assessment and evaluation
Accès
Accès public
Plus dans Assessment and evaluation
Construisez votre programme de gouvernance de l'IA
VerifyWise vous aide à implémenter des cadres de gouvernance de l'IA, à suivre la conformité et à gérer les risques dans vos systèmes d'IA.