LM Evaluation Harness d'EleutherAI

Résumé

Le LM Evaluation Harness d'EleutherAI est devenu l'outil standard pour évaluer les grands modèles de langage dans la communauté de recherche. Ce framework open source permet une évaluation cohérente à travers des centaines de tâches et benchmarks.

Caractéristiques

Couverture de tâches étendue : Centaines de tâches d'évaluation intégrées
Implémentation standardisée : Résultats cohérents entre les modèles
Extensibilité : Ajout facile de nouvelles tâches et métriques
Support de reproduction : Permet la réplication des résultats de recherche

Catégories d'évaluation

Compréhension du langage
Raisonnement et connaissances
Génération de code
Évaluation de la sécurité
Évaluation des biais

À qui s'adresse cette ressource

Chercheurs ML évaluant les modèles de langage
Équipes de développement de modèles effectuant des benchmarks
Équipes de sécurité IA évaluant les propriétés de sécurité des modèles
Communauté open source contribuant aux évaluations

Mots-clés

évaluationbenchmarkingLLMopen source

En bref

Publié

2023

Juridiction

Mondial

Catégorie

Assessment and evaluation

Accès

Accès public

Plus dans Assessment and evaluation

Modèle d'évaluation d'impact sur les droits fondamentaux du règlement européen sur l'IA

Commission européenne • 2024

Outil d'évaluation d'impact algorithmique du Canada

Gouvernement du Canada • 2019

ISO/IEC 25000 - Exigences et évaluation de la qualité logicielle

ISO/IEC • 2014

Ressources connexes

OWASP Top 10 pour les applications LLM

Risk taxonomies • OWASP

Cartes de modèle

Transparency and documentation • Google

Outils et pratiques d'IA responsable

Tooling and implementation • Microsoft

LM Evaluation Harness d'EleutherAI

LM Evaluation Harness d'EleutherAI

Résumé

Caractéristiques

Catégories d'évaluation

À qui s'adresse cette ressource

Mots-clés

En bref

Plus dans Assessment and evaluation

Ressources connexes

Construisez votre programme de gouvernance de l'IA