Cadres d'évaluation OLMES
Résumé
OLMES (Open Language Model Evaluation Standard) est un cadre d'évaluation standardisé développé par l'Allen Institute for AI. Le cadre se concentre sur la reproductibilité et la cohérence dans les évaluations de modèles de langage.
Caractéristiques clés
- Ouvert : Entièrement open source et documenté
- Pratique : Conçu pour une utilisation réelle
- Standardisé : Résultats cohérents entre implémentations
- Reproductible : Résultats vérifiables par d'autres
Applications
- Standardisation des classements existants
- Évaluation de nouvelles bases de code
- Comparaison entre modèles
- Publication de résultats de recherche
À qui s'adresse cette ressource
- Équipes de recherche IA évaluant des modèles
- Gestionnaires de classements standardisant les évaluations
- Développeurs de modèles benchmarkant les performances
Mots-clés
En bref
Publié
2024
Juridiction
Mondial
Catégorie
Assessment and evaluation
Accès
Accès public
Ressources connexes
Modèle de fiche technique pour jeu de données (LaTeX)
Transparency and documentation • Overleaf
Divulgations de systèmes IA
Transparency and documentation • National Telecommunications and Information Administration
Jeu de donnees d'images centrees sur l'humain pour le benchmarking ethique de l'IA
Datasets and benchmarks • Nature
Construisez votre programme de gouvernance de l'IA
VerifyWise vous aide à implémenter des cadres de gouvernance de l'IA, à suivre la conformité et à gérer les risques dans vos systèmes d'IA.