CadreActif

Cadres d'évaluation OLMES

Allen Institute for AI

Cadres d'évaluation OLMES

Résumé

OLMES (Open Language Model Evaluation Standard) est un cadre d'évaluation standardisé développé par l'Allen Institute for AI. Le cadre se concentre sur la reproductibilité et la cohérence dans les évaluations de modèles de langage.

Caractéristiques clés

Ouvert : Entièrement open source et documenté
Pratique : Conçu pour une utilisation réelle
Standardisé : Résultats cohérents entre implémentations
Reproductible : Résultats vérifiables par d'autres

Applications

Standardisation des classements existants
Évaluation de nouvelles bases de code
Comparaison entre modèles
Publication de résultats de recherche

À qui s'adresse cette ressource

Équipes de recherche IA évaluant des modèles
Gestionnaires de classements standardisant les évaluations
Développeurs de modèles benchmarkant les performances

Mots-clés

évaluation de modèlesmodèles de langageévaluation reproductiblebenchmarking IAstandardisationclassements

En bref

Publié

2024

Juridiction

Mondial

Catégorie

Assessment and evaluation

Accès

Accès public

Plus dans Assessment and evaluation

Modèle d'évaluation d'impact sur les droits fondamentaux du règlement européen sur l'IA

Commission européenne • 2024

Outil d'évaluation d'impact algorithmique du Canada

Gouvernement du Canada • 2019

LM Evaluation Harness d'EleutherAI

EleutherAI • 2023

Ressources connexes

Modèle de fiche technique pour jeu de données (LaTeX)

Transparency and documentation • Overleaf

Divulgations de systèmes IA

Transparency and documentation • National Telecommunications and Information Administration

Jeu de donnees d'images centrees sur l'humain pour le benchmarking ethique de l'IA

Datasets and benchmarks • Nature

Construisez votre programme de gouvernance de l'IA

VerifyWise vous aide à implémenter des cadres de gouvernance de l'IA, à suivre la conformité et à gérer les risques dans vos systèmes d'IA.

Explorer la bibliothèque Essayer gratuitement