Marcos d'evaluacion OLMES
Resumen
OLMES (Open Language Model Evaluation Standard) est un marco d'evaluacion standardisé développé par l'Allen Institute for AI. Le marco se concentre sur la reproductibilité et la cohérence dans les evaluacions de modelos de langage.
Caractéristiques clés
- Ouvert : Entièrement codigo abierto et documenté
- Pratique : Conçu pour une utilisation réelle
- Standardisé : Résultats cohérents entre Implementacions
- Reproductible : Résultats vérifiables par d'autres
Applications
- Standardisation des classements existants
- Evaluacion de nouvelles bases de code
- Comparaison entre modelos
- Publication de résultats de Investigacion
A quien va dirigido este recurso
- Equipos de Investigacion IA évaluant des modelos
- Gestionnaires de classements standardisant les evaluacions
- Desarrolladors de modelos benchmarkant les performances
Etiquetas
De un vistazo
Publicado
2024
Jurisdicción
Global
Categoría
Assessment and evaluation
Acceso
Acceso público
Recursos relacionados
Modelo de fiche technique pour jeu de datos (LaTeX)
Transparency and documentation • Overleaf
Divulgations de systèmes IA
Transparency and documentation • National Telecommunications and Information Administration
Jeu de donnees d'images centrees sur l'humain pour le benchmarking ethique de l'IA
Datasets and benchmarks • Nature
Construya su programa de gobernanza de IA
VerifyWise le ayuda a implementar frameworks de gobernanza de IA, hacer seguimiento del cumplimiento y gestionar riesgos en sus sistemas de IA.