FrameworkActivo

Marcos d'evaluacion OLMES

Allen Institute for AI

Marcos d'evaluacion OLMES

Resumen

OLMES (Open Language Model Evaluation Standard) est un marco d'evaluacion standardisé développé par l'Allen Institute for AI. Le marco se concentre sur la reproductibilité et la cohérence dans les evaluacions de modelos de langage.

Caractéristiques clés

Ouvert : Entièrement codigo abierto et documenté
Pratique : Conçu pour une utilisation réelle
Standardisé : Résultats cohérents entre Implementacions
Reproductible : Résultats vérifiables par d'autres

Applications

Standardisation des classements existants
Evaluacion de nouvelles bases de code
Comparaison entre modelos
Publication de résultats de Investigacion

A quien va dirigido este recurso

Equipos de Investigacion IA évaluant des modelos
Gestionnaires de classements standardisant les evaluacions
Desarrolladors de modelos benchmarkant les performances

Etiquetas

evaluacion de modelosmodelos de langageevaluacion reproductiblebenchmarking IAstandardisationclassements

De un vistazo

Publicado

2024

Jurisdicción

Global

Categoría

Assessment and evaluation

Acceso

Acceso público

Más en Assessment and evaluation

Modelo d'evaluacion d'impacto sur les droits fondamentaux du règlement européen sur l'IA

Commission européenne • 2024

Herramienta d'evaluacion d'impacto algorithmique du Canada

Gouvernement du Canada • 2019

LM Evaluation Harness d'EleutherAI

EleutherAI • 2023

Recursos relacionados

Modelo de fiche technique pour jeu de datos (LaTeX)

Transparency and documentation • Overleaf

Divulgations de systèmes IA

Transparency and documentation • National Telecommunications and Information Administration

Jeu de donnees d'images centrees sur l'humain pour le benchmarking ethique de l'IA

Datasets and benchmarks • Nature

Construya su programa de gobernanza de IA

VerifyWise le ayuda a implementar frameworks de gobernanza de IA, hacer seguimiento del cumplimiento y gestionar riesgos en sus sistemas de IA.

Explorar biblioteca Probar gratis

Marcos d'evaluacion OLMES | Biblioteca de Gobernanza de IA | VerifyWise