Allen Institute for AI
FrameworkActivo

Marcos d'evaluacion OLMES

Allen Institute for AI

Ver recurso original

Marcos d'evaluacion OLMES

Resumen

OLMES (Open Language Model Evaluation Standard) est un marco d'evaluacion standardisé développé par l'Allen Institute for AI. Le marco se concentre sur la reproductibilité et la cohérence dans les evaluacions de modelos de langage.

Caractéristiques clés

  • Ouvert : Entièrement codigo abierto et documenté
  • Pratique : Conçu pour une utilisation réelle
  • Standardisé : Résultats cohérents entre Implementacions
  • Reproductible : Résultats vérifiables par d'autres

Applications

  • Standardisation des classements existants
  • Evaluacion de nouvelles bases de code
  • Comparaison entre modelos
  • Publication de résultats de Investigacion

A quien va dirigido este recurso

  • Equipos de Investigacion IA évaluant des modelos
  • Gestionnaires de classements standardisant les evaluacions
  • Desarrolladors de modelos benchmarkant les performances

Etiquetas

evaluacion de modelosmodelos de langageevaluacion reproductiblebenchmarking IAstandardisationclassements

De un vistazo

Publicado

2024

Jurisdicción

Global

Categoría

Assessment and evaluation

Acceso

Acceso público

Construya su programa de gobernanza de IA

VerifyWise le ayuda a implementar frameworks de gobernanza de IA, hacer seguimiento del cumplimiento y gestionar riesgos en sus sistemas de IA.

Marcos d'evaluacion OLMES | Biblioteca de Gobernanza de IA | VerifyWise