LM Evaluation Harness d'EleutherAI

Resumen

Le LM Evaluation Harness d'EleutherAI est devenu l'herramienta standard pour évaluer les grands modelos de langage dans la communauté de Investigacion. Ce framework codigo abierto permet une evaluacion cohérente à travers des centaines de tâches et Benchmarks.

Caractéristiques

Couverture de tâches étendue : Centaines de tâches d'evaluacion intégrées
Implementacion standardisée : Résultats cohérents entre les modelos
Extensibilité : Ajout facile de nouvelles tâches et métriques
Support de reproduction : Permet la réplication des résultats de Investigacion

Catégories d'evaluacion

Compréhension du langage
Raisonnement et connaissances
Génération de code
Evaluacion de la seguridad
Evaluacion des sesgo

A quien va dirigido este recurso

Investigadors ML évaluant les modelos de langage
Equipos de desarrollo de modelos effectuant des Benchmarks
Equipos de seguridad IA évaluant les propriétés de seguridad des modelos
Communauté codigo abierto contribuant aux evaluacions

Etiquetas

evaluacionbenchmarkingLLMcodigo abierto

De un vistazo

Publicado

2023

Jurisdicción

Global

Categoría

Assessment and evaluation

Acceso

Acceso público

Más en Assessment and evaluation

Modelo d'evaluacion d'impacto sur les droits fondamentaux du règlement européen sur l'IA

Commission européenne • 2024

Herramienta d'evaluacion d'impacto algorithmique du Canada

Gouvernement du Canada • 2019

ISO/IEC 25000 - Exigences et evaluacion de la qualité logicielle

ISO/IEC • 2014

Recursos relacionados

OWASP Top 10 pour les applications LLM

Risk taxonomies • OWASP

Cartes de modelo

Transparency and documentation • Google

Herramientas et pratiques d'IA responsable

Tooling and implementation • Microsoft

LM Evaluation Harness d'EleutherAI

LM Evaluation Harness d'EleutherAI

Resumen

Caractéristiques

Catégories d'evaluacion

A quien va dirigido este recurso

Etiquetas

De un vistazo

Más en Assessment and evaluation

Recursos relacionados

Construya su programa de gobernanza de IA