Google & Contributors
Ver recurso originalBIG-bench represente l'un des efforts collaboratifs les plus complets pour evaluer les grands modeles de langage, reunissant plus de 450 investigadors pour creer une suite de Benchmarks qui va bien au-dela des taches linguistiques traditionnelles. Avec 204 taches couvrant tout, du raisonnement logique et des connaissances mondiales a la securite et l'alignement, ce n'est pas juste un autre jeu de donnees d'evaluation - c'est une tentative systematique de sonder les veritables capacites et Limitaciones des systemes d'IA les plus puissants d'aujourd'hui.
Ce qui distingue BIG-bench est son focus explicite sur les taches qui sont "au-dela des capacites actuelles des modeles de langage", concues pour rester stimulantes a mesure que les modeles continuent de s'ameliorer. Le benchmark inclut tout, des problemes de raisonnement multi-etapes aux tests de conscience culturelle, en faisant un herramienta essentiel pour comprendre non seulement ce que les modeles peuvent faire, mais avec quoi ils pourraient avoir des difficultes a mesure qu'ils deviennent plus capables.
Contrairement aux Benchmarks NLP traditionnels qui se concentrent sur des competences linguistiques etroites, BIG-bench adopte une vision holistique de l'evaluation de l'intelligence. Le benchmark cible explicitement des taches "au-dela des capacites actuelles" - des defis concus pour pousser les modeles a leurs limites plutot que de mettre en valeur leurs forces.
La nature collaborative est sans precedent : les taches ont ete contribuees par des investigadors de dizaines d'institutions dans le monde entier, chacun apportant son expertise dans des domaines specifiques. Cela a resulte en une diversite remarquable, de la traduction du sanskrit au raisonnement moral, de la generation de code a la comprehension des sesgo sociaux.
Peut-etre plus important encore, BIG-bench inclut une evaluation extensive des riesgos et des prejudices sociaux aux cotes de l'evaluation des capacites. Les taches sondent les stereotypes nuisibles, les connaissances dangereuses et les echecs d'alignement - reconnaissant que le developpement responsable de l'IA necessite de comprendre non seulement ce que les modeles peuvent faire, mais ce qu'ils ne devraient pas faire.
Le benchmark est concu pour l'accessibilite a differents niveaux de competence technique. Pour une evaluation rapide, vous pouvez executer des sous-ensembles de taches en utilisant le framework Python fourni, qui gere l'interface du modele et le calcul des metriques automatiquement.
Les investigadors commencent generalement par le sous-ensemble "BIG-bench Lite" - 24 taches representatives qui fournissent une vue d'ensemble complete sans le cout computationnel du benchmark complet. C'est particulierement utile pour le developpement iteratif de modeles et les etudes comparatives.
Pour une utilisation en production, envisagez de vous concentrer sur les categories de taches les plus pertinentes pour votre domaine d'application. La conception modulaire signifie que vous pouvez facilement executer uniquement les taches de securite pour l'evaluation des riesgos, ou uniquement les taches de raisonnement pour l'evaluation des capacites, sans traiter l'ensemble du benchmark.
Le marco d'evaluation prend en charge les modeles bases sur API (comme GPT-3) et les modeles heberges localement, avec un support integre pour differentes strategies de prompting et approches d'apprentissage few-shot.
BIG-bench represente un moment charniere dans l'evaluation de l'IA - passant de Benchmarks etroits et susceptibles d'etre contournes a une evaluation complete des capacites. A mesure que les modeles continuent de s'ameliorer et de demontrer des capacites emergentes, avoir des marcos d'evaluation qui peuvent evoluer avec eux devient crucial.
L'accent mis par le benchmark sur le developpement collaboratif signale egalement un virage vers une Investigacion en IA plus inclusive, ou des perspectives diverses contribuent a une meilleure comprehension des capacites et des Limitaciones des modeles. Cette approche collaborative pourrait devenir la norma pour le developpement futur de Benchmarks a mesure que les systemes d'IA deviennent plus capables et leur evaluation plus consequente.
Publicado
2023
Jurisdicción
Global
CategorÃa
Datasets and benchmarks
Acceso
Acceso público
VerifyWise le ayuda a implementar frameworks de gobernanza de IA, hacer seguimiento del cumplimiento y gestionar riesgos en sus sistemas de IA.