Google & Contributors
Voir la ressource originaleBIG-bench represente l'un des efforts collaboratifs les plus complets pour evaluer les grands modeles de langage, reunissant plus de 450 chercheurs pour creer une suite de benchmarks qui va bien au-dela des taches linguistiques traditionnelles. Avec 204 taches couvrant tout, du raisonnement logique et des connaissances mondiales a la securite et l'alignement, ce n'est pas juste un autre jeu de donnees d'evaluation - c'est une tentative systematique de sonder les veritables capacites et limitations des systemes d'IA les plus puissants d'aujourd'hui.
Ce qui distingue BIG-bench est son focus explicite sur les taches qui sont "au-dela des capacites actuelles des modeles de langage", concues pour rester stimulantes a mesure que les modeles continuent de s'ameliorer. Le benchmark inclut tout, des problemes de raisonnement multi-etapes aux tests de conscience culturelle, en faisant un outil essentiel pour comprendre non seulement ce que les modeles peuvent faire, mais avec quoi ils pourraient avoir des difficultes a mesure qu'ils deviennent plus capables.
Contrairement aux benchmarks NLP traditionnels qui se concentrent sur des competences linguistiques etroites, BIG-bench adopte une vision holistique de l'evaluation de l'intelligence. Le benchmark cible explicitement des taches "au-dela des capacites actuelles" - des defis concus pour pousser les modeles a leurs limites plutot que de mettre en valeur leurs forces.
La nature collaborative est sans precedent : les taches ont ete contribuees par des chercheurs de dizaines d'institutions dans le monde entier, chacun apportant son expertise dans des domaines specifiques. Cela a resulte en une diversite remarquable, de la traduction du sanskrit au raisonnement moral, de la generation de code a la comprehension des biais sociaux.
Peut-etre plus important encore, BIG-bench inclut une evaluation extensive des risques et des prejudices sociaux aux cotes de l'evaluation des capacites. Les taches sondent les stereotypes nuisibles, les connaissances dangereuses et les echecs d'alignement - reconnaissant que le developpement responsable de l'IA necessite de comprendre non seulement ce que les modeles peuvent faire, mais ce qu'ils ne devraient pas faire.
Le benchmark est concu pour l'accessibilite a differents niveaux de competence technique. Pour une evaluation rapide, vous pouvez executer des sous-ensembles de taches en utilisant le framework Python fourni, qui gere l'interface du modele et le calcul des metriques automatiquement.
Les chercheurs commencent generalement par le sous-ensemble "BIG-bench Lite" - 24 taches representatives qui fournissent une vue d'ensemble complete sans le cout computationnel du benchmark complet. C'est particulierement utile pour le developpement iteratif de modeles et les etudes comparatives.
Pour une utilisation en production, envisagez de vous concentrer sur les categories de taches les plus pertinentes pour votre domaine d'application. La conception modulaire signifie que vous pouvez facilement executer uniquement les taches de securite pour l'evaluation des risques, ou uniquement les taches de raisonnement pour l'evaluation des capacites, sans traiter l'ensemble du benchmark.
Le cadre d'evaluation prend en charge les modeles bases sur API (comme GPT-3) et les modeles heberges localement, avec un support integre pour differentes strategies de prompting et approches d'apprentissage few-shot.
BIG-bench represente un moment charniere dans l'evaluation de l'IA - passant de benchmarks etroits et susceptibles d'etre contournes a une evaluation complete des capacites. A mesure que les modeles continuent de s'ameliorer et de demontrer des capacites emergentes, avoir des cadres d'evaluation qui peuvent evoluer avec eux devient crucial.
L'accent mis par le benchmark sur le developpement collaboratif signale egalement un virage vers une recherche en IA plus inclusive, ou des perspectives diverses contribuent a une meilleure comprehension des capacites et des limitations des modeles. Cette approche collaborative pourrait devenir la norme pour le developpement futur de benchmarks a mesure que les systemes d'IA deviennent plus capables et leur evaluation plus consequente.
Publié
2023
Juridiction
Mondial
Catégorie
Datasets and benchmarks
Accès
Accès public
VerifyWise vous aide à implémenter des cadres de gouvernance de l'IA, à suivre la conformité et à gérer les risques dans vos systèmes d'IA.