Governance focused datasets, not model training datasets.
16 ressources
Un jeu de donnees d'images faciales equilibre concu pour evaluer l'equite dans les systemes d'analyse faciale. Contient une representation equilibree entre les groupes ethniques, de genre et d'age pour permettre l'evaluation des biais.
Un benchmark collaboratif pour evaluer les grands modeles de langage sur des taches diverses. Inclut des taches concues pour sonder les proprietes de raisonnement, de connaissance, de securite et d'alignement.
Le cadre complet de Stanford pour evaluer les modeles de langage sur plusieurs dimensions incluant la precision, la calibration, la robustesse, l'equite, les biais, la toxicite et l'efficacite.
Jeu de donnees structure d'incidents et de prejudices lies a l'IA pour la recherche et l'analyse. Permet une etude systematique des defaillances de l'IA, des modeles de prejudices et des facteurs de risque a travers differentes applications d'IA.
Un jeu de donnees complet d'evaluation de l'equite contenant 10 318 images obtenues avec consentement de 1 981 sujets uniques avec des annotations extensives. Ce jeu de donnees sert de reference mondiale pour la collecte ethique de donnees et le developpement responsable de l'IA, specifiquement concu pour evaluer les biais et l'equite dans les systemes d'IA.
FHIBE est le premier jeu de donnees d'evaluation de l'equite publiquement disponible, collecte avec consentement et globalement diversifie, concu pour les taches de vision par ordinateur centrees sur l'humain. Le jeu de donnees sert de reference mondiale pour la collecte ethique de donnees et le developpement responsable de l'IA, permettant aux chercheurs et developpeurs d'evaluer l'equite a travers des populations diverses.
Le Fair Human-Centric Image Benchmark (FHIBE) est un jeu de donnees d'images concu pour evaluer les systemes d'IA en termes d'equite et de biais dans les applications de vision par ordinateur. Il implemente les meilleures pratiques pour la curation responsable des donnees et fournit des references standardisees pour tester l'equite algorithmique a travers des populations humaines diverses.
Cette ressource explore les methodes de detection des biais dans les systemes de vision par ordinateur, incluant les descripteurs de caracteristiques CNN et les classificateurs SVM pour identifier les biais dans les jeux de donnees visuels. Elle examine comment les techniques d'IA explicable peuvent ameliorer la transparence et la fiabilite des modeles d'apprentissage profond utilises dans les applications de vision par ordinateur.
Un modele de classification de sequences en anglais specifiquement entraine sur le jeu de donnees MBAD pour detecter automatiquement les biais et evaluer l'equite dans le contenu textuel, en particulier les articles de presse. Cet outil permet une analyse automatisee des biais potentiels dans le contenu ecrit par classification basee sur l'apprentissage automatique.
Une implementation technique de l'algorithme HBAC qui detecte les biais dans les systemes de prise de decision algorithmique sans necessiter de donnees etiquetees. L'outil maximise les differences dans les variables de biais entre les clusters et inclut des tests statistiques pour prevenir les fausses conclusions sur les modeles discriminatoires.
Un indice de securite IA qui evalue la performance des modeles en utilisant le AIR-Bench 2024 de Stanford (AI Risk Benchmark). Le benchmark est concu pour s'aligner avec les reglementations gouvernementales emergentes et les politiques d'entreprise pour l'evaluation de la securite IA.
Cet article presente la version 0.5 du benchmark de securite IA developpe par le groupe de travail sur la securite IA de MLCommons. Le benchmark est concu pour evaluer les risques de securite des systemes d'IA qui utilisent des modeles de langage ajustes pour le chat, fournissant un cadre d'evaluation standardise pour la securite de l'IA.
Le groupe de travail Risque et fiabilite de l'IA de MLCommons developpe des tests et des benchmarks pour evaluer la securite de l'IA sur des cas d'utilisation specifiques. Le cadre vise a resumer les resultats d'evaluation de securite de maniere a permettre la prise de decision par des non-experts grace a des approches de benchmarking standardisees.
Un jeu de donnees complet consolidant 12 067 points de donnees a travers 791 mesures d'evaluation couvrant 11 principes ethiques pour les systemes d'IA. Le jeu de donnees est extrait de 257 sources de litterature informatique et fournit des metriques standardisees pour evaluer les dimensions ethiques des systemes d'IA.
Article Wikipedia couvrant le biais algorithmique, incluant des exemples bien documentes comme le logiciel d'evaluation des risques criminels COMPAS qui a ete critique pour avoir exhibe un biais racial. L'article discute comment les jeux de donnees biaises peuvent perpetuer et amplifier la discrimination dans les systemes de prise de decision algorithmique.
Une ressource d'Arize AI fournissant des exemples de biais algorithmique et des outils pratiques pour aborder les problemes d'equite des modeles dans les environnements de production. La ressource met en evidence divers outils d'attenuation des biais incluant les outils PAIR AI de Google pour aborder l'equite et les biais dans les jeux de donnees d'images en utilisant TensorFlow.