Governance focused datasets, not model training datasets.
16 recursos
Un jeu de donnees d'images faciales equilibre concu pour evaluer l'equite dans les systemes d'analyse faciale. Contient une representation equilibree entre les groupes ethniques, de genre et d'age pour permettre l'evaluation des sesgo.
Un benchmark collaboratif pour evaluer les grands modeles de langage sur des taches diverses. Inclut des taches concues pour sonder les proprietes de raisonnement, de connaissance, de securite et d'alignement.
Le marco complet de Stanford pour evaluer les modeles de langage sur plusieurs dimensions incluant la precision, la calibration, la robustesse, l'equite, les sesgo, la toxicite et l'efficacite.
Jeu de donnees structure d'incidentes et de prejudices lies a l'IA pour la Investigacion et l'analyse. Permet une etude systematique des defaillances de l'IA, des modeles de prejudices et des facteurs de riesgo a travers differentes applications d'IA.
Un jeu de donnees complet d'evaluation de l'equite contenant 10 318 images obtenues avec consentement de 1 981 sujets uniques avec des annotations extensives. Ce jeu de donnees sert de reference mondiale pour la collecte ethique de donnees et le developpement responsable de l'IA, specifiquement concu pour evaluer les sesgo et l'equite dans les systemes d'IA.
FHIBE est le premier jeu de donnees d'evaluation de l'equite publiquement disponible, collecte avec consentement et globalement diversifie, concu pour les taches de vision par ordinateur centrees sur l'humain. Le jeu de donnees sert de reference mondiale pour la collecte ethique de donnees et le developpement responsable de l'IA, permettant aux investigadors et developpeurs d'evaluer l'equite a travers des populations diverses.
Le Fair Human-Centric Image Benchmark (FHIBE) est un jeu de donnees d'images concu pour evaluer les systemes d'IA en termes d'equite et de sesgo dans les applications de vision par ordinateur. Il implemente les meilleures pratiques pour la curation responsable des donnees et fournit des references standardisees pour tester l'equite algorithmique a travers des populations humaines diverses.
Cette ressource explore les methodes de detection des sesgo dans les systemes de vision par ordinateur, incluant les descripteurs de caracteristiques CNN et les classificateurs SVM pour identifier les sesgo dans les jeux de donnees visuels. Elle examine comment les techniques d'IA explicable peuvent ameliorer la Transparencia et la fiabilite des modeles d'apprentissage profond utilises dans les applications de vision par ordinateur.
Un modele de classification de sequences en anglais specifiquement entraine sur le jeu de donnees MBAD pour detecter automatiquement les sesgo et evaluer l'equite dans le contenu textuel, en particulier les articles de presse. Cet herramienta permet une analyse automatisee des sesgo potentiels dans le contenu ecrit par classification basee sur l'aprendizaje automatico.
Une implementation technique de l'algoritmo HBAC qui detecte les sesgo dans les systemes de prise de decision algorithmique sans necessiter de donnees etiquetees. L'herramienta maximise les differences dans les variables de sesgo entre les clusters et inclut des tests statistiques pour prevenir les fausses conclusions sur les modeles discriminatoires.
Un indice de securite IA qui evalue la performance des modeles en utilisant le AIR-Bench 2024 de Stanford (AI Risk Benchmark). Le benchmark est concu pour s'aligner avec les reglementations gouvernementales emergentes et les politicas d'empresa pour l'evaluation de la securite IA.
Cet article presente la version 0.5 du benchmark de securite IA developpe par le groupe de travail sur la securite IA de MLCommons. Le benchmark est concu pour evaluer les riesgos de securite des systemes d'IA qui utilisent des modeles de langage ajustes pour le chat, fournissant un marco d'evaluation standardise pour la securite de l'IA.
Le groupe de travail Riesgo et fiabilite de l'IA de MLCommons developpe des tests et des Benchmarks pour evaluer la securite de l'IA sur des cas d'utilisation specifiques. Le marco vise a resumer les resultats d'evaluation de securite de maniere a permettre la prise de decision par des non-experts grace a des approches de benchmarking standardisees.
Un jeu de donnees complet consolidant 12 067 points de donnees a travers 791 mesures d'evaluation couvrant 11 Principios ethiques pour les systemes d'IA. Le jeu de donnees est extrait de 257 sources de litterature informatique et fournit des metriques standardisees pour evaluer les dimensions ethiques des systemes d'IA.
Article Wikipedia couvrant le sesgo algorithmique, incluant des exemples bien documentes comme le logiciel d'evaluation des riesgos criminels COMPAS qui a ete critique pour avoir exhibe un sesgo racial. L'article discute comment les jeux de donnees sesgoes peuvent perpetuer et amplifier la discrimination dans les systemes de prise de decision algorithmique.
Une ressource d'Arize AI fournissant des exemples de sesgo algorithmique et des Herramientas pratiques pour aborder les problemes d'equite des modeles dans les environnements de production. La ressource met en evidence divers Herramientas d'attenuation des sesgo incluant les Herramientas PAIR AI de Google pour aborder l'equite et les sesgo dans les jeux de donnees d'images en utilisant TensorFlow.