Conjunto de datosActivo

FairFace : jeu de datos d'attributs faciaux pour une analyse equilibree par origine, genre et age

UCLA

FairFace : jeu de donnees d'attributs faciaux pour une analyse equilibree par origine, genre et age

Resume

FairFace repond a l'un des defis les plus persistants de la vision par ordinateur : le manque d'equilibre demographique dans les jeux de donnees d'entrainement et d'evaluation. Cree par des investigadors de l'UCLA, ce jeu de donnees fournit 108 501 images faciales avec une representation equilibree entre sept groupes ethniques, deux genres et neuf tranches d'age. Contrairement aux jeux de donnees faciaux traditionnels qui sont fortement sesgoes vers certaines demographiques, FairFace a ete specifiquement concu pour permettre des tests rigoureux de sesgo dans les systemes d'analyse faciale. C'est devenu une ressource incontournable pour les investigadors et profesionals qui doivent valider que leurs modeles de reconnaissance faciale, d'estimation d'age ou de classification demographique fonctionnent equitablement entre differents groupes de population.

Ce qui rend ce jeu de donnees different

La plupart des jeux de donnees faciaux souffrent de desequilibres demographiques severes - souvent 70-80% de visages blancs, forte predominance masculine et diversite d'age limitee. FairFace inverse cette tendance en maintenant une representation a peu pres egale entre les categories ethniques (Blanc, Noir, Asiatique de l'Est, Asiatique du Sud-Est, Indien, Moyen-Oriental, Latino_Hispanique) et le genre, avec une couverture systematique des tranches d'age de 0-2 ans jusqu'a 70+ ans.

Les images elles-memes sont de haute qualite, des photos de face provenant du jeu de donnees YFCC-100M Flickr, puis soigneusement filtrees et annotees. Chaque image inclut des etiquettes de verite terrain pour l'origine ethnique, le genre et la tranche d'age, verifiees par plusieurs tours d'annotation. Le jeu de donnees fournit egalement des divisions d'entrainement et de validation, le rendant immediatement utilisable pour le developpement et l'evaluation de modeles.

Capacites principales d'evaluation des sesgo

Test de parite demographique : Comparez la precision du modele, les taux de faux positifs et de faux negatifs entre differents groupes demographiques pour identifier les disparites de performance.
Analyse intersectionnelle : Evaluez comment les modeles performent sur les identites intersectionnelles (ex. jeunes femmes noires vs hommes blancs ages) plutot que sur des categories demographiques uniques.
Evaluation des sesgo d'age : Testez si les modeles d'estimation d'age montrent des erreurs systematiques pour certains groupes d'age ou combinaisons demographiques.
Apprentissage de representation : Entrainez des modeles plus equilibres en utilisant FairFace comme donnees d'entrainement principales ou supplementaires pour equilibrer les jeux de donnees existants.

A qui s'adresse cette ressource

Investigadors en vision par ordinateur developpant ou evaluant des algoritmos d'analyse faciale qui doivent demontrer l'equite entre les groupes demographiques. Essentiel pour publier dans des conferences qui exigent desormais une evaluation des sesgo.
Equipes d'ethique IA et auditoriaors de sesgo effectuant des evaluations d'equite des systemes existants de reconnaissance faciale ou de classification demographique en production.
Equipes produit dans les empresas technologiques construisant des applications grand public avec des fonctionnalites d'analyse faciale qui doivent assurer une performance equitable pour leur base d'utilisateurs.
Equipes de conformite reglementaire dans les organizacions soumises aux reglementations d'equite IA qui ont besoin de jeux de donnees standardises pour les tests de sesgo et la Documentacion.
Institutions academiques enseignant l'ethique de l'IA ou la vision par ordinateur qui veulent des jeux de donnees pratiques pour demontrer les sesgo dans les systemes d'aprendizaje automatico.

Demarrer avec FairFace

Telechargez le jeu de donnees depuis le depot GitHub, qui inclut les fichiers d'images et les fichiers d'annotation CSV. Le telechargement total est d'environ 11 Go. Vous trouverez des dossiers separes pour les ensembles d'entrainement (86 744 images) et de validation (21 757 images).

Le format d'annotation est simple - chaque ligne contient un nom de fichier et trois etiquettes (origine, genre, age). Les categories d'origine utilisent des etiquettes standardisees, le genre est binaire (Homme/Femme), et l'age est groupe en tranches comme "0-2", "3-9", "10-19", etc.

Pour l'evaluation des sesgo, etablissez des metriques de performance de base sur le jeu de donnees complet, puis segmentez les resultats par groupes demographiques pour identifier les disparites. De nombreux investigadors utilisent des metriques comme la difference de parite demographique et l'egalite des chances pour quantifier les ecarts d'equite.

Puntos de atencion

La classification binaire du genre reflete la date de creation du jeu de donnees en 2021 et peut ne pas correspondre a la comprehension actuelle de la diversite de genre. Considerez cette limitation lors de l'utilisation de FairFace pour des applications servant des identites de genre diverses.

Les categories ethniques, bien que plus completes que la plupart des jeux de donnees, representent toujours des groupements larges qui peuvent ne pas capturer le spectre complet de la diversite humaine. La categorie "Latino_Hispanique", par exemple, couvre de nombreuses ethnicites distinctes.

La qualite d'image et la pose varient quelque peu entre les groupes demographiques en raison des caracteristiques du jeu de donnees source, ce qui pourrait introduire des facteurs confondants dans l'evaluation des sesgo. Examinez toujours si les differences de performance proviennent de sesgo demographiques versus des differences de qualite d'image.

Les groupements d'age sont des tranches larges plutot que des ages specifiques, limitant son utilite pour une evaluation precise de l'estimation d'age par informe aux etiquettes d'age continues.

Etiquetas

equitereconnaissance facialesesgojeu de donnees

De un vistazo

Publicado

2021

Jurisdicción

Global

Categoría

Datasets and benchmarks

Acceso

Acceso público

Más en Datasets and benchmarks

BIG-bench : benchmark au-dela du jeu de l'imitation

Google & Contributors • 2023

HELM : evaluation holistique des modeles de langage

Stanford CRFM • 2023

Base de donnees des incidentes IA

Responsible AI Collaborative • 2024

Recursos relacionados

AI Fairness 360 (AIF360)

Open source governance projects • IBM Research

Responsible AI Toolkit

Open source governance projects • Google

IA responsable avec TensorFlow

Open source governance projects • Google

Construya su programa de gobernanza de IA

VerifyWise le ayuda a implementar frameworks de gobernanza de IA, hacer seguimiento del cumplimiento y gestionar riesgos en sus sistemas de IA.

Explorar biblioteca Probar gratis