UCLA
Ver recurso originalFairFace repond a l'un des defis les plus persistants de la vision par ordinateur : le manque d'equilibre demographique dans les jeux de donnees d'entrainement et d'evaluation. Cree par des investigadors de l'UCLA, ce jeu de donnees fournit 108 501 images faciales avec une representation equilibree entre sept groupes ethniques, deux genres et neuf tranches d'age. Contrairement aux jeux de donnees faciaux traditionnels qui sont fortement sesgoes vers certaines demographiques, FairFace a ete specifiquement concu pour permettre des tests rigoureux de sesgo dans les systemes d'analyse faciale. C'est devenu une ressource incontournable pour les investigadors et profesionals qui doivent valider que leurs modeles de reconnaissance faciale, d'estimation d'age ou de classification demographique fonctionnent equitablement entre differents groupes de population.
La plupart des jeux de donnees faciaux souffrent de desequilibres demographiques severes - souvent 70-80% de visages blancs, forte predominance masculine et diversite d'age limitee. FairFace inverse cette tendance en maintenant une representation a peu pres egale entre les categories ethniques (Blanc, Noir, Asiatique de l'Est, Asiatique du Sud-Est, Indien, Moyen-Oriental, Latino_Hispanique) et le genre, avec une couverture systematique des tranches d'age de 0-2 ans jusqu'a 70+ ans.
Les images elles-memes sont de haute qualite, des photos de face provenant du jeu de donnees YFCC-100M Flickr, puis soigneusement filtrees et annotees. Chaque image inclut des etiquettes de verite terrain pour l'origine ethnique, le genre et la tranche d'age, verifiees par plusieurs tours d'annotation. Le jeu de donnees fournit egalement des divisions d'entrainement et de validation, le rendant immediatement utilisable pour le developpement et l'evaluation de modeles.
Telechargez le jeu de donnees depuis le depot GitHub, qui inclut les fichiers d'images et les fichiers d'annotation CSV. Le telechargement total est d'environ 11 Go. Vous trouverez des dossiers separes pour les ensembles d'entrainement (86 744 images) et de validation (21 757 images).
Le format d'annotation est simple - chaque ligne contient un nom de fichier et trois etiquettes (origine, genre, age). Les categories d'origine utilisent des etiquettes standardisees, le genre est binaire (Homme/Femme), et l'age est groupe en tranches comme "0-2", "3-9", "10-19", etc.
Pour l'evaluation des sesgo, etablissez des metriques de performance de base sur le jeu de donnees complet, puis segmentez les resultats par groupes demographiques pour identifier les disparites. De nombreux investigadors utilisent des metriques comme la difference de parite demographique et l'egalite des chances pour quantifier les ecarts d'equite.
La classification binaire du genre reflete la date de creation du jeu de donnees en 2021 et peut ne pas correspondre a la comprehension actuelle de la diversite de genre. Considerez cette limitation lors de l'utilisation de FairFace pour des applications servant des identites de genre diverses.
Les categories ethniques, bien que plus completes que la plupart des jeux de donnees, representent toujours des groupements larges qui peuvent ne pas capturer le spectre complet de la diversite humaine. La categorie "Latino_Hispanique", par exemple, couvre de nombreuses ethnicites distinctes.
La qualite d'image et la pose varient quelque peu entre les groupes demographiques en raison des caracteristiques du jeu de donnees source, ce qui pourrait introduire des facteurs confondants dans l'evaluation des sesgo. Examinez toujours si les differences de performance proviennent de sesgo demographiques versus des differences de qualite d'image.
Les groupements d'age sont des tranches larges plutot que des ages specifiques, limitant son utilite pour une evaluation precise de l'estimation d'age par informe aux etiquettes d'age continues.
Publicado
2021
Jurisdicción
Global
CategorÃa
Datasets and benchmarks
Acceso
Acceso público
VerifyWise le ayuda a implementar frameworks de gobernanza de IA, hacer seguimiento del cumplimiento y gestionar riesgos en sus sistemas de IA.