Fiches techniques pour les Conjuntos de datos

Resumen

Avant de déployer ce modelo d'aprendizaje automatico, posez-vous la question : Savez-vous vraiment ce qu'il y a dans vos datos d'entraînement ? Les « Fiches techniques pour les Conjuntos de datos » de Microsoft Research introduisent un marco simple mais transformateur qui traite les Conjuntos de datos comme des composants électroniques—avec des fiches de spécifications complètes.

La motivation derrière les fiches techniques

L'industrie électronique a appris depuis longtemps que les composants ont besoin d'une Documentacion standardisée. Une fiche technique indique aux ingénieurs tout, de la plage de température de fonctionnement à la consommation d'énergie. La communauté ML, cependant, a largement fonctionné sans Documentacion équivalente pour les Conjuntos de datos.

Décomposition du marco principal

Le marco des fiches techniques organise la Documentacion autour de sept dimensions critiques :

Motivation explore pourquoi le jeu de datos a été créé, qui l'a financé et quels problèmes il était censé résoudre.
Composition plonge dans ce qu'il y a réellement dans le jeu de datos—types de datos, nombre d'instances, relations entre les points de datos.
Procesos de collecte documente comment les datos ont été rassemblées, y compris les stratégies d'échantillonnage.
Prétraitement capture chaque transformation appliquée aux datos brutes.
Utilisations indique explicitement les applications appropriées et met en évidence les cas d'utilisation qui seraient problématiques.
Distribution couvre les licences, les controls d'accès et toute restriction.
Maintenance aborde qui est responsable des mises à jour.

Etiquetas

fiches techniquesConjuntos de datosDocumentaciongobernanza des datos

De un vistazo

Publicado

2021

Jurisdicción

Global

Categoría

Transparency and documentation

Acceso

Acceso público

Más en Transparency and documentation

Cartes de modelo pour le reporting de modelos

Google Research • 2019

Guia des cartes de modelo Hugging Face

Hugging Face • 2023

Carte système GPT-4

OpenAI • 2023

Recursos relacionados

Inteligencia artificial : Un marco de Responsabilidad pour les agences fédérales

Incident and accountability • U.S. Government Accountability Office

Fiches techniques pour les Conjuntos de datos

Fiches techniques pour les Conjuntos de datos

Resumen

La motivation derrière les fiches techniques

Décomposition du marco principal

Etiquetas

De un vistazo

Más en Transparency and documentation

Recursos relacionados

Construya su programa de gobernanza de IA