Politique d'approvisionnement en donnees d'entrainement de l'IA

1. Objectif

La presente politique definit comment [Nom de l'organisation] s'approvisionne, evalue et documente les donnees utilisees pour entrainer, affiner, valider et tester les modeles d'IA. Elle confirme que toutes les donnees d'entrainement disposent d'une provenance claire, de licences appropriees, d'une qualite acceptable et ont ete examinees pour les biais — avant d'entrer dans tout pipeline d'IA.

2. Perimetre

La presente politique s'applique a :

Toutes les donnees utilisees pour entrainer, affiner ou adapter des modeles d'IA (y compris le pre-entrainement, le reglage par instructions, le RLHF et l'augmentation par recuperation).
Tous les jeux de donnees de validation et de test utilises pour evaluer les performances des modeles.
Toutes les donnees provenant de sources internes, achetees aupres de fournisseurs, collectees sur Internet ou generees synthetiquement.
Les modeles developpes en interne et les modeles tiers affines par l'organisation.

3. Definitions

Donnees d'entrainement : Donnees utilisees lors du processus d'apprentissage du modele pour etablir les parametres et les schemas.
Donnees de validation : Donnees utilisees pendant le developpement pour ajuster les hyperparametres et prevenir le surapprentissage. Ne doivent pas se chevaucher avec les donnees d'entrainement.
Donnees de test : Donnees utilisees apres le developpement pour evaluer les performances finales du modele. Ne doivent pas se chevaucher avec les donnees d'entrainement ou de validation.
Provenance des donnees : L'origine documentee, l'historique et la chaine de possession d'un jeu de donnees.
Lignee des donnees : L'enregistrement de la facon dont les donnees ont ete collectees, transformees et traitees avant utilisation.
Donnees synthetiques : Donnees generees artificiellement qui preservent les proprietes statistiques des donnees reelles sans contenir d'informations personnelles ou proprietaires effectives.

4. Exigences d'approvisionnement en donnees

Avant qu'un jeu de donnees ne soit utilise pour l'entrainement de l'IA, il doit passer les verifications suivantes :

4.1 Documentation de la provenance

La source des donnees doit etre identifiee et documentee (systeme interne, fournisseur, jeu de donnees public, collecte web, generation synthetique).
La date de collecte ou d'acquisition doit etre enregistree.
La chaine de possession de la source au pipeline d'IA doit etre tracable.
Si les donnees ont ete pretraitees ou transformees, les transformations doivent etre documentees.

4.2 Revue des licences et revue juridique

Toutes les donnees externes doivent disposer d'une licence claire autorisant leur utilisation pour l'entrainement de l'IA.
Les jeux de donnees open source doivent etre examines quant aux termes de licence (certains interdisent l'utilisation commerciale ou les modeles derives).
Les donnees achetees doivent inclure une autorisation contractuelle explicite pour l'entrainement de l'IA.
Les donnees issues du web scraping doivent etre examinees au regard des violations des conditions d'utilisation, des restrictions de droit d'auteur et du contenu en donnees personnelles.
Un examen juridique est requis avant l'utilisation de tout jeu de donnees dans un domaine reglemente (sante, services financiers, emploi).

4.3 Evaluation des donnees personnelles

Tous les jeux de donnees doivent etre analyses pour detecter les donnees personnelles avant utilisation.
Si des donnees personnelles sont presentes, la base juridique du traitement doit etre etablie conformement a la Politique d'utilisation des donnees pour l'IA.
L'anonymisation, la pseudonymisation ou la generation de donnees synthetiques doivent etre envisagees pour reduire le risque de confidentialite.
Les donnees de categories particulieres (sante, biometrie, finance) necessitent un examen juridique supplementaire et une AIPD.

5. Normes de qualite des donnees

L'article 10 du Reglement europeen sur l'IA exige que les donnees d'entrainement des systemes a haut risque soient « pertinentes, representatives, exemptes d'erreurs et completes ». Toutes les donnees d'entrainement doivent satisfaire aux normes suivantes :

Dimension de qualite	Exigence	Methode de verification
Pertinence	Les donnees doivent etre appropriees a la finalite prevue du systeme d'IA.	Revue d'un echantillon de donnees par un expert du domaine.
Representativite	Les donnees doivent representer la population ou le contexte que le modele servira.	Analyse demographique, verification de la distribution geographique.
Exactitude	Les donnees doivent etre factuellement correctes et exemptes d'erreurs systematiques.	Validation par echantillonnage, recoupement avec la verite terrain.
Exhaustivite	Les donnees ne doivent pas presenter de lacunes critiques susceptibles de biaiser le modele.	Analyse des valeurs manquantes, evaluation de la couverture.
Pertinence temporelle	Les donnees doivent refleter les conditions actuelles si le modele opere dans un environnement evolutif.	Revue de la plage de dates, verification de l'obsolescence.
Coherence	Les donnees provenant de sources multiples doivent etre harmonisees en termes de format, de schema et de semantique.	Validation de schema, analyse de deduplication.

6. Examen des biais

Toutes les donnees d'entrainement doivent etre examinees pour les biais potentiels avant utilisation :

Les constatations de l'examen des biais doivent etre documentees dans la fiche du jeu de donnees. Les biais significatifs qui ne peuvent etre attenues doivent etre escalades au Comite de gouvernance de l'IA avant que le jeu de donnees ne soit approuve pour utilisation.

Biais de representation : Tous les groupes demographiques, zones geographiques et cas d'usage pertinents sont-ils representes de maniere proportionnelle ?
Biais historique : Les donnees refletent-elles des discriminations historiques ou des inegalites systemiques que le modele pourrait amplifier ?
Biais de mesure : Les etiquettes ou annotations sont-elles coherentes et exemptes d'erreur systematique ?
Biais de selection : Les donnees ont-elles ete collectees d'une maniere qui exclut certaines populations ou certains contextes ?

7. Documentation des jeux de donnees

Chaque jeu de donnees utilise pour l'entrainement de l'IA doit disposer d'une fiche de jeu de donnees comprenant :

Nom et version du jeu de donnees.
Informations sur la source et la provenance.
Type de licence et restrictions d'utilisation.
Resultat de l'evaluation des donnees personnelles.
Indicateurs de qualite des donnees (exhaustivite, exactitude, representativite).
Constatations de l'examen des biais et attenuations appliquees.
Etapes de pretraitement et de transformation.
Date de revue et nom du reviseur.
Cas d'usage approuves (a quoi ces donnees sont autorisees).

8. Sources de donnees interdites

Les sources de donnees suivantes ne doivent pas etre utilisees pour l'entrainement de l'IA sans approbation explicite du Comite de gouvernance de l'IA :

Donnees collectees en violation des conditions d'utilisation ou de la legislation applicable.
Donnees contenant des informations personnelles sans base juridique.
Donnees provenant de juridictions avec des restrictions sur l'utilisation transfrontaliere de l'IA.
Donnees generees par ou concernant des mineurs sans garanties appropriees.
Donnees de concurrents obtenues par des moyens non autorises.
Donnees dont la provenance est incertaine et dont la source originale ne peut etre determinee.

9. Considerations relatives aux modeles tiers

Lors de l'utilisation de modeles tiers pre-entraines (modeles de fondation, modeles affines, services via API) :

Demander la documentation des pratiques de gouvernance des donnees d'entrainement du fournisseur.
Evaluer si les donnees d'entrainement du fournisseur incluent du contenu susceptible de creer un risque juridique, ethique ou reputationnel pour l'organisation.
Exiger contractuellement que le fournisseur notifie l'organisation des changements significatifs dans la composition des donnees d'entrainement.
Evaluer la conformite du fournisseur aux exigences de transparence des donnees d'entrainement du Reglement europeen sur l'IA (Modele de resume public).

10. Roles et responsabilites

Role	Responsabilites
Proprietaire des donnees	Approuve les jeux de donnees pour l'utilisation IA, assure la documentation de la provenance, maintient la qualite des donnees.
Proprietaire du modele	S'assure que les donnees d'entrainement satisfont aux normes de qualite, documente les donnees dans la fiche du modele, gere la relation donnees-modele.
Juridique	Examine les licences, evalue la base juridique pour les donnees personnelles, evalue le droit d'auteur et les conditions d'utilisation.
Delegue a la protection des donnees	Examine les evaluations des donnees personnelles, conseille sur l'anonymisation, s'assure de la realisation de l'AIPD lorsque requise.
Responsable de la gouvernance IA	Maintient l'inventaire des jeux de donnees, suit la conformite, escalade les problemes au Comite.

11. Alignement reglementaire

Reglement europeen sur l'IA : Article 10 (gouvernance des donnees pour les systemes a haut risque), Considerant 67 (qualite des donnees d'entrainement).
RGPD : Articles 5 (principes de qualite des donnees), 6 (base juridique), 9 (categories particulieres), 25 (protection des donnees des la conception).
ISO/IEC 42001 : Annexe B (B.7 — donnees pour les systemes d'IA).
NIST AI RMF : Fonction MAP (MP-3, risques et benefices IA lies aux ressources tierces).

12. Revue

La presente politique est revue annuellement ou plus tot en cas de modifications des reglementations de protection des donnees, de nouvelles sources de donnees d'entrainement ou de constatations d'audit relatives a la qualite des donnees ou aux biais.

Controle du document

Champ	Valeur
Proprietaire de la politique	[Responsable de la gouvernance IA]
Approuve par	[Comite de gouvernance de l'IA]
Date d'entree en vigueur	[Date]
Prochaine date de revue	[Date + 12 mois]
Version	1.0
Classification	Interne