Richtlinie zur Beschaffung von KI-Trainingsdaten

1. Zweck

Diese Richtlinie definiert, wie [Name der Organisation] Daten beschafft, bewertet und dokumentiert, die zum Trainieren, Feinabstimmen, Validieren und Testen von KI-Modellen verwendet werden. Sie bestätigt, dass alle Trainingsdaten eine klare Herkunft, angemessene Lizenzierung, akzeptable Qualität haben und auf Verzerrungen überprüft wurden — bevor sie in eine KI-Pipeline gelangen.

2. Geltungsbereich

Diese Richtlinie gilt für:

Alle Daten, die zum Trainieren, Feinabstimmen oder Anpassen von KI-Modellen verwendet werden (einschließlich Pre-Training, Instruktions-Tuning, RLHF und Retrieval Augmentation).
Alle Validierungs- und Testdatensätze zur Bewertung der Modellleistung.
Alle intern beschafften, von Anbietern gekauften, aus dem Internet gescrapten oder synthetisch erzeugten Daten.
Sowohl intern entwickelte Modelle als auch Drittanbietermodelle, die von der Organisation feinabgestimmt werden.

3. Definitionen

Trainingsdaten: Daten, die während des Modelllernprozesses verwendet werden, um Parameter und Muster zu etablieren.
Validierungsdaten: Daten, die während der Entwicklung zur Abstimmung von Hyperparametern und zur Vermeidung von Overfitting verwendet werden. Dürfen sich nicht mit Trainingsdaten überschneiden.
Testdaten: Daten, die nach der Entwicklung zur Bewertung der endgültigen Modellleistung verwendet werden. Dürfen sich nicht mit Trainings- oder Validierungsdaten überschneiden.
Datenherkunft: Die dokumentierte Quelle, Geschichte und Nachverfolgungskette eines Datensatzes.
Datenlineage: Die Aufzeichnung, wie Daten erhoben, transformiert und verarbeitet wurden, bevor sie verwendet werden.
Synthetische Daten: Künstlich erzeugte Daten, die statistische Eigenschaften realer Daten bewahren, ohne tatsächliche personenbezogene oder proprietäre Informationen zu enthalten.

4. Anforderungen an die Datenbeschaffung

Bevor ein Datensatz für KI-Training verwendet wird, muss er die folgenden Prüfungen bestehen:

4.1 Herkunftsdokumentation

Die Quelle der Daten muss identifiziert und dokumentiert werden (internes System, Anbieter, öffentlicher Datensatz, Web Scraping, synthetische Erzeugung).
Das Datum der Erhebung oder des Erwerbs muss erfasst werden.
Die Nachverfolgungskette von der Quelle bis zur KI-Pipeline muss nachvollziehbar sein.
Wenn die Daten vorverarbeitet oder transformiert wurden, müssen die Transformationen dokumentiert werden.

4.2 Lizenzierung und rechtliche Prüfung

Alle externen Daten müssen eine klare Lizenz haben, die ihre Verwendung für KI-Training erlaubt.
Open-Source-Datensätze müssen auf Lizenzbedingungen überprüft werden (einige verbieten die kommerzielle Nutzung oder abgeleitete Modelle).
Gekaufte Daten müssen eine ausdrückliche vertragliche Erlaubnis für KI-Trainingszwecke enthalten.
Aus dem Internet gescrappte Daten müssen auf Verstöße gegen Nutzungsbedingungen, Urheberrechtsbeschränkungen und personenbezogene Dateninhalte überprüft werden.
Eine rechtliche Prüfung ist erforderlich, bevor Datensätze in regulierten Bereichen (Gesundheitswesen, Finanzdienstleistungen, Beschäftigung) verwendet werden.

4.3 Bewertung personenbezogener Daten

Alle Datensätze müssen vor der Verwendung auf personenbezogene Daten überprüft werden.
Wenn personenbezogene Daten vorhanden sind, muss die Rechtsgrundlage für die Verarbeitung gemäß der KI-Datennutzungsrichtlinie festgelegt werden.
Anonymisierung, Pseudonymisierung oder synthetische Datenerzeugung müssen zur Reduzierung des Datenschutzrisikos in Betracht gezogen werden.
Besondere Datenkategorien (Gesundheit, Biometrie, Finanzen) erfordern eine zusätzliche rechtliche Prüfung und DSFA.

5. Datenqualitätsstandards

EU AI Act Artikel 10 verlangt, dass Trainingsdaten für Hochrisiko-Systeme "relevant, repräsentativ, fehlerfrei und vollständig" sind. Alle Trainingsdaten müssen die folgenden Standards erfüllen:

Qualitätsdimension	Anforderung	Überprüfungsmethode
Relevanz	Daten müssen für den beabsichtigten Zweck des KI-Systems geeignet sein.	Überprüfung von Beispieldaten durch Fachexperten.
Repräsentativität	Daten müssen die Population oder den Kontext repräsentieren, den das Modell bedienen wird.	Demographische Analyse, Überprüfung der geografischen Verteilung.
Genauigkeit	Daten müssen sachlich korrekt und frei von systematischen Fehlern sein.	Stichprobenvalidierung, Abgleich mit Ground Truth.
Vollständigkeit	Daten dürfen keine kritischen Lücken aufweisen, die das Modell verzerren könnten.	Analyse fehlender Werte, Abdeckungsbewertung.
Zeitliche Relevanz	Daten müssen aktuelle Bedingungen widerspiegeln, wenn das Modell in einem sich ändernden Umfeld arbeitet.	Überprüfung des Zeitraums, Aktualitätsprüfung.
Konsistenz	Daten aus mehreren Quellen müssen in Format, Schema und Semantik harmonisiert werden.	Schema-Validierung, Deduplizierungsanalyse.

6. Bias-Überprüfung

Alle Trainingsdaten müssen vor der Verwendung auf mögliche Verzerrungen überprüft werden:

Ergebnisse der Bias-Überprüfung müssen im Datensatzeintrag dokumentiert werden. Wesentliche Verzerrungen, die nicht behoben werden können, müssen vor Genehmigung des Datensatzes an den KI-Governance-Ausschuss eskaliert werden.

Repräsentationsbias: Sind alle relevanten demographischen Gruppen, Regionen und Anwendungsfälle proportional vertreten?
Historischer Bias: Spiegeln die Daten historische Diskriminierung oder systemische Ungleichheiten wider, die das Modell verstärken könnte?
Messbias: Sind die Labels oder Annotationen konsistent und frei von systematischen Fehlern?
Auswahlbias: Wurden die Daten so erhoben, dass bestimmte Populationen oder Kontexte ausgeschlossen werden?

7. Datensatzdokumentation

Jeder für KI-Training verwendete Datensatz muss einen Datensatzeintrag (Datenblatt) haben, der umfasst:

Datensatzname und -version.
Quell- und Herkunftsinformationen.
Lizenztyp und Nutzungsbeschränkungen.
Ergebnis der Bewertung personenbezogener Daten.
Datenqualitätskennzahlen (Vollständigkeit, Genauigkeit, Repräsentativität).
Ergebnisse der Bias-Überprüfung und angewandte Minderungsmaßnahmen.
Vorverarbeitungs- und Transformationsschritte.
Datum der Überprüfung und Name des Prüfers.
Genehmigte Anwendungsfälle (wofür diese Daten autorisiert sind).

8. Verbotene Datenquellen

Die folgenden Datenquellen dürfen ohne ausdrückliche Genehmigung des KI-Governance-Ausschusses nicht für KI-Training verwendet werden:

Daten, die unter Verletzung von Nutzungsbedingungen oder geltendem Recht erhoben wurden.
Daten, die personenbezogene Informationen ohne Rechtsgrundlage enthalten.
Daten aus Rechtsordnungen mit Beschränkungen für grenzüberschreitende KI-Nutzung.
Daten, die von oder über Minderjährige ohne angemessene Schutzmaßnahmen erzeugt wurden.
Daten von Wettbewerbern, die auf unrechtmäßigem Weg erlangt wurden.
Daten mit unklarer Herkunft, bei denen die Originalquelle nicht bestimmt werden kann.

9. Drittanbieter-Modell-Überlegungen

Bei der Verwendung vortrainierter Drittanbietermodelle (Foundation Models, feinabgestimmte Modelle, API-basierte Dienste):

Dokumentation der Trainingsdaten-Governance-Praktiken des Anbieters anfordern.
Bewerten, ob die Trainingsdaten des Anbieters Inhalte enthalten, die rechtliche, ethische oder reputationsbezogene Risiken für die Organisation schaffen könnten.
Vertraglich verlangen, dass der Anbieter die Organisation bei wesentlichen Änderungen der Trainingsdatenzusammensetzung benachrichtigt.
Compliance des Anbieters mit den Transparenzanforderungen des EU AI Act für Trainingsdaten (öffentliche Zusammenfassungsvorlage) bewerten.

10. Rollen und Verantwortlichkeiten

Rolle	Verantwortlichkeiten
Datenverantwortlicher	Genehmigt Datensätze für KI-Nutzung, stellt Herkunftsdokumentation sicher, pflegt Datenqualität.
Modellverantwortlicher	Stellt sicher, dass Trainingsdaten Qualitätsstandards erfüllen, dokumentiert Daten in der Modellkarte, verwaltet die Daten-Modell-Beziehung.
Recht	Prüft Lizenzierung, bewertet Rechtsgrundlage für personenbezogene Daten, evaluiert Urheberrecht und Nutzungsbedingungen.
Datenschutzbeauftragter	Überprüft Bewertungen personenbezogener Daten, berät zur Anonymisierung, stellt sicher, dass bei Bedarf eine DSFA durchgeführt wird.
KI-Governance-Verantwortlicher	Pflegt Datensatzinventar, verfolgt Compliance, eskaliert Probleme an den Ausschuss.

11. Regulatorische Ausrichtung

EU AI Act: Artikel 10 (Daten und Daten-Governance für Hochrisiko-Systeme), Erwägungsgrund 67 (Qualität von Trainingsdaten).
DSGVO: Artikel 5 (Datenqualitätsgrundsätze), 6 (Rechtsgrundlage), 9 (besondere Kategorien), 25 (Datenschutz durch Technikgestaltung).
ISO/IEC 42001: Anhang B (B.7 — Daten für KI-Systeme).
NIST AI RMF: MAP-Funktion (MP-3, KI-Risiken und -Vorteile aus Drittanbieterressourcen).

12. Überprüfung

Diese Richtlinie wird jährlich oder früher überprüft, wenn dies durch Änderungen der Datenschutzvorschriften, neue Trainingsdatenquellen oder Audit-Feststellungen im Zusammenhang mit Datenqualität oder Bias ausgelöst wird.

Dokumentenlenkung

Feld	Wert
Richtlinienverantwortlicher	[KI-Governance-Verantwortlicher]
Genehmigt durch	[KI-Governance-Ausschuss]
Inkrafttreten	[Datum]
Nächste Überprüfung	[Datum + 12 Monate]
Version	1.0
Klassifizierung	Intern