1. Zweck
Diese Richtlinie definiert, wie [Name der Organisation] Daten beschafft, bewertet und dokumentiert, die zum Trainieren, Feinabstimmen, Validieren und Testen von KI-Modellen verwendet werden. Sie bestätigt, dass alle Trainingsdaten eine klare Herkunft, angemessene Lizenzierung, akzeptable Qualität haben und auf Verzerrungen überprüft wurden — bevor sie in eine KI-Pipeline gelangen.
2. Geltungsbereich
Diese Richtlinie gilt für:
- Alle Daten, die zum Trainieren, Feinabstimmen oder Anpassen von KI-Modellen verwendet werden (einschließlich Pre-Training, Instruktions-Tuning, RLHF und Retrieval Augmentation).
- Alle Validierungs- und Testdatensätze zur Bewertung der Modellleistung.
- Alle intern beschafften, von Anbietern gekauften, aus dem Internet gescrapten oder synthetisch erzeugten Daten.
- Sowohl intern entwickelte Modelle als auch Drittanbietermodelle, die von der Organisation feinabgestimmt werden.
3. Definitionen
- Trainingsdaten: Daten, die während des Modelllernprozesses verwendet werden, um Parameter und Muster zu etablieren.
- Validierungsdaten: Daten, die während der Entwicklung zur Abstimmung von Hyperparametern und zur Vermeidung von Overfitting verwendet werden. Dürfen sich nicht mit Trainingsdaten überschneiden.
- Testdaten: Daten, die nach der Entwicklung zur Bewertung der endgültigen Modellleistung verwendet werden. Dürfen sich nicht mit Trainings- oder Validierungsdaten überschneiden.
- Datenherkunft: Die dokumentierte Quelle, Geschichte und Nachverfolgungskette eines Datensatzes.
- Datenlineage: Die Aufzeichnung, wie Daten erhoben, transformiert und verarbeitet wurden, bevor sie verwendet werden.
- Synthetische Daten: Künstlich erzeugte Daten, die statistische Eigenschaften realer Daten bewahren, ohne tatsächliche personenbezogene oder proprietäre Informationen zu enthalten.
4. Anforderungen an die Datenbeschaffung
Bevor ein Datensatz für KI-Training verwendet wird, muss er die folgenden Prüfungen bestehen:
4.1 Herkunftsdokumentation
- Die Quelle der Daten muss identifiziert und dokumentiert werden (internes System, Anbieter, öffentlicher Datensatz, Web Scraping, synthetische Erzeugung).
- Das Datum der Erhebung oder des Erwerbs muss erfasst werden.
- Die Nachverfolgungskette von der Quelle bis zur KI-Pipeline muss nachvollziehbar sein.
- Wenn die Daten vorverarbeitet oder transformiert wurden, müssen die Transformationen dokumentiert werden.
4.2 Lizenzierung und rechtliche Prüfung
- Alle externen Daten müssen eine klare Lizenz haben, die ihre Verwendung für KI-Training erlaubt.
- Open-Source-Datensätze müssen auf Lizenzbedingungen überprüft werden (einige verbieten die kommerzielle Nutzung oder abgeleitete Modelle).
- Gekaufte Daten müssen eine ausdrückliche vertragliche Erlaubnis für KI-Trainingszwecke enthalten.
- Aus dem Internet gescrappte Daten müssen auf Verstöße gegen Nutzungsbedingungen, Urheberrechtsbeschränkungen und personenbezogene Dateninhalte überprüft werden.
- Eine rechtliche Prüfung ist erforderlich, bevor Datensätze in regulierten Bereichen (Gesundheitswesen, Finanzdienstleistungen, Beschäftigung) verwendet werden.
4.3 Bewertung personenbezogener Daten
- Alle Datensätze müssen vor der Verwendung auf personenbezogene Daten überprüft werden.
- Wenn personenbezogene Daten vorhanden sind, muss die Rechtsgrundlage für die Verarbeitung gemäß der KI-Datennutzungsrichtlinie festgelegt werden.
- Anonymisierung, Pseudonymisierung oder synthetische Datenerzeugung müssen zur Reduzierung des Datenschutzrisikos in Betracht gezogen werden.
- Besondere Datenkategorien (Gesundheit, Biometrie, Finanzen) erfordern eine zusätzliche rechtliche Prüfung und DSFA.
5. Datenqualitätsstandards
EU AI Act Artikel 10 verlangt, dass Trainingsdaten für Hochrisiko-Systeme "relevant, repräsentativ, fehlerfrei und vollständig" sind. Alle Trainingsdaten müssen die folgenden Standards erfüllen:
| Qualitätsdimension | Anforderung | Überprüfungsmethode |
|---|---|---|
| Relevanz | Daten müssen für den beabsichtigten Zweck des KI-Systems geeignet sein. | Überprüfung von Beispieldaten durch Fachexperten. |
| Repräsentativität | Daten müssen die Population oder den Kontext repräsentieren, den das Modell bedienen wird. | Demographische Analyse, Überprüfung der geografischen Verteilung. |
| Genauigkeit | Daten müssen sachlich korrekt und frei von systematischen Fehlern sein. | Stichprobenvalidierung, Abgleich mit Ground Truth. |
| Vollständigkeit | Daten dürfen keine kritischen Lücken aufweisen, die das Modell verzerren könnten. | Analyse fehlender Werte, Abdeckungsbewertung. |
| Zeitliche Relevanz | Daten müssen aktuelle Bedingungen widerspiegeln, wenn das Modell in einem sich ändernden Umfeld arbeitet. | Überprüfung des Zeitraums, Aktualitätsprüfung. |
| Konsistenz | Daten aus mehreren Quellen müssen in Format, Schema und Semantik harmonisiert werden. | Schema-Validierung, Deduplizierungsanalyse. |
6. Bias-Überprüfung
Alle Trainingsdaten müssen vor der Verwendung auf mögliche Verzerrungen überprüft werden:
Ergebnisse der Bias-Überprüfung müssen im Datensatzeintrag dokumentiert werden. Wesentliche Verzerrungen, die nicht behoben werden können, müssen vor Genehmigung des Datensatzes an den KI-Governance-Ausschuss eskaliert werden.
- Repräsentationsbias: Sind alle relevanten demographischen Gruppen, Regionen und Anwendungsfälle proportional vertreten?
- Historischer Bias: Spiegeln die Daten historische Diskriminierung oder systemische Ungleichheiten wider, die das Modell verstärken könnte?
- Messbias: Sind die Labels oder Annotationen konsistent und frei von systematischen Fehlern?
- Auswahlbias: Wurden die Daten so erhoben, dass bestimmte Populationen oder Kontexte ausgeschlossen werden?
7. Datensatzdokumentation
Jeder für KI-Training verwendete Datensatz muss einen Datensatzeintrag (Datenblatt) haben, der umfasst:
- Datensatzname und -version.
- Quell- und Herkunftsinformationen.
- Lizenztyp und Nutzungsbeschränkungen.
- Ergebnis der Bewertung personenbezogener Daten.
- Datenqualitätskennzahlen (Vollständigkeit, Genauigkeit, Repräsentativität).
- Ergebnisse der Bias-Überprüfung und angewandte Minderungsmaßnahmen.
- Vorverarbeitungs- und Transformationsschritte.
- Datum der Überprüfung und Name des Prüfers.
- Genehmigte Anwendungsfälle (wofür diese Daten autorisiert sind).
8. Verbotene Datenquellen
Die folgenden Datenquellen dürfen ohne ausdrückliche Genehmigung des KI-Governance-Ausschusses nicht für KI-Training verwendet werden:
- Daten, die unter Verletzung von Nutzungsbedingungen oder geltendem Recht erhoben wurden.
- Daten, die personenbezogene Informationen ohne Rechtsgrundlage enthalten.
- Daten aus Rechtsordnungen mit Beschränkungen für grenzüberschreitende KI-Nutzung.
- Daten, die von oder über Minderjährige ohne angemessene Schutzmaßnahmen erzeugt wurden.
- Daten von Wettbewerbern, die auf unrechtmäßigem Weg erlangt wurden.
- Daten mit unklarer Herkunft, bei denen die Originalquelle nicht bestimmt werden kann.
9. Drittanbieter-Modell-Überlegungen
Bei der Verwendung vortrainierter Drittanbietermodelle (Foundation Models, feinabgestimmte Modelle, API-basierte Dienste):
- Dokumentation der Trainingsdaten-Governance-Praktiken des Anbieters anfordern.
- Bewerten, ob die Trainingsdaten des Anbieters Inhalte enthalten, die rechtliche, ethische oder reputationsbezogene Risiken für die Organisation schaffen könnten.
- Vertraglich verlangen, dass der Anbieter die Organisation bei wesentlichen Änderungen der Trainingsdatenzusammensetzung benachrichtigt.
- Compliance des Anbieters mit den Transparenzanforderungen des EU AI Act für Trainingsdaten (öffentliche Zusammenfassungsvorlage) bewerten.
10. Rollen und Verantwortlichkeiten
| Rolle | Verantwortlichkeiten |
|---|---|
| Datenverantwortlicher | Genehmigt Datensätze für KI-Nutzung, stellt Herkunftsdokumentation sicher, pflegt Datenqualität. |
| Modellverantwortlicher | Stellt sicher, dass Trainingsdaten Qualitätsstandards erfüllen, dokumentiert Daten in der Modellkarte, verwaltet die Daten-Modell-Beziehung. |
| Recht | Prüft Lizenzierung, bewertet Rechtsgrundlage für personenbezogene Daten, evaluiert Urheberrecht und Nutzungsbedingungen. |
| Datenschutzbeauftragter | Überprüft Bewertungen personenbezogener Daten, berät zur Anonymisierung, stellt sicher, dass bei Bedarf eine DSFA durchgeführt wird. |
| KI-Governance-Verantwortlicher | Pflegt Datensatzinventar, verfolgt Compliance, eskaliert Probleme an den Ausschuss. |
11. Regulatorische Ausrichtung
- EU AI Act: Artikel 10 (Daten und Daten-Governance für Hochrisiko-Systeme), Erwägungsgrund 67 (Qualität von Trainingsdaten).
- DSGVO: Artikel 5 (Datenqualitätsgrundsätze), 6 (Rechtsgrundlage), 9 (besondere Kategorien), 25 (Datenschutz durch Technikgestaltung).
- ISO/IEC 42001: Anhang B (B.7 — Daten für KI-Systeme).
- NIST AI RMF: MAP-Funktion (MP-3, KI-Risiken und -Vorteile aus Drittanbieterressourcen).
12. Überprüfung
Diese Richtlinie wird jährlich oder früher überprüft, wenn dies durch Änderungen der Datenschutzvorschriften, neue Trainingsdatenquellen oder Audit-Feststellungen im Zusammenhang mit Datenqualität oder Bias ausgelöst wird.
Dokumentenlenkung
| Feld | Wert |
|---|---|
| Richtlinienverantwortlicher | [KI-Governance-Verantwortlicher] |
| Genehmigt durch | [KI-Governance-Ausschuss] |
| Inkrafttreten | [Datum] |
| Nächste Überprüfung | [Datum + 12 Monate] |
| Version | 1.0 |
| Klassifizierung | Intern |