Richtlinie zur Modellvalidierung und zum Testing

1. Zweck

Diese Richtlinie legt die Mindeststandards für Validierung und Testing von KI-Modellen bei [Name der Organisation] fest. Sie spezifiziert, was getestet werden muss, wer die Tests durchführt, wann Tests erforderlich sind und welche Nachweise erbracht werden müssen. Ziel ist es, Fehler, Verzerrungen und Leistungsprobleme vor dem Erreichen der Produktion zu erkennen und Verschlechterungen nach der Bereitstellung aufzuspüren.

2. Geltungsbereich

Diese Richtlinie gilt für:

Alle KI- und Machine-Learning-Modelle vor der Erstbereitstellung.
Alle Modellaktualisierungen, Retrainings oder Feinabstimmungen vor der Überführung in die Produktion.
Alle in organisatorische Systeme integrierten Drittanbietermodelle.
Alle Modelle in der Produktion (laufende Überwachung und periodische Revalidierung).

3. Testdimensionen

Jedes KI-Modell muss in den folgenden Dimensionen bewertet werden. Die Testtiefe ist proportional zur Risikoklassifizierung.

3.1 Funktionale Leistung

Genauigkeit, Präzision, Recall, F1 oder gleichwertige, für die Aufgabe geeignete Metriken.
Leistung gemessen an einem zurückgehaltenen Testdatensatz, der nicht während des Trainings oder der Hyperparameter-Abstimmung verwendet wurde.
Vergleich mit einer Baseline (vorherige Modellversion, einfache Heuristik oder menschliche Leistung).
Akzeptanzschwellen werden vor Beginn der Tests definiert, nicht nach Durchsicht der Ergebnisse.

3.2 Bias und Fairness

Leistung aufgeschlüsselt nach geschützten Gruppen (Geschlecht, Alter, Ethnizität, Behinderung), wo anwendbar und wo Daten dies ermöglichen.
Analyse disparater Auswirkungen: Erzeugt das Modell wesentlich unterschiedliche Ergebnisse für verschiedene Gruppen?
Statistische Fairness-Metriken (z. B. Equalized Odds, Demographic Parity, Kalibrierung) werden basierend auf dem Anwendungsfall ausgewählt.
Hochrisiko-Systeme erfordern dokumentierte Bias-Tests mit in der Modellkarte erfassten Ergebnissen.

3.3 Sicherheits- und adversariale Tests

Prompt-Injection- und Jailbreak-Tests für LLM-basierte Systeme.
Adversariale Eingabetests: Erzeugt das Modell bei absichtlich gestalteten Eingaben gefährliche oder unerwartete Ausgaben?
Bewertung von Data Poisoning: Könnten die Trainingsdaten manipuliert worden sein?
Risikobewertung für Modellextraktion und -inversion bei hochwertigen Modellen.
Lieferkettenüberprüfung: Stammen Modellabhängigkeiten (Bibliotheken, vortrainierte Gewichte) aus vertrauenswürdigen Quellen?

3.4 Zuverlässigkeits- und Stresstests

Verhalten bei Grenzfällen, ungewöhnlichen Eingaben und Out-of-Distribution-Daten.
Leistung unter Last (Latenz, Durchsatz) bei erwarteten und Spitzenvolumen.
Graceful Degradation: Fällt das System sicher aus, wenn es auf Bedingungen außerhalb seines Betriebsbereichs trifft?
Rollback-Testing: Kann das System ohne Datenverlust oder Serviceunterbrechung auf die vorherige Version zurückgesetzt werden?

3.5 Datenqualitätsvalidierung

Trainings-, Validierungs- und Testdatensätze auf keine Überschneidung überprüft (Data-Leakage-Prüfung).
Datenqualitätskennzahlen (Vollständigkeit, Genauigkeit, Aktualität) bestätigt gemäß Standards der KI-Trainingsdaten-Beschaffungsrichtlinie.
Merkmalsverteilungen in der Produktion mit den Trainingsdatenverteilungen verglichen (Drift-Baseline).

4. Unabhängige Validierung

Für Hochrisiko-KI-Systeme muss die Validierung durch eine vom Entwicklungsteam unabhängige Stelle durchgeführt werden:

Mittel- und Niedrigrisiko-Systeme können vom Modellverantwortlichen mit Peer-Review validiert werden.

Der Validator darf nicht am Modelldesign, der Entwicklung oder dem Training beteiligt gewesen sein.
Der Validator hat Zugang zu Testdaten, Modelldokumentation und Testinfrastruktur.
Validierungsergebnisse werden direkt an den KI-Governance-Verantwortlichen berichtet, nicht durch das Entwicklungsteam gefiltert.
Der Validator kann ein internes Team (z. B. Risiko, Audit) oder ein externer Prüfer sein.

5. Wann Testing erforderlich ist

Auslöser	Testumfang
Erstbereitstellung (neues Modell)	Alle 5 Dimensionen. Unabhängige Validierung bei Hochrisiko.
Modell-Retraining oder Feinabstimmung	Leistung, Bias und Datenqualität. Sicherheit bei Architekturänderung.
Datenpipeline-Änderung	Datenqualitätsvalidierung und Drift-Prüfung.
Umgebungsänderung (Infrastruktur, Abhängigkeiten)	Zuverlässigkeits- und Stresstests.
Periodische Revalidierung	Vierteljährlich bei Hochrisiko, halbjährlich bei Mittel, jährlich bei Niedrig.
Nach Vorfall	Gezielte Tests basierend auf der Ursache des Vorfalls.

6. Testnachweise und Dokumentation

Jede Validierung muss einen Testbericht erstellen, der umfasst:

Testberichte werden in der Nachweisbibliothek gespeichert und mit der Modellkarte im KI-Inventar verknüpft.

Modellkennung und getestete Version.
Testdatum und Identität des Testers.
Testdatenbeschreibung (Quelle, Größe, Aufteilungsmethodik).
Gemessene Metriken und erzielte Ergebnisse.
Pass/Fail-Bestimmung gegen vordefinierte Schwellenwerte.
Bias-Testergebnisse mit demographischen Aufschlüsselungen (wo anwendbar).
Sicherheitstestergebnisse und identifizierte Schwachstellen.
Feststellungen, Empfehlungen und erforderliche Behebungsmaßnahmen.
Abzeichnung durch den Validator.

7. Produktionsüberwachung

Nach der Bereitstellung muss die laufende Überwachung verfolgen:

Wesentlicher Drift oder Leistungsverschlechterung löst einen Revalidierungszyklus gemäß Abschnitt 5 aus.

Modellleistung gegen vereinbarte Metriken (Warnung bei Verschlechterung über definierte Schwellenwerte hinaus).
Eingabedatenverteilungs-Drift (Feature-Drift, Concept-Drift).
Ausgabeverteilungsänderungen, die auf eine Modellverhaltensverschiebung hindeuten können.
Fairness-Metriken im Zeitverlauf (treten nach der Bereitstellung Bias-Muster auf?).
Fehlerraten, Latenz und Verfügbarkeit.

8. Testing von Drittanbietermodellen

Für Drittanbietermodelle (APIs, Foundation Models, Anbieterlösungen):

Die Organisation muss eine eigene Bewertung durchführen, auch wenn der Anbieter Testergebnisse liefert.
Bewertung mit Daten, die für den Anwendungsfall der Organisation repräsentativ sind, nicht mit generischen Benchmarks.
Test auf Bias unter Verwendung des demographischen Kontexts der Organisation.
Bewertung von Prompt-Injection- und Sicherheitsrisiken für LLM-basierte Dienste.
Erneutes Testen bei Modellaktualisierungen des Anbieters (Änderungsbenachrichtigungen vertraglich anfordern).

9. Rollen und Verantwortlichkeiten

Rolle	Test-Verantwortlichkeiten
Modellverantwortlicher	Definiert Akzeptanzkriterien, koordiniert Tests, handelt auf Feststellungen, zeichnet Mittel-/Niedrigrisiko-Ergebnisse ab.
Entwicklungsteam	Führt funktionale, Bias- und Datenqualitätstests durch. Dokumentiert Ergebnisse.
Unabhängiger Validator	Validiert Hochrisiko-Systeme. Berichtet Feststellungen direkt an KI-Governance-Verantwortlichen.
Sicherheitsteam	Führt adversariale, Prompt-Injection- und Lieferkettentests durch.
KI-Governance-Verantwortlicher	Überprüft Testberichte, verfolgt Revalidierungszeitpläne, eskaliert Ausfälle.

10. Regulatorische Ausrichtung

EU AI Act: Artikel 9 (Risikomanagement einschließlich Testing), Artikel 10 (Datenqualität), Artikel 15 (Genauigkeit und Zuverlässigkeit).
ISO/IEC 42001: Abschnitt 8.4 (Verifizierung und Validierung von KI-Systemen).
NIST AI RMF: MEASURE-Funktion (MS-1 bis MS-4: Bewertungsmethoden und -metriken).
OWASP AI Testing Guide: Sicherheits-, Datenschutz- und verantwortungsvolle KI-Test-Säulen.

11. Überprüfung

Diese Richtlinie wird jährlich oder bei Auslösung durch neue Testmethoden, regulatorische Änderungen oder Muster bei Validierungsfehlern überprüft.

Dokumentenlenkung

Feld	Wert
Richtlinienverantwortlicher	[KI-Governance-Verantwortlicher]
Genehmigt durch	[KI-Governance-Ausschuss]
Inkrafttreten	[Datum]
Nächste Überprüfung	[Datum + 12 Monate]
Version	1.0
Klassifizierung	Intern