LLM-Evaluierung

Die LLM-Evaluierung ist die Praxis, systematisch zu testen, was ein großes Sprachmodell erzeugt, damit Sie vor und nach dem Einsatz feststellen können, ob es genau, sicher und für die Aufgabe geeignet ist. Weil diese Modelle offenen Text statt eines einzigen korrekten Labels erzeugen, können Sie sie nicht mit einer einzigen Genauigkeitszahl beurteilen. Die Evaluierung muss mehrere Dimensionen abdecken, oft mit einer Mischung aus automatischer Bewertung und menschlicher Prüfung.

Der Grund, warum dies so viel Aufmerksamkeit erhält, ist, dass das Verhalten von LLMs schwer vorhersehbar ist. Dasselbe Modell kann bei einem Prompt hilfreich und bei einem leicht abgewandelten selbstbewusst falsch sein. Ohne strukturierte Evaluierung liefern Teams nach Bauchgefühl aus und entdecken Fehler erst im Produktivbetrieb, was Governance-Rahmenwerke gerade verhindern wollen.

Was gemessen wird

Eine brauchbare LLM-Evaluierung betrachtet mehrere Eigenschaften, weil ein Modell bei einer gut und bei einer anderen schlecht abschneiden kann.

Korrektheit. Stimmt die Antwort mit dem erwarteten Ergebnis oder mit bekannten Fakten überein? Für Aufgaben mit einer richtigen Antwort ist das die zentrale Kennzahl.

Quellentreue. Bleibt die Antwort in Systemen, die Kontext liefern, etwa Retrieval-augmented Generation, in der bereitgestellten Quelle verankert, statt unbelegte Behauptungen hinzuzufügen? Eine nicht quellentreue Antwort ist eine Halluzination, auch wenn sie plausibel klingt.

Halluzinationsrate. Wie oft behauptet das Modell Dinge, die nicht wahr oder nicht belegt sind? Das ist eine der wichtigsten Sicherheitseigenschaften für jede faktenbasierte Nutzung.

Verzerrung. Behandelt das Modell Gruppen auf eine nicht gerechtfertigte Weise unterschiedlich, etwa indem es systematisch andere Antworten anhand von Namen, Geschlecht oder anderen geschützten Merkmalen erzeugt?

Toxizität. Erzeugt das Modell schädliche, belästigende oder anderweitig inakzeptable Inhalte, auch wenn es feindlich angeregt wird?

Relevanz und Nützlichkeit. Geht die Antwort tatsächlich auf die Frage ein, im richtigen Detailgrad und im erwarteten Format?

Teams wählen die Dimensionen, die für ihren Anwendungsfall zählen, und definieren für jede Kennzahlen, statt einer einzigen Zahl hinterherzujagen.

Wie die Evaluierung durchgeführt wird

Es gibt drei gängige Ansätze, die meist kombiniert werden.

Referenzbasierte Bewertung. Sie vergleichen die Ausgabe des Modells mit einer bekannten korrekten Antwort, mittels exakter Übereinstimmung, Überlappungsmaßen oder Ähnlichkeit. Das funktioniert, wenn es ein klares Ziel gibt, hat aber Probleme bei offenen Antworten, bei denen viele Formulierungen gültig sind.

Menschliche Prüfung. Menschen bewerten Ausgaben anhand eines Bewertungsschemas. Das ist der vertrauenswürdigste Ansatz für feinkörnige Eigenschaften wie Nützlichkeit und Ton, aber langsam und teuer, sodass er meist auf Stichproben angewandt wird.

LLM-as-a-judge. Ein separates Sprachmodell bewertet Ausgaben anhand von Kriterien, die Sie definieren, etwa um Quellentreue zu bewerten oder Toxizität zu erkennen. Das skaliert weit besser als die menschliche Prüfung und korreliert recht gut, wenn das Bewertungsschema klar ist. Es hat Grenzen: Bewertungsmodelle können verzerrt, inkonsistent und manipulierbar sein, daher kalibrieren Teams sie an menschlichen Bewertungen und behandeln ihre Werte nicht als Grundwahrheit.

Die meisten ausgereiften Aufbauten nutzen referenzbasierte Kennzahlen, wo Antworten deterministisch sind, einen LLM-Richter für die Skalierung und menschliche Prüfung an Stichproben, um den Richter ehrlich zu halten.

Einen Evaluierungssatz aufbauen

Eine gute Evaluierung hängt von guten Testdaten ab. Teams stellen einen Datensatz repräsentativer Eingaben zusammen, einschließlich gewöhnlicher Fälle, Randfälle und feindlicher Prompts, die Fehler provozieren sollen. Für viele Dimensionen halten sie zusätzlich eine erwartete Antwort oder ein Bewertungsschema fest.

Der Satz sollte die reale Nutzung und die Fehlerarten widerspiegeln, die tatsächlich schaden würden: die Fragen, die Nutzer stellen, die Eingaben, die zuvor Probleme verursacht haben, und die Kategorien, in denen eine falsche Antwort Folgen hat. Ein statischer Satz, der bei jeder Modelländerung läuft, macht aus der Evaluierung einen Regressionstest, sodass Sie sehen können, ob ein Update etwas besser oder schlechter gemacht hat.

Warum Governance und Aufsichtsbehörden Nachweise aus der Evaluierung verlangen

Die Evaluierung ist nicht nur eine technische Annehmlichkeit, sie wird zunehmend zum Nachweis, dass ein System getestet wurde.

Nach dem EU AI Act müssen Hochrisikosysteme auf Genauigkeit, Robustheit und Widerstandsfähigkeit getestet werden, und diese Tests müssen dokumentiert sein. Evaluierungsergebnisse sind ein naheliegender Teil der technischen Dokumentation, die zeigt, dass das System wie behauptet funktioniert und auf einschlägige Risiken geprüft wurde.

ISO 42001, der Standard für KI-Managementsysteme, erwartet, dass Organisationen Leistungskriterien definieren, dagegen testen und Aufzeichnungen als Teil der kontinuierlichen Verbesserung führen. Die Evaluierung ist die Art, wie Sie diese Aufzeichnungen erzeugen.

Das [NIST AI Risk Management Framework](/de/lexicon/nist-ai-risk-management-framework-rmf) verlangt ähnlich, KI-Risiken zu messen, was bedeutet, definierte Kennzahlen und Testergebnisse zu haben, nicht bloße Zusicherungen.

Für Governance-Teams ist die Botschaft durchgängig: Definieren Sie, wie Gutes aussieht, testen Sie darauf, schreiben Sie die Ergebnisse auf und testen Sie erneut, wenn sich das Modell oder seine Nutzung ändert. Ein Prüfer will den Evaluierungssatz, die Kennzahlen, die Werte und den Nachweis sehen, dass Fehler behoben wurden.

FAQ

Warum kann ich nicht einfach die Genauigkeit zur Evaluierung eines LLM nutzen?

Weil die meisten LLM-Ausgaben offener Text sind, kein einziges korrektes Label, sodass eine einzige Genauigkeitszahl das Meiste verfehlt, worauf es ankommt. Ein Modell kann bei Fakten genau und dennoch verzerrt, unter Druck toxisch oder seinen Quellen gegenüber untreu sein. Eine brauchbare Evaluierung misst mehrere Dimensionen und stimmt jede auf die Art ab, wie das Modell tatsächlich genutzt wird.

Was ist LLM-as-a-judge?

Es bedeutet, ein separates Sprachmodell zu nutzen, um Ausgaben anhand von Kriterien zu bewerten, die Sie definieren, etwa Quellentreue oder Toxizität. Es skaliert weit besser als die menschliche Prüfung und funktioniert recht gut, wenn das Bewertungsschema klar ist. Der Haken ist, dass Bewertungsmodelle verzerrt, inkonsistent oder manipulierbar sein können, daher kalibrieren Sie sie an menschlichen Bewertungen, statt ihren Werten blind zu vertrauen.

Was ist der Unterschied zwischen Korrektheit und Quellentreue?

Korrektheit fragt, ob die Antwort faktisch richtig gegenüber einer bekannten Wahrheit ist. Quellentreue fragt, ob die Antwort im konkreten Kontext verankert bleibt, den das System bereitgestellt hat, etwa abgerufene Dokumente, ohne unbelegte Behauptungen hinzuzufügen. Eine Antwort kann einer falschen Quelle treu oder allgemein korrekt sein und dabei von der Quelle abdriften, daher lohnt es sich, in Retrieval-Systemen beide zu messen.

Wie oft sollte ich ein Modell evaluieren?

Vor dem Einsatz und erneut, sobald sich das Modell, seine Prompts oder seine Datenquellen ändern. Einen festen Evaluierungssatz bei jeder Änderung laufen zu lassen macht daraus einen Regressionstest, sodass Sie sehen können, ob ein Update das Verhalten verbessert oder verschlechtert hat. Hochrisiko-Anwendungen rechtfertigen eine laufende Evaluierung im Produktivbetrieb, nicht nur eine einmalige Prüfung.

Wie evaluiere ich Verzerrung und Toxizität?

Nutzen Sie gezielte Testsätze: für Verzerrung Eingaben, die über geschützte Merkmale variiert werden, um nicht gerechtfertigte Unterschiede aufzudecken, und für Toxizität feindliche Prompts, die schädliche Ausgaben provozieren sollen. Bewerten Sie mit Klassifikatoren oder einem LLM-Richter und bestätigen Sie mit menschlicher Prüfung an Stichproben. Der Punkt ist, gezielt nach diesen Fehlern zu suchen, statt zu hoffen, dass sie nicht auftreten.

Welche Nachweise erwarten Aufsichtsbehörden aus der Evaluierung?

Sie wollen sehen, dass Sie definiert haben, was gute Leistung bedeutet, dagegen getestet und die Ergebnisse dokumentiert haben. Für den EU AI Act heißt das Genauigkeits- und Robustheitstests in der technischen Dokumentation. Für ISO 42001 heißt das aufgezeichnete Leistungskriterien und Testergebnisse. Die Artefakte sind Ihr Evaluierungssatz, Ihre Kennzahlen, Ihre Werte und der Nachweis, dass Fehler behoben wurden.

Zusammenfassung

Die LLM-Evaluierung ist das systematische Testen von Modellausgaben über Dimensionen wie Korrektheit, Quellentreue, Halluzination, Verzerrung, Toxizität und Relevanz, weil keine einzige Genauigkeitszahl erfasst, wie sich ein offenes Modell verhält. Teams kombinieren referenzbasierte Bewertung, menschliche Prüfung und LLM-as-a-judge und lassen einen repräsentativen Evaluierungssatz als Regressionstest laufen, sobald sich das Modell oder seine Nutzung ändert. Über den technischen Nutzen hinaus erzeugt die Evaluierung den Nachweis, den die Governance verlangt: Der EU AI Act, ISO 42001 und das NIST AI RMF erwarten allesamt definierte Kennzahlen, dokumentierte Testergebnisse und den Beleg, dass erkannte Fehler behoben wurden.

LLM-Evaluierung

LLM-Evaluierung

Was gemessen wird

Wie die Evaluierung durchgeführt wird

Einen Evaluierungssatz aufbauen

Warum Governance und Aufsichtsbehörden Nachweise aus der Evaluierung verlangen

FAQ

Warum kann ich nicht einfach die Genauigkeit zur Evaluierung eines LLM nutzen?

Was ist LLM-as-a-judge?

Was ist der Unterschied zwischen Korrektheit und Quellentreue?

Wie oft sollte ich ein Modell evaluieren?

Wie evaluiere ich Verzerrung und Toxizität?

Welche Nachweise erwarten Aufsichtsbehörden aus der Evaluierung?

Zusammenfassung

Verwandte Einträge

KI-Audit-Checkliste

KI-Audit-Umfang

KI-Modell-Audit-Trail

Auditierbarkeit von KI-Systemen

Zertifizierung von KI-Systemen

Mit VerifyWise umsetzen

VerifyWise

LLM-Evaluierung in Ihrer Organisation umsetzen