KI-Stückliste (AI-BOM)
Eine KI-Stückliste (AI-BOM) ist ein strukturiertes Verzeichnis jeder Komponente, aus der ein KI-System besteht: der Modelle, der Datensätze, der Bibliotheken, der Abhängigkeiten und der Quellen der Trainingsdaten.
Die Idee stammt direkt von der Software-Stückliste (SBOM), die die quelloffenen und Drittanbieter-Komponenten in einer Software auflistet. Eine SBOM beantwortet die Frage „Was steckt eigentlich in diesem Produkt?" Die AI-BOM erweitert diese Frage um die Teile, die für maschinelles Lernen typisch sind, wo die Modellgewichte und die Daten ebenso wichtig sind wie der Code.
Das ist relevant, weil KI-Systeme zusammengesetzt und nicht von Grund auf geschrieben werden. Ein typischer Einsatz fügt ein Basismodell, mehrere Python-Bibliotheken, einen Feinabstimmungsdatensatz, eine Vektordatenbank und eine Handvoll APIs zusammen. Wenn etwas schiefgeht oder eine Aufsichtsbehörde fragt, woraus Sie es gebaut haben, brauchen Sie eine Aufzeichnung. Ohne sie raten Sie nur.
Für Governance-, Risiko- und Sicherheitsteams wird die AI-BOM zur grundlegenden Einheit der Rechenschaft. Sie können nicht steuern, was Sie nicht sehen, und eine AI-BOM macht die Lieferkette sichtbar.
Warum der SBOM-Vergleich passt und wo er an Grenzen stößt
Die SBOM wurde unter anderem durch Lieferketten-Angriffe bekannt, bei denen eine einzige kompromittierte Abhängigkeit auf Tausende Produkte durchschlug. Aufsichtsbehörden und Einkäufer begannen, eine Zutatenliste zu verlangen, um bekannte Schwachstellen rasch prüfen zu können.
KI-Systeme stehen vor demselben Abhängigkeitsproblem und darüber hinaus. Ein Modell kann Risiken tragen, die im gewöhnlichen Software-Umfeld kein Gegenstück haben: Trainingsdaten mit Urheberrechts- oder Datenschutzproblemen, eine versteckte, in die Gewichte eingebackene Verzerrung, ein Basismodell unbekannter Herkunft oder ein vergifteter Datensatz, der das Verhalten subtil verändert.
Die AI-BOM behält also den Kernzweck der SBOM, die eigenen Zutaten zu kennen, weitet ihn aber. Code-Abhängigkeiten sind nur ein Teil. Die Daten und die Herkunft des Modells sind oft die Teile, die rechtlich und ethisch am schwersten wiegen.
Was eine AI-BOM enthalten sollte
Eine brauchbare AI-BOM geht über eine reine Liste von Paketnamen hinaus. Mindestens sollte sie erfassen:
-
Modelle. Jedes Modell im System, einschließlich Basismodellen und feinabgestimmten Varianten, mit Version, Quelle, Lizenz und Anbieter.
-
Datensätze. Trainings-, Validierungs- und Feinabstimmungsdatensätze, mit ihren Quellen, Lizenzen, Erhebungsdaten und etwaigen bekannten Nutzungseinschränkungen.
-
Herkunft der Trainingsdaten. Woher die Daten stammen, wie sie erhoben wurden, ob sie personenbezogenes oder urheberrechtlich geschütztes Material enthalten und welche Einwilligung oder Lizenz sie abdeckt.
-
Bibliotheken und Frameworks. Frameworks für maschinelles Lernen, Inferenz-Engines und unterstützende Pakete, mit Versionen, so wie eine SBOM sie auflistet.
-
Abhängigkeiten. Transitive Abhängigkeiten, die durch diese Bibliotheken hereingezogen werden, denn eine Schwachstelle drei Ebenen tief ist immer noch eine Schwachstelle.
-
Externe Dienste. APIs, gehostete Modelle und Endpunkte von Drittanbietern, die das System zur Laufzeit aufruft.
-
Konfiguration und Gewichte. Verweise auf Modellgewichte, Checkpoints und zentrale Hyperparameter, die das eingesetzte Artefakt definieren.
Das Ziel ist, dass jemand, der das System nie gesehen hat, die AI-BOM lesen und verstehen kann, woraus es besteht, woher jedes Teil stammt und welche Pflichten damit verbunden sind.
Warum Aufsichtsbehörden und Sicherheitsteams sie erwarten
Mehrere Kräfte laufen zusammen und machen AI-BOMs eher zu einer Erwartung als zu einem Bonus.
Die Regulierung ist eine davon. Der EU AI Act verlangt für Hochrisikosysteme eine ausführliche technische Dokumentation, einschließlich Informationen über Daten und die Komponenten des Systems. Eine AI-BOM ist eine naheliegende Möglichkeit, einen Teil dieser Dokumentation zu erstellen.
Die Sicherheit ist eine weitere. Während KI in den Produktivbetrieb wandert, sondieren Angreifer die KI-Lieferkette: schädliche Modelle, die auf öffentlichen Hubs veröffentlicht werden, vergiftete Datensätze und kompromittierte Bibliotheken. Sicherheitsteams brauchen ein Verzeichnis, um die Gefährdung einzuschätzen, wenn eine neue Schwachstelle oder eine schädliche Komponente bekannt wird.
Der Einkauf ist ein dritter Grund. Käufer fragen Anbieter zunehmend, woraus deren KI-Systeme gebaut sind, bevor sie unterschreiben. Ein Anbieter, der eine AI-BOM vorlegen kann, wirkt weit vertrauenswürdiger als einer, der seinen eigenen Stack nicht belegen kann.
Wie Teams sie erstellen und pflegen
Eine AI-BOM ist nur dann wertvoll, wenn sie aktuell bleibt. Der praktische Ansatz ist, sie als Teil der Build- und Trainings-Pipeline zu erzeugen, statt sie hinterher von Hand zusammenzustellen.
Beginnen Sie damit, das zu erfassen, was Sie ohnehin nachverfolgen. Paketmanager kennen Ihre Bibliotheksversionen. Modellregister kennen Ihre Modellversionen. Datenkataloge kennen Ihre Datensätze. Ein großer Teil einer AI-BOM lässt sich aus Systemen zusammenstellen, die Sie bereits betreiben.
Füllen Sie die Lücken, die die Automatisierung verfehlt, vor allem die Herkunft der Daten. Woher ein Datensatz stammt und welche Lizenz ihn abdeckt, ist oft am schwersten zu rekonstruieren, halten Sie es deshalb im Moment der Erhebung fest.
Versionieren Sie die AI-BOM zusammen mit dem System. Jede wesentliche Änderung, ein neues Basismodell, eine Feinabstimmung, eine ausgetauschte Bibliothek, sollte eine neue AI-BOM erzeugen, damit Sie genau nachvollziehen können, was wann eingesetzt wurde.
Legen Sie sie dort ab, wo die Menschen sie finden, die sie brauchen: Sicherheit, Recht und Compliance, nicht nur das Entwicklungsteam, das sie erstellt hat.
FAQ
Wie unterscheidet sich eine AI-BOM von einer SBOM?
Eine SBOM listet die Softwarekomponenten eines Produkts auf, hauptsächlich Code-Bibliotheken und ihre Abhängigkeiten. Eine AI-BOM schließt diese ein, ergänzt aber die für maschinelles Lernen typischen Teile: Modelle, Datensätze, Quellen der Trainingsdaten, Gewichte und Modellherkunft. Sie können die AI-BOM als Obermenge verstehen, die die Teile eines KI-Systems abdeckt, die ein gewöhnliches Software-Verzeichnis übersehen würde.
Ist eine AI-BOM gesetzlich vorgeschrieben?
Kein einzelnes Gesetz verwendet genau diesen Begriff und schreibt sie vor, doch die zugrunde liegenden Informationen werden zunehmend verlangt. Der EU AI Act fordert für Hochrisikosysteme eine technische Dokumentation, die Daten und Komponenten abdeckt, und Einkaufs- sowie Sicherheitsstandards weisen in dieselbe Richtung. Eine AI-BOM ist ein praktisches Format, um diese Erwartungen zu erfüllen.
Wer ist für die Erstellung der AI-BOM verantwortlich?
In der Regel das Team, das das KI-System baut oder zusammensetzt, in Zusammenarbeit mit Sicherheit, Recht und Daten-Governance. Modellanbieter liefern unter Umständen einen Teil davon für ihre eigenen Modelle, und Betreiber erweitern ihn, um abzudecken, wie sie das System feinabgestimmt, konfiguriert und integriert haben.
Was ist der schwierigste Teil einer AI-BOM?
Die Herkunft der Daten. Bibliotheks- und Modellversionen werden von Werkzeugen nachverfolgt, doch der Ursprung, die Lizenz und der Einwilligungsstatus von Trainingsdaten sind oft schlecht dokumentiert, besonders bei älteren Datensätzen oder Quellen aus dem Web-Scraping. Dies zum Erhebungszeitpunkt zu erfassen ist weit einfacher, als es später zu rekonstruieren.
Hilft eine AI-BOM bei Sicherheitsvorfällen?
Ja. Wenn eine Schwachstelle in einer Bibliothek bekannt wird, ein schädliches Modell auf einem öffentlichen Hub auftaucht oder sich zeigt, dass ein Datensatz vergiftet ist, lässt Sie eine AI-BOM rasch beantworten, ob Ihre Systeme betroffen sind. Ohne sie müssen Sie jedes System manuell untersuchen, was langsam und fehleranfällig ist.
Sollte ich meine AI-BOM mit Kunden teilen?
Das hängt von der Sensibilität ab. Viele Anbieter teilen während des Einkaufs eine Version mit Käufern, um Transparenz zu zeigen, manchmal mit geschwärzten geschützten Details. Intern unterstützt eine vollständigere Version die Sicherheits- und Compliance-Arbeit. Der Grad der Offenlegung ist eine geschäftliche und eine Risikoentscheidung.
Zusammenfassung
Eine KI-Stückliste ist die Zutatenliste eines KI-Systems und erweitert das Konzept der Software-Stückliste auf Modelle, Datensätze, Herkunft der Trainingsdaten, Bibliotheken und Abhängigkeiten. Aufsichtsbehörden, Sicherheitsteams und Käufer erwarten sie zunehmend, weil KI-Systeme aus vielen Teilen Dritter zusammengesetzt sind, von denen jedes seinen eigenen rechtlichen, ethischen und sicherheitsbezogenen Ballast trägt. Die zuverlässigsten AI-BOMs werden automatisch als Teil der Build- und Trainings-Pipeline erzeugt, zusammen mit dem System versioniert gehalten und den Funktionen Sicherheit, Recht und Compliance zur Verfügung gestellt, die darauf angewiesen sind, genau zu wissen, woraus ein KI-System besteht.