Model Transparency : Securite de la chaine d'approvisionnement pour le ML

Resume

Model Transparency est la solution open source de Sigstore au probleme croissant des attaques de chaine d'approvisionnement ML et du suivi de provenance des modeles. Tout comme les packages logiciels ont besoin de signature cryptographique pour verifier leur integrite, les modeles d'apprentissage automatique necessitent des mesures de securite similaires - mais avec des defis uniques autour des artefacts de modeles, de la lignee des donnees d'entrainement et des pipelines de deploiement. Cet outil etend l'infrastructure cryptographique eprouvee de Sigstore pour creer des enregistrements inviolables pour les modeles ML, permettant aux equipes de verifier l'authenticite des modeles, de suivre la provenance et de detecter les modifications non autorisees tout au long du cycle de vie du modele.

Le probleme de securite de la chaine d'approvisionnement ML

La securite logicielle traditionnelle se concentre sur les depots de code et les gestionnaires de packages, mais le ML introduit des vecteurs d'attaque entierement nouveaux. Les modeles peuvent etre empoisonnes pendant l'entrainement, des backdoors peuvent etre integrees dans les poids des modeles et des acteurs malveillants peuvent substituer des modeles legitimes par des versions compromises. Contrairement aux logiciels traditionnels, les modeles ML sont souvent distribues comme des artefacts binaires avec des mecanismes internes opaques, rendant la falsification difficile a detecter.

Model Transparency repond a ces defis en creant des signatures cryptographiques pour les artefacts de modeles a des points cles du pipeline ML - de l'achevement de l'entrainement au deploiement. L'outil s'integre avec les frameworks ML populaires et les registres de modeles, generant automatiquement des attestations verifiables qui incluent les metadonnees du modele, la provenance de l'entrainement et les informations de dependances.

Fonctionnalites et capacites principales

Signature cryptographique de modeles : Exploite la signature basee sur les certificats de Sigstore pour creer des sceaux inviolables pour les fichiers de modeles, assurant que toute modification non autorisee est detectable.
Suivi de provenance : Capture et lie cryptographiquement automatiquement les metadonnees sur les sources de donnees d'entrainement, les versions de framework, les configurations materielles et les procedures d'entrainement aux artefacts de modeles.
Conception axee sur l'integration : Fonctionne avec les toolchains ML existantes incluant MLflow, Weights & Biases, Hugging Face Hub et les principales plateformes cloud ML sans necessiter de refonte des workflows.
Journal de transparence : Toutes les signatures de modeles sont enregistrees dans un journal de transparence public et immuable (similaire a Certificate Transparency pour le PKI web), permettant une visibilite a l'echelle de l'ecosysteme dans la provenance des modeles.
API de verification : Fournit des API simples et des outils CLI pour que les consommateurs en aval verifient l'authenticite des modeles avant le chargement ou le deploiement, avec des resultats clairs reussite/echec.

A qui s'adresse cette ressource

Ingenieurs de plateforme ML construisant des registres de modeles internes et des pipelines de deploiement qui ont besoin d'implementer des controles de securite autour de la distribution des modeles et de prevenir la substitution non autorisee de modeles.
Equipes de securite dans les organisations utilisant des modeles tiers ou operant dans des industries reglementees ou la provenance et la verification d'integrite des modeles sont des exigences de conformite.
Projets ML open source qui distribuent des modeles pre-entraines et veulent fournir aux utilisateurs des garanties cryptographiques sur l'authenticite des modeles et la provenance du build.
Equipes MLOps implementant le CI/CD pour l'apprentissage automatique qui ont besoin d'integrer des points de controle de securite dans les workflows automatises d'entrainement et de deploiement.
Equipes de red team IA et chercheurs etudiant les attaques de chaine d'approvisionnement ML qui ont besoin d'outils pour demontrer les vulnerabilites et valider les controles de securite.

Demarrer avec l'implementation

Commencez par installer le CLI Model Transparency et l'integrer dans votre pipeline d'entrainement de modeles au point ou les artefacts finaux du modele sont sauvegardes. L'outil peut signer les modeles automatiquement dans le cadre de votre workflow MLOps ou etre invoque manuellement pour une signature ad-hoc.

Pour la verification, implementez des controles au moment du chargement du modele dans vos services d'inference ou scripts de deploiement. Le processus de verification est concu pour etre rapide et leger, adapte aux verifications runtime sans impact significatif sur les performances.

Le projet fournit des exemples pour des scenarios courants incluant le deploiement de modeles containerises, l'inference serverless et le deploiement edge ou la connectivite au journal de transparence peut etre intermittente.

Considerations techniques et limitations

Model Transparency necessite une connectivite reseau a l'infrastructure publique de Sigstore pour la signature et la verification, ce qui peut ne pas etre adapte aux environnements air-gapped. Cependant, la feuille de route du projet inclut le support pour les deploiements Sigstore prives.

Les grands fichiers de modeles (modeles transformer de plusieurs Go) necessitent une gestion soigneuse du processus de signature, car l'outil doit calculer des hashes cryptographiques sur l'ensemble de l'artefact du modele. Le projet fournit des conseils pour optimiser cela pour differents backends de stockage.

L'outil se concentre actuellement sur les artefacts de modeles eux-memes plutot que sur la provenance des donnees d'entrainement - bien qu'il puisse enregistrer des metadonnees sur les sources de donnees, il ne fournit pas de garanties cryptographiques sur l'integrite ou la conformite des licences des donnees d'entrainement.

FAQ

Q : Est-ce que cela fonctionne avec des modeles entraines sur des jeux de donnees proprietaires ?

Q : Que se passe-t-il si l'infrastructure Sigstore est indisponible ?
Q : Est-ce que cela peut detecter les backdoors ou l'empoisonnement de modeles ?

Mots-clés

securite chaine d'approvisionnementtransparence MLprovenance des modelesopen sourceoutillage securitegouvernance IA

En bref

Publié

2024

Juridiction

Mondial

Catégorie

Open source governance projects

Accès

Accès public

Plus dans Open source governance projects

VerifyWise - Plateforme open source de gouvernance IA

VerifyWise • 2024

AI Fairness 360 (AIF360)

IBM Research • 2018

InterpretML - Interpretabilite de l'apprentissage automatique

Microsoft Research • 2019

Ressources connexes

ISO/IEC 38507:2022 - Implications de gouvernance de l'utilisation de l'intelligence artificielle

Standards and certifications • ISO

Cadre modèle de gouvernance de l'IA de Singapour

Governance frameworks • PDPC Singapour

Cadre modèle de gouvernance de l'IA 2024

Governance frameworks • IMDA

Model Transparency : Securite de la chaine d'approvisionnement pour le ML

Model Transparency : Securite de la chaine d'approvisionnement pour le ML

Resume

Le probleme de securite de la chaine d'approvisionnement ML

Fonctionnalites et capacites principales

A qui s'adresse cette ressource

Demarrer avec l'implementation

Considerations techniques et limitations

FAQ

Mots-clés

En bref

Plus dans Open source governance projects

Ressources connexes

Construisez votre programme de gouvernance de l'IA