How AI systems are assessed or tested.
21 ressources
Modèle et conseils pour réaliser des évaluations d'impact sur les droits fondamentaux comme l'exige le règlement européen sur l'IA pour les systèmes d'IA à haut risque. Il aide les organisations à évaluer les impacts potentiels sur les droits fondamentaux et à documenter les mesures d'atténuation.
L'outil d'évaluation d'impact algorithmique du Canada aide les ministères fédéraux à évaluer et atténuer les risques associés aux systèmes de décision automatisés. Il attribue un niveau d'impact (I-IV) basé sur les effets potentiels du système sur les individus et la société.
Un framework unifié pour évaluer les modèles de langage sur des centaines de tâches. Le LM Evaluation Harness fournit des capacités de benchmarking standardisées pour évaluer les capacités, la sécurité et les propriétés d'alignement des modèles.
La série ISO/IEC 25000 (SQuaRE) fournit un cadre pour les exigences et l'évaluation de la qualité des produits logiciels. Elle établit des modèles de qualité, des métriques et des processus d'évaluation applicables aux systèmes d'IA en tant que produits logiciels.
Un modèle pratique pour évaluer systématiquement les systèmes d'IA du concept initial au déploiement réel. Le guide couvre l'évaluation des risques, bénéfices et impacts et sert de manuel opérationnel pour les organisations implémentant des systèmes d'IA.
Ce modèle fournit une liste structurée de questions relatives aux problèmes de protection des données que les organisations devraient considérer avant de mener une analyse d'impact relative à la protection des données. Il sert de guide pratique pour identifier et évaluer les risques de confidentialité dans les activités de traitement des données.
Le modèle de Microsoft pour mener des évaluations d'impact d'IA responsable afin d'évaluer les systèmes d'IA par rapport aux objectifs et principes d'IA responsable. Le modèle fournit des conseils structurés pour évaluer quels objectifs d'IA responsable s'appliquent à des systèmes d'IA spécifiques et évaluer leurs impacts potentiels.
Un outil de questionnaire d'évaluation des risques obligatoire qui soutient la Directive sur la prise de décision automatisée du Conseil du Trésor du Canada. L'outil détermine le niveau d'impact des systèmes de décision automatisés à travers l'évaluation des risques et les mesures d'atténuation.
Ce rapport examine le processus d'évaluation d'impact algorithmique (AIA) du Canada à travers des entretiens avec les membres de l'équipe de supervision du Conseil du Trésor et un avocat canadien en immigration. Il fournit des insights sur le fonctionnement pratique du cadre AIA et ses impacts réels sur la prise de décision algorithmique gouvernementale, particulièrement dans les cas d'immigration.
Le cadre de gestion des risques de l'IA du NIST est un cadre volontaire conçu pour aider les organisations à intégrer des considérations de fiabilité dans les produits, services et systèmes d'IA. Il fournit des conseils pour la conception, le développement, l'utilisation et l'évaluation des technologies d'IA avec un focus sur la gestion des risques et les pratiques d'IA responsable.
Un guide complet d'évaluation des risques développé par le UC AI Council pour aider à évaluer les systèmes d'IA et leurs risques potentiels dans les contextes universitaires. Le guide fournit des méthodologies structurées pour évaluer l'entraînement des modèles d'IA, les risques de biais, les processus de développement et les procédures de validation pour les déploiements d'IA institutionnels.
Un guide pratique pour mener des évaluations des risques de l'IA qui couvre l'identification et l'évaluation de la probabilité de préjudice des systèmes d'IA. La ressource fournit des méthodologies pour implémenter des mesures d'atténuation et documenter les processus d'évaluation des risques pour la conformité de gouvernance.
Un cadre complet développé par l'Institut des Auditeurs Internes pour auditer les systèmes et implémentations d'intelligence artificielle. Le cadre fournit des conseils et méthodologies pour que les auditeurs internes évaluent les risques, contrôles et structures de gouvernance liés à l'IA au sein des organisations.
Une liste de contrôle d'audit complète développée par le Comité européen de la protection des données pour évaluer les algorithmes d'IA basés sur l'apprentissage automatique. Le document couvre le cycle de vie complet de l'IA incluant l'entraînement des algorithmes, le pré-traitement et les étapes d'implémentation opérationnelle du point de vue du traitement des données.
Une liste de contrôle et un cadre complets pour auditer les systèmes d'IA, se concentrant sur les procédures d'évaluation technique et les exigences de conformité. La ressource met l'accent sur la construction de pipelines de tests automatisés pour la surveillance continue des performances des systèmes d'IA et de la qualité des données dans les environnements CI/CD.
Un guide étape par étape qui explique comment utiliser les métriques d'équité pour détecter et quantifier les biais dans les modèles d'IA. La ressource aide les praticiens à identifier où les systèmes d'IA peuvent causer un traitement disparate contre certains groupes et fournit des méthodes pour construire des systèmes d'IA plus équitables.
Cette ressource fournit des conseils sur l'évaluation des modèles d'apprentissage automatique pour l'équité et les biais en utilisant la plateforme Vertex AI de Google Cloud. Elle explique comment les modèles injustes peuvent causer des préjudices systémiques aux groupes sous-représentés et offre des métriques d'évaluation spécifiques pour détecter les biais pendant les processus de collecte de données et d'évaluation post-entraînement.
Cet article de recherche présente une revue de portée analysant les techniques d'équité dans les applications d'IA clinique et identifie les lacunes probantes dans les méthodologies actuelles. L'étude examine les approches d'équité de groupe, les métriques d'équité des résultats et diverses méthodes d'atténuation des biais utilisées dans les systèmes d'IA de santé.
Documentation technique pour évaluer les modèles d'IA en utilisant la plateforme Vertex AI de Google Cloud. Couvre les méthodes pour exécuter des tâches d'inférence par lots et préparer des données de vérité terrain pour l'évaluation des modèles en utilisant les approches AutoML et d'entraînement personnalisé.
OLMES est un cadre standardisé pour des évaluations reproductibles de modèles de langage qui est ouvert, pratique et entièrement documenté. Il peut être appliqué aux classements et bases de code d'évaluation existants pour assurer une évaluation cohérente et fiable des modèles d'IA.
DeepEval est un cadre open source conçu pour évaluer et tester les systèmes de grands modèles de langage. Il fournit une interface simple à utiliser similaire à Pytest mais spécialisée pour les tests unitaires des sorties et performances des LLM.