How AI systems are assessed or tested.
21 recursos
Modelo et conseils pour réaliser des Evaluaciones de impactoo sur les droits fondamentaux comme l'exige le règlement européen sur l'IA pour les systèmes d'IA à haut riesgo. Il aide les organizacions à évaluer les impactos potentiels sur les droits fondamentaux et à documenter les mesures d'atténuation.
L'herramienta d'evaluacion d'impacto algorithmique du Canada aide les ministères fédéraux à évaluer et atténuer les riesgos associés aux systèmes de decision automatisés. Il attribue un niveau d'impacto (I-IV) basé sur les effets potentiels du système sur les individus et la société.
Un framework unifié pour évaluer les modelos de langage sur des centaines de tâches. Le LM Evaluation Harness fournit des capacités de benchmarking standardisées pour évaluer les capacités, la seguridad et les propriétés d'alignement des modelos.
La série ISO/IEC 25000 (SQuaRE) fournit un marco pour les exigences et l'evaluacion de la qualité des produits logiciels. Elle établit des modelos de qualité, des métriques et des Procesos d'evaluacion applicables aux systèmes d'IA en tant que produits logiciels.
Un modelo pratique pour évaluer systématiquement les systèmes d'IA du concept initial au despliegue réel. Le guia couvre l'evaluacion des riesgos, bénéfices et impactos et sert de manuel opérationnel pour les organizacions implémentant des systèmes d'IA.
Ce modelo fournit une liste structurée de questions relatives aux problèmes de protection des datos que les organizacions devraient considérer avant de mener une analyse d'impacto relative à la protection des datos. Il sert de guia pratique pour identifier et évaluer les riesgos de confidencialidad dans les activités de traitement des datos.
Le modelo de Microsoft pour mener des Evaluaciones de impactoo d'IA responsable afin d'évaluer les systèmes d'IA par informe aux objectifs et Principios d'IA responsable. Le modelo fournit des conseils structurés pour évaluer quels objectifs d'IA responsable s'appliquent à des systèmes d'IA spécifiques et évaluer leurs impactos potentiels.
Un herramienta de questionnaire d'evaluacion des riesgos obligatoire qui soutient la Directive sur la prise de decision automatisée du Conseil du Trésor du Canada. L'herramienta détermine le niveau d'impacto des systèmes de decision automatisés à travers l'evaluacion des riesgos et les mesures d'atténuation.
Ce informe examine le Procesos d'evaluacion d'impacto algorithmique (AIA) du Canada à travers des entretiens avec les membres de l'equipo de supervision du Conseil du Trésor et un avocat canadien en immigration. Il fournit des insights sur le fonctionnement pratique du marco AIA et ses impactos réels sur la prise de decision algorithmique gouvernementale, particulièrement dans les cas d'immigration.
Le marco de gestion de riesgos de l'IA du NIST est un marco volontaire conçu pour aider les organizacions à intégrer des considérations de fiabilité dans les produits, services et systèmes d'IA. Il fournit des conseils pour la conception, le desarrollo, l'utilisation et l'evaluacion des technologies d'IA avec un focus sur la gestion de riesgos et les pratiques d'IA responsable.
Un guia complet d'evaluacion des riesgos développé par le UC AI Council pour aider à évaluer les systèmes d'IA et leurs riesgos potentiels dans les contextes universitaires. Le guia fournit des méthodologies structurées pour évaluer l'entraînement des modelos d'IA, les riesgos de sesgo, les Procesos de desarrollo et les procédures de validation pour les despliegues d'IA institutionnels.
Un guia pratique pour mener des evaluacions des riesgos de l'IA qui couvre l'identification et l'evaluacion de la probabilité de préjudice des systèmes d'IA. La ressource fournit des méthodologies pour implémenter des mesures d'atténuation et documenter les Procesos d'evaluacion des riesgos pour la cumplimiento de gobernanza.
Un marco complet développé par l'Institut des Auditoriaors Internes pour auditoriaer les systèmes et Implementacions d'inteligencia artificial. Le marco fournit des conseils et méthodologies pour que les auditoriaors internes évaluent les riesgos, controls et structures de gobernanza liés à l'IA au sein des organizacions.
Une liste de control d'auditoria complète développée par le Comité européen de la protection des datos pour évaluer les algoritmos d'IA basés sur l'aprendizaje automatico. Le document couvre le cycle de vie complet de l'IA incluant l'entraînement des algoritmos, le pré-traitement et les étapes d'Implementacion opérationnelle du point de vue du traitement des datos.
Une liste de control et un marco complets pour auditoriaer les systèmes d'IA, se concentrant sur les procédures d'evaluacion technique et les exigences de cumplimiento. La ressource met l'accent sur la construction de pipelines de tests automatisés pour la vigilancia continue des performances des systèmes d'IA et de la qualité des datos dans les environnements CI/CD.
Un guia étape par étape qui explique comment utiliser les métriques d'equidad pour détecter et quantifier les sesgo dans les modelos d'IA. La ressource aide les profesionals à identifier où les systèmes d'IA peuvent causer un traitement disparate contre certains groupes et fournit des méthodes pour construire des systèmes d'IA plus équitables.
Cette ressource fournit des conseils sur l'evaluacion des modelos d'aprendizaje automatico pour l'equidad et les sesgo en utilisant la plataforma Vertex AI de Google Cloud. Elle explique comment les modelos injustes peuvent causer des préjudices systémiques aux groupes sous-représentés et offre des métriques d'evaluacion spécifiques pour détecter les sesgo pendant les Procesos de collecte de datos et d'evaluacion post-entraînement.
Cet article de Investigacion présente une revue de portée analysant les techniques d'equidad dans les applications d'IA clinique et identifie les lacunes probantes dans les méthodologies actuelles. L'étude examine les approches d'equidad de groupe, les métriques d'equidad des résultats et diverses méthodes d'atténuation des sesgo utilisées dans les systèmes d'IA de Salud.
Documentacion technique pour évaluer les modelos d'IA en utilisant la plataforma Vertex AI de Google Cloud. Couvre les méthodes pour exécuter des tâches d'inférence par lots et préparer des datos de vérité terrain pour l'evaluacion des modelos en utilisant les approches AutoML et d'entraînement personnalisé.
OLMES est un marco standardisé pour des evaluacions reproductibles de modelos de langage qui est ouvert, pratique et entièrement documenté. Il peut être appliqué aux classements et bases de code d'evaluacion existants pour assurer une evaluacion cohérente et fiable des modelos d'IA.
DeepEval est un marco codigo abierto conçu pour évaluer et tester les systèmes de grands modelos de langage. Il fournit une interface simple à utiliser similaire à Pytest mais spécialisée pour les tests unitaires des sorties et performances des LLM.