Introductie – Unsupervised bias detectie tool


Wat doet de tool?

De tool detecteert groepen waarvoor een algoritme of AI-systeem afwijkend presteert. Naar deze vorm van monitoring wordt verwezen als anomaliedetectie. Voor het detecteren van afwijkende partonen maakt de tool gebruik van clustering. Clustering is een vorm van unsupervised learning. Dit betekent dat er geen gegevens nodig zijn over beschermde kenmerken van gebruikers, zoals geslacht, nationaliteit of etniciteit, om verdacht onderscheid (bias) te detecteren. De metriek aan de hand waarvan onderscheid wordt bepaald kan handmatig worden gekozen en wordt naar verwezen als de gelijkheidsmetriek.

Welke data kan worden verwerkt?

De tool verwerkt alle data in tabel-vorm. Het type data (numerieke, categorische, tijden etc.) wordt automatisch gedetecteerd. Eén kolom moet geselecteerd worden als de gelijkheidsmetriek, welke een numerieke waarde moet zijn. De gebruiker dient aan te aangeven of een hoge of lage waarde van de gelijkheidsmetriek beter is. Voorbeeld: als de gelijkheidsmetriek een foutpercentage betreft dan is een lage waarde beter, terwijl bij nauwkeurigheid een hoge waarde beter is.

Voorbeeld van numerieke dataset:

LeeftijdInkomen...Aantal auto'sGeselecteerd voor controle
3555.000...11
4045.000...00
...............
2030.000...00

Wat zijn de uitkomsten van de tool?

De tool identificeert afwijkende clusters. Een samenvatting van de resultaten wordt beschikbaar gemaakt in een bias analyse-rapport dat als pdf gedownload kan worden. In een .json-bestand kunnen alle geïdentificeerde clusters worden gedownload. De tool richt zich specifiek op het in negatieve zin meest afwijkende cluster en geeft een beschrijving van dit cluster. Deze resultaten zijn het startpunt voor vervolgonderzoek door domeinexperts die een oordeel kunnen vellen of het waargenomen onderscheid daadwerkelijk onwenselijk is. De tool visualiseert ook de uitkomsten.

Overzicht van proces

drawing

How wordt mijn data verwerkt?

De tool is privacyvriendelijk omdat de data alleen in de browser worden verwerkt. De data verlaten je computer en de omgeving van je organisatie niet. De tool gebruikt de rekenkracht van je eigen computer om data te analyseren. Naar deze vorm browser-based software wordt verwezen als local-first. De tool uploadt de data dus niet naar derden, zoals cloudproviders. Instructies over hoe de tool lokaal binnen je eigen organisatie gehost kan worden, inclusief de broncode, vind je in Github.

Gebruik de tool hier beneden ⬇️

Web app – Unsupervised bias detectie tool

Waardeer je het werk van Algorithm Audit? ⭐️ ons op GitHub

Broncode

  • De broncode van het anomaliedetectie-algoritme is beschikbaar op Github en als pip package: pip install unsupervised-bias-detection. !pypi

  • De achitectuur om web apps local-first te gebruiken is ook beschikbaar op Github.

Anolamiedetectie algoritme – Hierarchisch Bias-Aware Clustering (HBAC)

De tool maakt gebruik van het Hierarchisch Bias-Aware Clustering (HBAC) algoritme. HBAC verwerkt invoergegevens volgens het k-means (voor numerieke data) of k-modes (voor categorische data) clustering algoritme. Het HBAC-algoritme is geïntroduceerd door Misztal-Radecka en Indurkhya in een wetenschappelijk artikel gepubliceerd in Information Processing and Management (2021). Onze implementatie van het HBAC-algoritme, inclusief aanvullende methodologische controles om daadwerkelijke bias van ruis te onderscheiden, zoals sample splitting, het toetsen van statistische hypotheses en het meten van clusterstabiliteit, is te vinden in de unsupervised-bias-detection pip package.

Wetenschappelijke paper en auditrapport

De unsupervised bias detectie tool is in de praktijk toegepast om een risicoprofileringsalgoritme van de Dienst Uitvoering Onderwijs (DUO) te auditen. Ons team heeft deze casus gedocumenteerd in een wetenschappelijke paper. De tool identificeerde proxies voor studenten met een niet-Europese migratieachtergrond in het risicoprofileringsalgoritme, specifiek opleidingsniveau en de afstand tussen het adres van de student en dat van hun ouder(s). De resultaten worden ook beschreven in Appendix A van het onderstaande rapport. Dit rapport is op 22-05-2024 naar de Tweede Kamer gestuurd.

    / [pdf]
    / [pdf]

Local-first architectuur


Wat is local-first?

Local-first is het tegenovergestelde van cloud computing: de data wordt niet geüpload naar derden, zoals cloudproviders, en wordt verwerkt door je eigen computer. De data die aan de tool wordt gekoppeld, verlaat je computer of de omgeving van je organisatie dus niet. De tool is privacyvriendelijk omdat de data binnen bestaande bevoegdheden verwerkt kan worden en niet gedeeld hoeft te worden met nieuwe partijen. De unsupervised bias detectie tool kan ook lokaal binnen je organisatie worden gehost. Instructies, inclusief de broncode van de tool, zijn te vinden op Github.

Overzicht van local-first architectuur

drawing

Ondersteund door

Deze tool is ontwikkeld met steun van publieke en filantropische organisaties.

Innovatiebudget Ministerie van Binnenlandse Zaken

2024-25
Beschrijving

In samenwerking met de Dienst Uitvoering Onderwijs (DUO) en het Ministerie van Binnenlandse Zaken heeft Algorithm Audit deze tool ontwikkeld en getest in de periode juli 2024 tot juli 2025 met ondersteuning van Innovatiebudget, een jaarlijkse competitie georganiseerd door het Ministerie van Binnenlandse Zaken. De voortgang van het project werd gedeeld tijdens een bijeenkomst op 13-02-2025.

SIDN Fonds

2024
Beschrijving

In 2024 ondersteunde het SIDN Fonds Algorithm Audit bij het ontwikkelen van een eerste demo van de unsupervised bias detectie tool.

Prijzen en ondersteuning

De tool heeft prijzen ontvangen en wordt ondersteund door verschillende belanghebbenden, waaronder maatschappelijke organisaties, vertegenwoordigers uit de industrie en academici.

Finalist Stanford’s AI Audit Challenge 2023

06-2023
Description

Onder de naam Joint Fairness Assessment Method (JFAM) is de unsupervised bias detectie tool geselecteerd als finalist voor Stanford’s AI Audit Competition 2023.

OECD Catalogue of Tools & Metrics for Trustworthy AI

2024
Description

De unsupervised bias detectie tool maakt deel uit van de Catalogue of Tools & Metrics for Trustworthy AI.

Samenvatting

Belangrijkste punten over de unsupervised bias detectie tool:

  • Kwantitatieve-kwalitatieve onderzoeksmethode: Data-gedreven onderzoek naar bias ter ondersteuning van delibartief en context-afhankelijk oordeel van domeinexperts;
  • Unsupervised bias detectie: Vereist geen toegang tot bijzondere persoonsgegevens (unsupervised learning);
  • Anolamiedetectie: Schaalbare methode gebaseerd op statische analyse;
  • Detecteert complexe bias: Identificeert groepen die structureel afwijkend worden behandeld en geeft een beschrijving van deze groepen, is in staat intersectionele bias te detecteren;
  • Model-agnostic: Werkt voor alle binaire classificatie algoritmen en AI-systemen;
  • Open-source en zonder winstoogmerk: Gebruiksvriendelijke en gratis te gebruiken voor de gehele AI auditing gemeenschap.

Team

Floris Holstege

PhD-kandidaat Machine Learning, Universiteit van Amsterdam

Joel Persson PhD

R&D, Spotify

Kirtan Padh

PhD-kandidaat Causal Inference and Machine Learning, TU München

Krsto Proroković

PhD-kandidaat, Swiss AI Lab IDSIA

Mackenzie Jorgensen PhD

Onderzoeker Alan Turing Institute, Londen

Nieuwsbrief

Blijf op de hoogte van ons werk door je in te schrijven voor onze nieuwsbrief

Nieuwsbrief

Blijf op de hoogte van ons werk door je in te schrijven voor onze nieuwsbrief

Publieke kennisopbouw voor ethische algoritmes