Data Collection Bias Assessment

Introductie

Voorkomen is beter dan genezen! Dat is de logica achter het Data Collection Bias Assessment formulier. Aan de hand van dit formulier leg je vanaf het begin van de datacollectie je keuzes vast, om zo eventuele vooroordelen in een vroeg stadium te ontdekken.

Bias of vooroordelen

Er zijn verschillende soorten vooroordelen of biases die zich kunnen voordoen bij de inzet van algoritmes. Wetenschappers Friedman en Nissenbaum spreken over drie types vooroordelen:

Pre-existing bias: een vooroordeel dat voortkomt vanuit sociale instituties, praktijken en meningen.
Technical bias: een vooroordeel gerelateerd aan technische limieten en benodigdheden.
Emergent bias: een vooroordeel dat ontstaat door het gebruik van een algoritme.

Het Data Collection Bias Assessment formulier kan je helpen de eerste 2 vooroordelen zichtbaar te maken. Het biedt je de mogelijkheid om de technische limieten te bespreken zonder dat je de data die als basis dient voor je AI-systeem hoeft te delen. Verder laat het formulier je reflecteren over je team en de mogelijke vooroordelen die aanwezig zijn in je team. Je kan dit formulier ook gebruiken als een soort van bijsluiter naar de buitenwereld. Zo weet de buitenwereld of het AI-systeem op de juiste data is getraind om te worden gebruikt in bijvoorbeeld een nieuw project.

De tool

De Data Collection Bias Assessment is eenvoudig in gebruik: de tool bestaat uit een reeks van vragen, met telkens ook een voorbeeldantwoord. Elke Hieronder overlopen we kort de verschillende elementen van het formulier.

Inleiding. Dit is een korte inleiding die snel kan worden ingevuld en als kader voor de rest van het formulier functioneert. Dit kan je helpen om de onderzoeksvraag, het team en het algemene doel van het project te omschrijven.
Doel van het algoritme. Hoewel het doel van het project al is omschreven in de inleiding, is het AI-gerelateerde deel vaak maar een deel van het project. Daarom is het noodzakelijk om ook over het algoritme specifieke informatie te verschaffen: wat is het doel, wat zijn de aannames en wat zijn de verzamelinstrumenten?
Ontwerp van het algoritme. Hier wordt gevraagd naar informatie die kan helpen om de keuzes te beschrijven die van belang waren bij het ontwerpen van het algoritme. Het is immers mogelijk dat deze informatie de beslissing van een nieuwe gebruiker kan beïnvloeden, bijvoorbeeld als blijkt dat specifieke technische vereisten (zoals de aanschaf van smart watches) noodzakelijk zijn.
Methodes en materialen. Deze sectie gaat over de methodes en materialen waarmee data zal worden verzameld. De informatie in verband met de validatie van de keuzes hieromtrent laat toe om de sterktes en zwaktes van de gebruikte instrumenten te evalueren.
'Sampling parameters'. De parameters op basis waarvan de dataset wordt samengesteld, hoe de data wordt verzameld en hoe je vooroordelen/biases kan vermijden, vormen de basis van deze sectie. De vragen staan je toe om je ideale dataset te omschrijven, maar ook hoe de dataset er in realiteit zal uitzien, en om in te schatten in hoeverre de imperfecties in de eigenlijke dataset de algoritmes kunnen beïnvloeden.
Risico op vooroordelen/biases. In deze sectie kan je evalueren of en hoe reeds aanwezige vooroordelen/biases in je dataset een probleem kunnen vormen in je gehele project.