Tool

Data Collection Bias Assessment

Voorkomen is beter dan genezen! Daarom bieden wij jullie het Data Collection Bias Assessment formulier aan. Aan de hand van dit formulier leg je vanaf het begin van de datacollectie enkele keuzes vast zodat je eventuele vooroordelen in een vroeg stadium kan ontdekken.

Welk soort vooroordelen bedoelen we hiermee?

Er zijn verschillende soorten vooroordelen of biases. Friedman en Nissenbaum stelden 3 vooroordelen voor die zij zagen terugkomen in algoritmes. Deze vooroordelen zijn niet enkel van toepassing bij algoritmes, maar ook bij ook bij artificiële intelligentie.

  1. Pre-existing bias: een vooroordeel dat voortkomt vanuit sociale instituties, praktijken en meningen.
  2. Technical bias: een vooroordeel gerelateerd aan technische limieten en benodigdheden.
  3. Emergent bias: een vooroordeel dat ontstaat door het gebruik van een algoritme.

Het Data Collection Bias Assessment formulier kan je helpen de eerste 2 vooroordelen zichtbaar te maken. Het biedt je de mogelijkheid om de technische limieten te bespreken zonder dat je de data die als basis dient voor je AI-systeem hoeft te delen. Verder laat het formulier je reflecteren over je team en de mogelijke vooroordelen die aanwezig zijn in je team. Je kan dit formulier ook gebruiken als een soort van bijsluiter naar de buitenwereld. Zo weet de buitenwereld of het AI-systeem op de juiste data is getraind om te worden gebruikt in bijvoorbeeld een nieuw project.

Benieuwd naar het formulier? Lees nog even onderstaande handleiding en ga ermee aan de slag.

Handleiding

Het Data Collection Bias Assessment formulier is niet moeilijk te gebruiken. Elke vraag (na de inleiding) geeft ook een voorbeeldantwoord mee. In deze handleiding bekijken we kort de verschillende elementen van het formulier.

Voorbeeld

Het voorbeeld gebruikt in het formulier is een onderzoeksproject over stress bij administratief personeel. De data collectie gebeurde via smart watches, patches en enquêtes. We gebruiken dit project als voorbeeld om te tonen hoe het formulier kan worden ingevuld.

Inleiding

Dit is een korte inleiding die snel kan worden ingevuld en als kader voor de rest van het formulier functioneert. Dit kan je helpen om de onderzoeksvraag, het team en het algemene doel van het project te omschrijven.

Doel van het algoritme

Hoewel het doel van het project al is omschreven in de inleiding, is het AI-gerelateerde deel vaak maar een deel van het project. Daarom is het noodzakelijk om ook over het algoritme specifieke informatie te verschaffen: wat is het doel, wat zijn de aannames en wat zijn de verzamelinstrumenten?

Ontwerp van het algoritme

Hier wordt gevraagd naar informatie die kan helpen om de keuzes te beschrijven die van belang waren bij het ontwerpen van het algoritme. Het is immers mogelijk dat deze informatie de beslissing van een nieuwe gebruiker kan beïnvloeden, bijvoorbeeld als blijkt dat specifieke technische vereisten (zoals de aanschaf van smart watches) noodzakelijk zijn.

Methodes en materialen

Deze sectie gaat over de methodes en materialen waarmee data zal worden verzameld. De informatie in verband met de validatie van de keuzes hieromtrent laat toe om de sterktes en zwaktes van de gebruikte instrumenten te evalueren.

'Sampling parameters'

De parameters op basis waarvan de dataset wordt samengesteld, hoe de data wordt verzameld en hoe je vooroordelen/biases kan vermijden, vormen de basis van deze sectie. De vragen staan je toe om je ideale dataset te omschrijven, maar ook hoe de dataset er in realiteit zal uitzien, en om in te schatten in hoeverre de imperfecties in de eigenlijke dataset de algoritmes kunnen beïnvloeden.

Risico op vooroordelen/biases

In deze sectie kan je evalueren of en hoe reeds aanwezige vooroordelen/biases in je dataset een probleem kunnen vormen in je gehele project.

Aan het einde van het formulier kan je drie bijlagen terugvinden die je helpen bij het beantwoorden van enkele vragen in het formulier. In het formulier wordt aangegeven wanneer je de bijlagen moet gebruiken.