Lukas Vermeer, director of experimentation bij Booking.com, presenteerde tijdens CH2019 over de truc voor het doen van betere experimenten, namelijk sample ratio mismatch (SRM).
Bij een sample ratio mismatch komt de steekproefverhouding niet overeen met het ontwerp van een experiment. De verdeling tussen control en variant is nooit exact 50/50 en met een SRM-check controleer je of dit verschil komt door toeval of niet. Lukas ging tijdens zijn presentatie in op de vragen: waarom is het belangrijk om op SRM te checken? Hoe weet je of er een SRM is? Wat is de oorzaak? En wat kan je ertegen doen?
Waarom is het belangrijk om op SRM te checken?
Stel dat in de variant een specifiek segment het heel goed doet t.o.v. control en dat deze bezoekers veel vaker aanwezig zijn in de variant t.o.v. control. Dat specifieke segment is dan oververtegenwoordigd en vergroot het positieve effect. Als het segment te weinig aanwezig is in de variant, dan wordt het effect van het segment juist verkleind omdat het ondervertegenwoordigd is. SRM kan dus leiden tot onbetrouwbare resultaten.
Lukas gaf hiervan een goed voorbeeld in het paper: ‘The pitfalls of experimenting on the web’. Hierin voeren ze lachwekkende experimenten uit, waarbij ze de uitkomst van het experiment konden voorspellen. Dit wordt veroorzaakt door een onevenredige verdeling in een bepaald segment.
Hoe weet je of er een SRM is?
SRM is overal! En het is een van de grootste problemen bij A/B-testen en in de wetenschap. Veel mensen checken alleen nog niet op SRM. Dit werd ook erg duidelijk toen Lukas de zaal vroeg wie er SRM-checks deed en er maar een paar mensen hun hand opstaken. Er zitten gemiddeld tussen 6% en 10% SRM-fouten zitten in testen (bij Linkedin: 10%, Microsoft: 6% en bij Booking nog minder), dus genoeg reden om het te checken.
Maar hoe kom je er nu achter of je een SRM hebt? Hiervoor kan je de SRM checker van Lukas gebruiken. Deze SRM-test kan worden gebruikt om problemen met de datakwaliteit te achterhalen die van invloed kunnen zijn op je A/B testen.
Hierbij is de randvoorwaarde een P-waarde onder de 0,001. Dit betekent dat er met een zekerheid van 99,9% gezegd kan worden dat het verschil niet op toeval berust en dat er iets is fout gegaan.
Wat is de oorzaak van SRM?
Lukas gaf onderstaand schema met mogelijke oorzaken van SRM’s.
Wat te doen bij een SRM?
Het eerste wat je wil doen is achterhalen waar de SRM ontstaan is. Lukas gebruikt hiervoor de onderstaande checklist.
Nadat je de oorzaak hebt gevonden en het probleem hebt opgelost, zit er helaas niets anders op dan je test opnieuw starten want de huidige resultaten zijn niet betrouwbaar.
Meer weten over sample ratio mismatch?
Lees meer over SRM in het paper van Lukas: ‘Diagnosing Sample Ratio Mismatch in Online Controlled Experiments: A Taxonomy and Rules of Thumb for Practitioners’.
Daarnaast gaf Lukas het paper van LinkedIn ‘Automatic Detection and Diagnosis of Biased Online Experiments’ en het paper ‘Shining a light on dark patterns’ als leestips mee.