Hoe ziet de na-analyse van je A/B-testen eruit? Hoe onderbouw je het resultaat? In teststatistiek zijn hiervoor twee belangrijke methodes; de frequentistische en de Bayesiaanse teststatistiek. In dit artikel wil ik beide statistische methodes uitlichten en de voor- en nadelen op een rijtje zetten.
Voordat je aan de slag gaat met de resultaten heb je al een aantal stappen gezet. De A/B test zelf, de controle of er genoeg conversies zijn in beide groepen en of de resultaten bruikbaar zijn. Wanneer je dit allemaal gedaan hebt, is het tijd om te bepalen of de variatie (B-groep) beter presteert dan de controle (A-groep).
Frequentistische analyse
Met deze methode bepaal je met een experiment of je variatie significant beter presteert dan je controle. De nulhypothese is dat de groepen gelijk zijn. Dit probeer je te verwerpen door aan te tonen dat de experimentele hypothese waar is (de variatie is beter). In statistiek wordt hierbij vaak een standaard p-waarde gebruikt van 5 procent. Is de p-waarde lager dan 5 procent, dan is het een significant verschil. Zijn de resultaten niet significant beter? Of zelfs slechter? Dan is er geen bewijs dat de variant beter is en behoud je de nulhypothese.
Vind je een significant positief verschil? Dan kun je er vrij zeker van zijn dat je de juiste beslissing maakt om de variatie te implementeren onder de door jouw gestelde voorwaarden. Alleen is er weinig ruimte voor discussie en laat je hierdoor mogelijk grote kansen liggen. In principe geeft de frequentistische methode je een ja of een nee, terwijl de resultaten misschien een stuk genuanceerder zijn.
Bayesiaanse analyse
De Bayesiaanse statistiek zegt; er is een verschil en ik wil weten wat het verschil is. Het is niet het accepteren of verwerpen van de nulhypothese, zoals bij frequentistische statistiek, maar je bepaalt de waarschijnlijkheid dat er een verschil is. De kans dat de variatie verschilt van de controle wordt aangeven in een percentage. Bijvoorbeeld; de kans dat de variatie het verbeterde conversiepercentage haalt, is 80 procent.
Gebruik deze tools van AB Testguide om je experimenten frequentistisch of bayesiaans te toetsen.
Welke kies je?
Ondanks het duidelijke antwoord van een frequentistische test zijn de benodigde statistische kennis, de harde eisen en de daardoor gemiste kansen een groot nadeel. Daarom geef ik persoonlijk de voorkeur aan de Bayesiaanse statistiek.
De Bayesiaanse statistiek levert vrijwel dezelfde uitkomst op, maar is beter behapbaar voor mensen zonder de nodige statistische kennis. Het vertelt je de kans dat er iets kan gebeuren in plaats van het accepteren of verwerpen van de nulhypothese.
Bedenk goed dat bij beide testen het gemeten resultaat niet het daadwerkelijke resultaat is. Daarvoor is veel meer data en onderzoek nodig. Het doel is ook niet om de exacte verbetering te achterhalen, belangrijker is de vraag of de kans op meer conversies groot genoeg is.
Wat levert het op?
Denk aan hoeveel risico je wil nemen en bedenk dat de implementatie van de variatie ook kosten met zich meebrengt. Weeg dit dus altijd af tegen het verwachte voordeel. Bij een kansberekening van boven de 85 procent, bij de Bayesiaanse methode, spreek je van een sterke indicatie dat de variatie beter is en dus is het aan te raden deze te implementeren.
Implementatie is niet altijd nodig of verstandig, soms is extra onderzoek een betere optie. Heb je bijvoorbeeld een resultaat van een test dat 75 procent kans heeft op een positieve verandering, dan is het signaal nog niet heel duidelijk. Kijk dan ook per segment waar dat verwachte verschil vandaan komt. Dan kom je er bijvoorbeeld achter dat de variatie fantastisch werkt op mobiel maar op desktop geen verandering geeft. Ga alleen niet als een dolle segmenten analyseren, maar test deze segmenten in een nieuwe A/B test.
Blijf altijd testen!
Na aanpassing verwacht je natuurlijk verbetering. Stop je nu met testen? Natuurlijk niet, je wil altijd blijven optimaliseren. Tijd dus om na te denken over de volgende optimalisatie!