Uit de resultaten van onze CRO enquête viel ons op dat AB Tasty een AB testing tools in opkomst is. Een van origine Frans bedrijf met meer dan 100 medewerkers die twee weken geleden “opeens” €17 miljoen extra funding ophaalden. Tijd voor een interview dachten wij! We spraken Hubert Wassner, Chief Data Scientist bij AB Tasty.
Hubert is ingenieur en werkt al sinds het jaar 1996 met data; destijds werd dat nog ‘signal processing’ genoemd. Voordat hij begon bij AB Tasty werkte hij met spraakherkenningssystemen, DNA analyse software voor een biotechnologisch bedrijf en gaf hij les in machine learning & algoritmes aan de universiteit.
Waarom besloot je om het lesgeven en onderzoek op de universiteit in te ruilen voor AB Tasty?
Het werken met web data is fascinerend, omdat het inzicht geeft in nieuw gedrag. Een ander geweldig aspect eraan is dat het responsief is: je krijgt onmiddellijk feedback op het internet. Zo weet je direct of je goed of fout zit. Daarnaast zijn de data en de problemen erg afwisselend, van hoog niveau statistiek tot machine learning. Ik geef nog steeds graag les, maar zet mijn ervaring nu voornamelijk in bij presentaties op evenementen of om marketing content te produceren.
Hoe ziet je werk eruit als Data Scientist bij A/B tasty?
Statistiek is de kern van iedere A/B test praktijk. Als Data Scientist bij AB Tasty is ons doel om de web data te voorzien van de best mogelijke en passende statistische tools en om onze gebruikers te leren hoe je goed omgaat met data. Naast deze statistische elementen zijn we bezig met het creëren van machine learning oplossingen. Dit kan zowel direct als indirect gebeuren. Onze gebruikers kunnen het direct gebruiken in de vorm van bijvoorbeeld Dynamic Traffic Allocation, maar het kan ook indirect door ‘predictive visitor segmenten’ te creëren die worden ingezet bij A/B testen. Op de lange termijn streven we ernaar om de tool nog verder te ontwikkelen en verbeteren door middel van Artificial Intelligence (AI).
Over het algemeen is het een baan waarin onderzoek centraal staat: het lezen van wetenschappelijke artikelen en het testen en uitwerken van nieuwe ideeën. Ook verlenen we af en toe ondersteuning aan onze consultants en cliënten over complexe dataproblemen en wordt onze expertise regelmatig ingezet bij marketing evenementen en voor communicatie doeleinden.
Waarom zouden bedrijven moeten werken volgens een datagedreven aanpak zoals AB tasty dat doet?
Bij een datagedreven experiment, zijn de resultaten onbetwistbaar en overtreffen ze de mening van de zogezegde “expert”. Dit helpt uiteindelijk bij het hebben van een snelle en duidelijke discussie en zo ook bij het maken van goede beslissingen. De kwantitatieve antwoorden die de resultaten van een experiment bieden zijn in veel gevallen relevanter voor strategische beslissingen dan kwalitatieve informatie. Daarnaast helpt het onze klanten om nieuwe dingen te ontdekken over hun eigen klanten en bezoekers.
Zou je in het kort kunnen uitleggen wat Bayesiaanse statistiek is en waarom jullie dit toepassen?
Bayesiaanse statistiek is onder andere een statistisch kader. Het wordt al langer toegepast bij farmaceutisch en medisch onderzoek omdat het erg krachtig is als je werkt met complexe modellen. Buiten deze sectoren was het eerder minder bekend doordat de Bayesiaanse statistiek veel computerkracht vereist en er tot voor kort nog maar weinig experts waren. Tegenwoordig wordt de statistiek echter steeds populairder doordat computers steeds krachtiger worden en daardoor makkelijk ingezet kunnen worden bij het analyseren van grote datasets en zelfs real-time beslissingssystemen.
Wat is het voordeel ervan ten opzichte van de frequentistische statistiek?
In ons vakgebied heeft Bayesiaanse statistiek een aantal voordelen:
- Het geeft coherente statistische informatie tijdens een test. De meeste frequentistische opties, zoals de bekende chi² test, zijn bijvoorbeeld niet bedoeld om gebruikt te worden voordat het geplande einde van een test bereikt is. Ook al trekken sommige mensen zich daar niets van aan.
- Bayesiaanse statistiek geeft gedetailleerde informatie zoals een betrouwbaarheidsinterval op alle metingen waar frequentistische opties alleen een vertrouwensindex geven over het bestaan van een prestatieverschil tussen variaties. Eigenlijk vertelt de frequentistische optie je welke variatie beter (of slechter) is. Wanneer het testen van een variatie veel geld kost, is het belangrijk om nauwkeurig na te gaan hoeveel je wint. Bijvoorbeeld als je twee verschillende aanbevelingssystemen test voor e-commerce wil je weten hoeveel conversie je krijgt bij elke oplossing, omdat elk van deze oplossingen zijn eigen kosten heeft. Als je alleen weet dat er een stijging in conversies is dankzij een aanbevelingssysteem, maar niet hoe groot deze is, kun je geen beslissing maken omdat een kleine stijging misschien niet de prijs van een aanbevelingssysteem waard is.
- Als laatste is de Bayesiaanse community erg actief en produceert erg veel nieuwe statistische tools, waar de Frequentistische community ouder en veel conservatiever is.
Je had het eerder over Dynamic Traffic Allocation als functionaliteit van AB Tasty, zou je daar wat meer over kunnen vertellen?
Dynamic Traffic Allocation (DTA) is een test procedure die een bepaalde hoeveelheid aan verkeer/traffic stuurt naar de variaties met de beste prestaties. Het is een complex statistisch probleem, dat ook wel bekend staat als het ‘Multi-Armed Bandit’ probleem. Het doel is om te voorkomen dat je te veel traffic stuurt naar een variatie die niet goed presteert. Maar het probleem is dat je een minimum aantal bezoekers naar deze variatie moet sturen om goed te kunnen meten hoe laag de performance is. DTA maakt het mogelijk om het aantal bezoekers dat je naar een bepaalde variatie stuurt gedurende het experiment aan te passen waardoor je een betere afweging kunt maken.
Waarom is DTA belangrijk voor het AB Tasty platform?
DTA is een alternatief voor het klassieke A/B testen (waar alle variaties dezelfde hoeveelheid aan verkeer krijgen). Het heeft een aantal voordelen. Ten eerste beperkt Dynamic Traffic Allocation de zogenaamde ‘regrets’: zoals de verloren conversie bij de evaluatie van slecht presterende variaties en dit vermindert weer de Total Cost of Ownership (TCO).
Ten tweede wordt er vanaf het begin geoptimaliseerd, terwijl een A/B test dat niet doet voordat het einde van de testperiode is bereikt. Om deze reden is DTA ook de enige optie als je elementen wilt optimaliseren die een “kort leven” hebben. Bijvoorbeeld een nieuwsartikel waar je de titel of de afbeelding test. Deze hebben zo’n korte levensduur dat je ze niet kunt optimaliseren met een klassieke A/B test. Na afloop van een testperiode heeft het artikel al weer te weinig verkeer. Een DTA aanpak is meer gepast in dit geval. Een ander voorbeeld is private sales, waar het aantal producten is gelimiteerd en waar de aanbieding alleen geldig is voor een korte periode.
Wat staat er op de roadmap de komende tijd voor AB Tasty?
Op de korte termijn zullen we onze klanten voorzien van twee upgrades van onze statistische tests. We waren één van de eerste tools die klanten voorzag van Bayesiaanse statistiek en we zullen de eerste zijn die de Bayesiaanse statistiek aanpast op media data. Om dit te verduidelijken zal ik kort het verschil uitleggen tussen een e-commerce conversie en een media conversie. E-commerce websites geven de meeste waarde aan “unieke” conversies. Dat houdt in: als een bezoeker tweemaal een product koopt tijdens een test, zal er slechts één conversie meetellen voor deze bezoeker. Omdat de meeste bezoekers slechts eenmaal een product kopen tijdens een testperiode, is deze simplificatie prima. Dan is de formule vrij makkelijk om de Bayesiaanse statistiek te voorzien.
Aan de andere kant zijn media conversies meer intrinsiek omdat ze verwijzen naar een mediaconsumptie. Het is vrij gewoon dat een bezoeker meerdere artikelen bekijkt op een nieuwssite of meerdere video’s bekijkt op een videoplatform gedurende een enkele sessie. Hier gaat het dus om meerdere conversies. In dit geval wordt het moeilijker om een formule van een Bayesiaanse statistiek te voorzien, terwijl het hier juist belangrijker is. Een simpel voorbeeld legt het gemakkelijk uit: 1000 gemeten clicks tijdens een test heeft niet dezelfde variabiliteit als ze worden geproduceerd door 100 bezoekers (10 clicks per bezoeker), dan met 10 bezoekers (100 clicks per bezoeker). We hebben het betrouwbaarheidsinterval nodig om hierover te oordelen. Natuurlijk gaat de voorkeur naar de 1000 clicks door de 100 bezoekers omdat dit een test minder onzeker maakt.
De tweede statistische zorg op de roadmap van AB Tasty is het “Multiple Comparison Problem”. Een probleem dat door een aantal A/B test oplossingen niet correct behandeld wordt. De basis A/B test is geconfigureerd om een enkele vergelijking te behandelen (het origineel tegen de variatie). Als je een test aan het uitvoeren bent met meer dan één variatie, moet je rekening houden met aanvullende experimenten. Intuïtief is eenmaal wedden met een risico van 5% niet hetzelfde als tien keer wedden met hetzelfde risico. De tweede optie heeft namelijk een veel hoger risico op false-positives (bijvoorbeeld een foutieve vaststelling van een winnende variant).
Normaal gesproken zijn MultiVariate Testen zeer gevoelig voor dit probleem omdat ze een groot aantal variaties behandelen. Maar zoals ik eerder heb uitgelegd, is een vertrouwensindex niet genoeg om een goede business beslissing te nemen. Je hebt het betrouwbaarheidsinterval nodig om een beter/slechter scenario te bouwen. We werken actief aan een oplossing die een betrouwbaarheidsinterval biedt die rekening houdt met het “Multiple Comparison Problem”. Recente statistische bevindingen hebben mooie eigenschappen om dit probleem aan te pakken en we werken er hard aan om deze oplossingen zo snel mogelijk aan onze klanten te kunnen aanbieden.
Hoe zie je de toekomst en de ontwikkelingen in deze markt?
De markt wordt steeds volwassener. Ik zie agencies of klanten die steeds meer geavanceerde statistische en methodologische vragen stellen. Daarnaast zal Machine Learning meer en meer informatie produceren op basis van bezoekersdata en zal dingen voorspellen die we nu niet eens kunnen bedenken. Daarnaast verwacht ik ook dat machine learning nieuwe voorspellende segmenten zal opleveren die handig zijn bij testen en personalisatie.
Een tweede trend is de interactie tussen Data Management Platformen, A/B testing en personalisatie tools. En als laatste zie ik tools in te toekomst veel specialistischer worden per markt, omdat bijvoorbeeld media en e-commerce zeer verschillende behoeftes hebben als je kijkt naar metrics en statistiek.