Big Data workshop door Sandjai Bhulai #wac13

Op 13 maart hield Sandjai Bhulai een big data workshop op het Webanalytics congres 2013. Hier mijn hoogtepunten en meest interessante inzichten.

Na een definitie van Big Data, een opsomming van misverstanden rondom Big Data en een Big Data stappenplan behandelde Sandjai Bhulai een groot aantal concrete voorbeelden van (mogelijke) toepassingen van data. Voor geïnteresseerden in het onderwerp Big Data zat er in zijn algemene introductie weinig nieuws. Wél nieuw was de volgende tag-cloud analyse:

 

In artikelen over Big Data is “Prediction” de meest voorkomende term.
…de meeste waarde van “Big Data” zit volgens deze analyse dus in het voorspellen van gebeurtenissen!

In zijn functie van Associate Professor in Applied Probability aan de VU in Amsterdam wordt Sandjai Bhulai geregeld door commerciële marktpartijen benaderd op strategisch niveau mee te denken. Tot ons grote geluk mag hij hierover – als wetenschapper – in het openbaar vertellen!

Big data case 1: Pin-automaat storingen mbv Twitter éérder detecteren dan de monteurs

Probleem
Normaal gesproken sturen pin-automaten een signaal naar de centrale als ze stuk zijn, maar dit werkt niet als de software is gecrasht! Hierdoor zijn pinautomaten meerdere uren buiten dienst. Geen goede dienstverlening voor klanten, die opeens geen cash geld kunnen opnemen!

Data en tools
Twitter, GPS coördinaten Nederlandse pinautomaten

Oplossing
De VU is erin geslaagd mbv analyse van alle Nederlandse tweets dit type storingen aan pin-automaat éérder te detecteren dan de monteurs van technische onderhoudsdienst op dit moment kunnen.

Big data case 2: Alternatieve data-gerelateerde verdienmodellen in de logistieke sector

Probleem
De (zakelijke) postmarkt krimpt. Als de huidige marktpartijen hun dienstenpakket niet uitbreiden, betekent dit vroeg of laat overcapaciteit: op de lange termijn geen houdbare situatie.

Data en tools
GPS-info, gebruik smartphone applicaties, foto’s, enquêtes

Oplossing
De logistieke dienstenaanbieder die contact heeft gezocht met Bhulai’s vakgroep, heeft vanaf haar oprichting ervaring met gebruik van data om goedkoper en efficiënter te werken. Ook nu wil deze partij voorop lopen in de markt, en daarom Bhulai’s groep gevraagd mee te denken hoe data een rol kan spelen bij het aanboren van nieuwe inkomstenstromen.

Eén van de ideeën die hieruit naar voren kwam, maakt gebruik van het feit dat de bezorgers overdag in het hele land onderweg zijn. Men zou hen kunnen inzetten voor het aanbieden van nieuwe diensten en het uitvoeren van volledig nieuwe taken:

  • Uitvoeren van demografisch onderzoek namens CBS
  • Uitvoeren van marketing onderzoek, bijv. maken van straatfoto’s: welke auto’s staan in welke wijk?
  • Uitvoeren technisch onderzoek namens instanties
    • bijv. fijnstof-meting mbv een smartphone app obv luchtfoto’s
    • werkbelasting van postbezorgers meten met smartphone app?
  • Actuele file-informatie genereren obv smartphones van chauffeurs
  • Actuele file-informatie gebruiken om pakjes sneller te bezorgen
  • Aanvullende diensten als mantelzorg ‘light’, bijv. even aanbellen bij eenzame ouderen (participeren in gezondheidszorg)

Hoewel niet al deze ideeën misschien direct uitvoerbaar zijn, vind ik deze lijst met aanvullende verdienmodellen érg inspirerend. Voor iedereen die zelf ook op zoek is naar nieuwe inkomstenbronnen: smartphones lijken in elk geval onmisbaar bij het verzinnen van nieuwe diensten!

 

Smartphones lijken onmisbaar bij het verzinnen van nieuwe diensten en verdienmodellen.

Big Data case 3: Nieuwe manieren om je te onderscheiden in de ‘gecommoditiserende’ energie-sector

Probleem
Stroom is stroom, aardgas is aardgas. Toch zijn er aanzienlijke prijsverschillen tussen de verschillende Nederlandse energieaanbieders. Energieleveranciers hebben slechts een beperkt aantal keuzes:

  1. Het ‘sleeper’ model
    Houd het dienstenpakket gelijk en het prijsniveau hoog en hoop dat een groot deel van je klanten de moeite niet neemt om over te stappen
  2. Prijsvechter worden
    Onderscheid je op prijs en werk zo efficiënt mogelijk. Een strijd die de grote – minder efficiënte – gevestigde aanbieders liever niet aangaan
  3. Meerwaarde leveren
    Bied je klanten aanvullende diensten aan die het prijsverschil met je concurrenten rechtvaardigen: het enige model dat op de lange termijn werkt.

Data en tools
Informatie over instelling van (slimme) thermostaten, energieverbruik (slimme meters), GPS woning-data, zonnecel-data, actuele energieprijzen, smartphone data, file-informatie en weer-data van het KNMI (in totaal 22 weerfactoren, naast temperatuur ook windsnelheid en neerslag).
Open source database systeem “Cassandra” (geen Hadoop!)

Oplossing
Een Nederlandse energieleverancier heeft de VU benaderd om mee te denken over aanvullende diensten die ze haar klanten zou kunnen aanbieden. Ook hier noemde Bhulai weer een aantal inspirerende voorbeelden van creatief omgaan met een krimpende markt en kleinere winstmarges:

  1. Isolatie-advies
    bij een selecte groep woningen steeg de op de thermostaat ingestelde temperatuur sterk tijdens kou met de windsnelheid… deze huizen zijn slecht geïsoleerd. 1. De energieleverancier zou de bewoners van deze huizen pro-actief kunnen benaderen met tips om de woning beter te isoleren.
  2. Bespaar-advies
    In het energieverbruik van individuele huishoudens zijn wasmachinebeurten te onderscheiden. Een leverancier zou op basis van deze informatie kunnen bepalen hoe zuinig een wasmachine is. Als deze erg onzuinig blijkt, zou de leverancier het huishouden hierover kunnen inlichten. Op basis van het verbruikspatroon van ándere huishoudens zou de leverancier zelfs een specifieke zuinige wasmachine kunnen aanbevelen.
  3. Effectief gebruik zonnepanelen
    Zonnepanelen genereren stroom als de zon schijnt. Deze stroom kan niet over grote afstanden worden getransporteerd en moet dus lokaal worden geconsumeerd. Lokaal bestaat er echter niet altijd behoefte aan deze extra stroom. Met behulp van GPS data kunnen de eigenaar van de zonnecellen en zijn directe buren worden ‘getipt’ dat de stroom op dat moment goedkoop is.
  4. Aanbieden hyper-Intelligente thermostaten
    Iedereen kent wel het – lang geleden geschetste – toekomstscenario van de intelligente koelkast. De intelligente thermostaat lijkt de intelligente koelkast echter te gaan inhalen: technisch is het zeer binnenkort mogelijk de thermostaat automatisch laag te zetten als de smartphones van de bewoner(s) aangeven dat er niemand thuis is. Als de bewoner huiswaarts lijkt te keren, kan de thermostaat het huis vast opwarmen. Als de bewoner hierbij in de file komt te staan, kan de thermostaat besloten het voorverwarmen van de woning wat te vertragen. De ultieme mix van comfort en gemak (maar niet van privacy)!

Big Data case 4: nu.nl, met Twitter opkomend nieuws als eerste spotten

Probleem
Nu.nl is snel, maar twitter is sneller. Nu.nl heeft als slogan “Het laatste nieuws het eerst op NU.nl”. De vraag van nu.nl aan de VU: hoe kunnen we twitter gebruiken om nieuws-in-wording als éérste te spotten?

Data en tools
Twitters real-time datafeed gefilterd op Nederlandse tweets

Oplossing
Bhulai en zijn vakgroep ontwikkelden voor nu.nl een real-time dashboard, dat de snelst opkomende – niet geplande – real-time topics weergeeft. Voor zover hij wist, is een dergelijk dashboard nog niet eerder gebouwd!

Uitdagingen
Met name over deze laatste case vertelde Bhulai uitgebreid over de uitdagingen die overwonnen moesten worden om te komen tot de werkelijk relevante tweets van opkomend nieuws:

  1. De gezochte onderwerpen zijn juist niét trending topics: op het moment dat een onderwerp trending topic is, is het voor nu.nl niet meer op tijd!
  2. Lang niet alles waarover opeens veel getweet wordt is ‘nieuws’: hoe voorkom je dat je de wekelijks terugkerende stortvloed aan #TVOH tweets in het dashboard van nu.nl komt?

Uitkomsten/opbrengsten
In tegenstelling tot de meeste van voorgaande cases, was deze oplossing van de VU al daadwerkelijk in de praktijk getest. De eerste successen van het nu.nl dashboard:

  1. 2 à 3 berichten per dag die anders niet waren opgepakt.
  2. Berichten die in de oude situatie ook zouden zijn opgepakt, ontdekt nu.nl dankzij het dashboard nu 30 – 60 minuten éérder.
  3. Door twitter als bron te gebruiken, kan nu.nl ook gaan schrijven over de ‘persoonlijke’ gevolgen van landelijk nieuws: “bovenleiding gebroken => trein gemist => vriendin vertrokken zonder afscheid te kunnen nemen”.
 

De toegevoegde waarde (big) data zit in innovatie en het combineren ervan (mash-up), niet in het volume.

 

Om te bepalen wat data nu écht betekent, zal je altijd een data-scientist nodig hebben.

 

Kranten zullen nooit overbodig worden: ze zijn meer dan ooit nodig als kwaliteitsfilter en voor verificatie van nieuws.

Conclusie

Niet eerder heb ik iemand zo nuchter en concreet horen vertellen over de waarde van data, mits je beschikt over:

  1. Een open geest (postbezorgers die luchtkwaliteitsmetingen doen).
  2. Zorgvuldig verzamelde data (bij voorkeur van mensen die geen privacy-bezwaren hebben).
  3. De juiste tools (niet noodzakelijke Hadoop).
  4. Een data-scientist die de analyses kan ontwerpen, datastromen kan verbinden en de uitkomsten kan duiden.

Ik zie nu al uit naar de volgende lezing van Bhulai, met hopelijk nog meer data-succesverhalen!