Big Data: wat is dat eigenlijk?

Data-analyse is mijn hobby. Geen werkdag is compleet zonder excel sheet en/of een stevig onderbouwd data gedreven inzicht. Goed nieuws dus dat er elke dag weer méér data wordt opgeslagen en… geanalyseerd moet worden! Wie de laatste maanden niet onder een steen geleefd heeft, weet het: dé business trend van het moment heet “Big Data”.

Hieronder een beknopt antwoord op de belangrijkste vragen rondom Big Data, voor iedereen die – net als ik – zo snel mogelijk wil kunnen meepraten over deze belangrijke ontwikkeling.

Wat is Big Data?

Dat hangt af aan wie je het vraagt. Volgens aanbieders van data-opslag en databases is Big Data dé reden om klanten nieuwe systemen te verkopen. Anderen stellen nuchter “Big Data is alle data die niet meer fysiek of logisch in één locatie of in één systeem kan worden opgeslagen”.

Weer anderen doen een stapje terug en maken allereerst onderscheid tussen “Big Data opslag” en “Big Data analytics” [1]. Deze twee zijn wat mij betreft echter onlosmakelijk met elkaar verbonden: niet de hoeveelheid, maar de manier waarop men data wil gebruiken maakt data al-dan-niet “Big”. De eisen die gesteld worden aan Big Data opslag volgen uit de analyses die men wil uitvoeren op data.

Big Data analytics

Technisch is er sprake van “Big Data analytics” als de data:

  1. Alléén waardevol is voor de business bij snelle beschikbaarheid (near real-time);
  2. Afkomstig is uit meerdere bronnen;
  3. Flexibel “verrijkt” kan worden met andere (ongestructureerde) data.

Door Gartner is dit pakkend samengevat als “Volume, Variety en Velocity” [2].

Dave Raffo (Storage Media group) legt aan de hand van een voorbeeld uit wat Big Data niet en wél is:

  • De (enorme) database met transacties van Amazon is géén Big Data: uniform, gearchiveerd en zonder potentie tot toegevoegde waarde;
  • De (enorme) database van Amazon met klik- en aankoopgedrag die het mogelijk maakt een klant direct een aanbieding op maat te doen wanneer deze de website opnieuw bezoekt is wél Big Data: divers, pluriform, direct beschikbaar én gebruikt met het doel om waarde te creëren [3].

Bekende voorbeelden van Big Data [4]: het human genome project, Google Analytics, Google’s Automated Self Driving Cars[10]  en Amazon’s product recommendation engine [5].

Big Data opslag

Big Data analytics vraagt dus om totaal andere data-systemen dan de bestaande data-warehousing oplossingen. Big Data storage systemen zijn snel, schaalbaar, flexibel en in staat om zowel gestructureerde als ongestructureerde data te kunnen integreren. Technisch een enorme uitdaging voor aanbieders van databases.

Wat je in elk geval moet weten over Big Data opslag

Big Data systemen zijn in de praktijk steeds vaker gedistribueerde netwerken van eenvoudige PC’s en servers. Dit maakt Big Data systemen schaalbaar: opslag- en rekencapaciteit kan eenvoudig worden toegevoegd (tegen het alternatief: één keer in de paar jaar een nieuwe supercomputer kopen).

Speciale “Big Data software” knipt de data in stukken en verdeelt en kopieert deze vervolgens naar meerdere lokaties binnen het netwerk. Deze manier van de data-verdeling geeft een dergelijk “gedistribueerd netwerk” een aantal bijzondere eigenschappen. Een Big Data netwerk is:

  1. Snel: bij het opvragen van data worden de snelst beschikbare data-fragmenten parallel vanaf meerderde locaties ingeladen; [6]
  2. Redundant: alle data is op minstens twee fysieke locaties in het netwerk beschikbaar;
  3. Flexibel en altijd online: in tegenstelling tot klassieke IT-systemen hoeft een systeem nooit ‘offline’ voor onderhoud. Een gedistribueerd Big Data netwerk heeft geen “single point of failure”.

Waarom Big Data?

Is het een hype? Kun je als organisatie wachten met het strategisch inzetten van data of is Big Data eigenlijk al een realiteit [7]? Volgens een door McKinsey aangehaalde wetenschappelijke publicatie verhoogt effectief gebruik van data en analytics de productiviteit, winstgevendheid en marktwaarde van bedrijven met 5 à 6 procent [8]. In sommige industrieën zal de strategische inzet van data-analyse zelfs het verschil gaan maken tussen winst en verlies [9].

Big Data en webanalytics

In mijn dagelijkse werk als webanalist merk ik dat nagenoeg alle opdrachtgevers bezig zijn met “closing the loop”: ze verbinden hun webstatistieken(pakket) met hun CRM-systeem. Met een dergelijke “end-to-end” integratie willen ze periodiek bepalen welke marketingcampagnes leiden tot de meeste verkopen (in plaats de meeste leads genereren).

Eén technische stap verder en je kunt deze systemen real-time aanroepen om optimaal met online bezoekers te communiceren en productaanbiedingen op maat te doen [5]. Big Data is dan opeens geen toekomstmuziek meer, maar werkelijkheid.

In de praktijk worden Big Data analytics ontwikkelingen op dit moment vaak gedreven door analyse vraagstukken vanuit het web (webanalytics). De uitvoer vanuit IT vindt echter vaker plaats zónder medewerking van een webanalist dan mét, terwijl de met het systeem beoogde Big Data analytics direct impact heeft op de technische randvoorwaarden en uitvoering. Webanalisten moeten betrokken zijn bij de implementatie van Big Data.

Daarom mijn interesse in het onderwerp en de reden waarom Big Data voor webanalisten zo relevant is om te begrijpen en binnen organisaties verder te helpen ontwikkelen. Ik ga er in ieder geval meer over lezen, mee werken en over schrijven.

Aanvullingen, commentaren en correcties van experts zijn van harte welkom!


Bronnen

[1] John Webster – searchstorage.techtarget.com – Understanding Big Data analytics
[2] Gartner Says Solving ‘Big Data’ Challenge Involves More Than Just Managing Volumes of Data, juni 2011
[3] Big Data: Senior News Director Dave Raffo’s take (podcast)
[4] Frank Ohlhorst – Weighing the balance of Big Data, Web analytics and compliance, september 2010
[5] Quora – Was Amazon’s recommendation engine crucial to the company’s success?
[6] Tweakers.net – Wat is Hadoop?
[7] The Age of Big Data: Is It Coming or has It Arrived?
[8] Erik Brynjolfsson e.a. – “Strength in numbers: How does data-driven decisionmaking affect firm performance?” – Social Science Research Network (SSRN), april 2011
[9] Brad Brown e.a – McKinsey & Company – Are you ready for the era of ‘big data’? – Oktober 2011
[10] Google Automatic Self-Driving Cars

Image harddisk: © Adehughes; Image bookpile: © Paha_lStock Free Images & Dreamstime Stock Photos

Reacties (7)

Reacties zijn gesloten.