Er is nog steeds veel verwarring over Big Data. Daarom heeft Bernard Marr voor Smart Data Collective een artikel geschreven over de 4 lagen van Big Data die iedereen moet kennen: de verschillende stadia die data doorloopt voor deze tot waardevolle inzichten leidt.
Het hele punt van een big data strategie is om een systeem te ontwikkelen welke data langs dit pad leidt. In deze post proberen we de verschillende lagen die je nodig hebt te definiëren om grip te krijgen op hoe big data jouw business kan helpen.
Laag 1: data bronnen
Dit is waar de data je organisatie binnenkomt. Het bevat alles van je verkoopresultaten, je klantendatabase, feedback, social media kanalen, marketinglijsten, email archieven en eigenlijke alle data die je tijdens je werk bijhoudt of meet. Een van de eerste stappen om een data strategie op te zetten is door te bekijken wat je hebt, en het te vergelijken met wat je nodig hebt om de belangrijke vragen te beantwoorden. Je hebt misschien alles al, of je moet nieuwe bronnen proberen aan te boren.
Laag 2: data opslag
Dit is waar je Big Data leeft, als het eenmaal verzameld is uit je bronnen. Terwijl het volume van data dat gegenereerd en opgeslagen is door bedrijven explosief is toegenomen, zijn er goed afgewerkte maar toch toegankelijke systemen en tools ontwikkeld om hier bij te helpen, zoals Apache Hadoop DFS (distributed file system) – of Google File System. Een computer met een grote harde schijf is misschien het enige dat je nodig hebt voor kleinere data sets, maar wanneer je toekomt aan het opslaan en analyseren van echt grote data, is een meer uitgebreid, gedistribueerd systeem de beste oplossing.
Naast een systeem dat data opslaat op een manier die je computer begrijpt (file systeem), heb je ook een systeem nodig voor het organiseren en categoriseren op een manier die mensen kunnen begrijpen: de database. Hadoop had zijn eigen systeem, bekend als HBase, maar er zijn ook andere populaire oplossingen zoals Amazon’s DynamoDB, MongoDB en Cassandra (gebruikt door Facebook), allemaal gebaseerd op de NoSQL architectuur.
Let hier wel op dat je, afhankelijk van het soort data dat je opslaat, hier mogelijk rekening moet houden met wetten en regelgeving omtrent veiligheid en privacy.
Laag 3: data processing/analyse
Wanneer je de data wilt gebruiken om iets nuttigs te ontdekken, zal je het moeten verwerken en analyseren. Een veelgebruikte methode is door een MapReduce tool te gebruiken, zoals Hadoop. In feite wordt dit gebruikt om die data elementen te selecteren die je wilt analyseren, en het in een formaat om te zetten waar vanuit je inzichten kunt krijgen.
Als je een grote organisatie hebt die investeert in een eigen data analyse team, zijn zij ook onderdeel van deze laag. Ze zullen tools gebruiken als Apache PIG of HIVE om data op te vragen, en ze gebruiken een geautomatiseerd patroonherkenningstool om trends te vinden, alsook het trekken van conclusies uit handmatige analyses.
Laag 4: data output
Dit is hoe de inzichten die uit de data gehaald zijn overgebracht worden naar de mensen die actie kunnen ondernemen om iets goeds te doen met deze inzichten. Duidelijke en beknopte communicatie (vooral als de mensen die de beslissingen maken geen achtergrond hebben in statistieken) is hierin van essentieel belang. Deze output kan in de vorm zijn van rapportages, grafieken, tabellen en aanbevelingen. Uiteindelijk is het op dit moment in het proces de taak van je big data systeem om te laten zien hoe een meetbare verbetering van ten minste een KPI bereikt kan worden door de actie te ondernemen die je voorstelt.
Als je een systeem hebt opgezet dat door al deze stadia heen werkt om bij dit doel te komen, gefeliciteerd! Je bent nu bezig met Big Data. En hopelijk ben je klaar om hier de voordelen van te plukken.