Splunk is een tool ontwikkeld in 2004, van oorsprong bedoeld om IT back-office professionals machine-gegenereerde data te laten analyseren: voornamelijk weblogfiles en sensors. De basisgedachte: gebruik een soort Google zoekbalk (een interface die iedereen kent) om grote hoeveelheden data te doorzoeken.
Wat is Splunk? In hun eigen woorden:
Splunk is the leading provider of operational intelligence software used to monitor, report and analyze real-time machine data as well as terabytes of historical data – located on-premise or in the cloud. Almost half of the Fortune 100 and more than 2,300 enterprises, service providers and government organizations in 74 countries use Splunk to improve service levels, reduce IT operations costs, mitigate security risks, and drive new insights for IT and the business.
In 2010 begint Big Data echt op te komen en Splunk realiseert zich op tijd dat hun tool – tot dan toe voornamelijk gebruikt door IT’ers voor het bestuderen van logfiles om de achtergrond van technische storingen te vinden – met een uitbreiding van functionaliteiten en wat marketinginspanningen uitstekend te gebruiken (en promoten) is als een Big Data tool.
Splunk’s basisgedachte: Google voor data-sets
Later in dit artikel meer over Splunk en mijn ervaring met deze tool. Voor wie niet kan wachten nu alvast een aantal screenshots:
De gelijkenis van Splunk met Google is treffend. Het draait in een webbrowser en bevat bij de start een overzicht van alle geimporteerde databronnen (onder) en een grote zoekbalk ‘search head’. Niet voor niets noemt Splunk zichzelf “The Big Data Engine”.
Meest indrukwekkende feature van Splunk is misschien wel de context-afhankelijke suggesties van zoekopdrachten: “probeer eens deze opdracht” en “je zou deze zoekopdracht kunnen verfijnen door het toevoegen van …”.
Als je begint te typen, dan veranderen deze suggesties mee, nét als Google’s suggest/auto-complete functionaliteit!
En zo ziet ruwe webserverdata eruit! Geen info die ik graag vanaf de Unix command line zou willen uitpluizen! In Splunk is zelfs de ruwe data aanklikbaar!
Noodzaak voor Splunk: Big Data analyses zijn silo-overstijgende analyses
Er zijn vele (technische) definities van Big Data in omloop. De definitie van Big Data die ik zelf graag hanteer is dat je met een BIG data analyse het gehele probleem kunt overzien en oplossen, wat met het analyseren van data in silo’s – om de uitkomsten hiervan vervolgens met elkaar te verbinden – niet kan.
Denk hierbij aan de sales-, marketing-, inkoop- en ICT-afdeling van een bedrijf die elk hun eigen KPI’s heeft op basis waarvan de medewerkers hun beslissingen nemen, terwijl deze maar al te vaak in strijd zijn met het overall lange-termijn bedrijfsresultaat.
Het nemen van beslissingen en het stellen van doelen in het algemene bedrijfsbelang is de taak van de CEO: hij stelt de KPI’s en maakt de afweging op het moment dat afdelingen strijdige belangen of interne conflicten hebben… een (real-time) Big Data dashboard met ‘ontsilode’ data zou in geen enkele Board Room mogen ontbreken!
Procter & Gamble is op dit moment een van de meest data-gedreven bedrijven ter wereld. Zij hebben real-time dashboards in hun high-tech conference room (aka Business Sphere). Een ander actueel – beruchter – voorbeeld van een organisatie die in staat is real-time data te aggregeren, verbinden en analyseren is de NSA; alléén met een ‘holistische’ aanpak kunnen terroristen op tijd worden ontmaskerd.
Waarom is Splunk is een échte Big Data tool?
Voor afdelingsoverstijgende ‘holistische’ analyse van data is een flexibel systeem nodig, dat met álle (!) soorten data kan omgaan. Dat systeem bestaat en heet Splunk! In het kort heeft Splunk de volgende eigenschappen:
- Splunk kan alle soorten data aan:
- Webserver data (websitebezoek, error codes, cookie-ID’s, etc…)
- SQL
- Tweets
- Geo-coordinaten
- Sensor-data (slimme meters, kilometerheffing-kastjes, RFID, etc…)
- Marketing-data
- HR-data
- Logistieke data (aankomst/vertrektijden van treinen, vliegtuigen en boten)
- Je kunt er meerdere data-sets mee analyseren.
- Je gooit geen data weg.
- Je kunt er real-time ‘in memory’ grote datasets mee analyseren.
Splunk houdt hiervoor 2 GB van je harde schijf vrij als ‘swap disk’. - Het systeem is schaalbaar (lokaal of icm een Hadoop cluster in de cloud, bijvoorbeeld Amazon’s EC2).
- ‘Schema on load’.
Je hoeft de data(structuur) niet van tevoren te kennen of specificeren. Splunk herkent bijna alle velden zelf, maar je kunt Splunk ook helpen door niet al veld geïdentificeerde data-punten in je dataset aan te wijzen en aan te geven “dit is een apart veld”. Splunk genereert dan voor jou de benodigde reguliere expressie! - Grafisch aantrekkelijke visualisatie (lijn,bar, pie, maar ook kaarten) en dashboard mogelijkheden.
Het belang van visualisatie voor het begrijpen van data is niet te overschatten. - Intuïtief én snel.
Je kunt real-time navigeren of ‘down-drillen’ door de data om zo te komen tot inzichten. - Zeer goede documentatie en een zeer actief gebruikersforum.
Heeft Splunk ook nadelen? Ja: bij ‘corporate’ gebruik (>500 MB per dag) is Splunk niet gratis! 🙂 Maar… laten we ons voor nu niet richten op eventuele nadelen en genieten van de voordelen: Splunk is gratis voor kleine gebruikers!
Wil je weten wat ik al met Splunk gedaan heb, en hoe je zelf met Splunk aan de slag kunt?
Lees hier deel 2!
Reacties (4)