Print:

Big data hoeft niet ingewikkeld te zijn

Erik Tromp, Experienced data scientist

LinkedIn profiel

Als expert op het gebied van big data en data science ben ik werkzaam voor de grote coporaties van Nederland. Daarnaast geef ik veel trainingen die ofwel bij klanten als maatwerk ofwel als open rooster opgezet zijn, zoals bijvoorbeeld de Big Data Fundamentals training . Een veelgemaakte opmerking van deelnemers aan de training en ook de klanten waar ik voor werk is dat big data en data science in het bijzonder, eigenlijk helemaal niet zo gemakkelijk in te zetten zijn als men vaak denkt. Dit juist terwijl de belofte van big data science juist zo groot is.

Big data science is moeilijk

De constatering dat big data science een complex vakgebied is, is juist. Dit komt vooral omdat het nog in de kinderschoenen staat wanneer we het vergelijken met een volwassener vakgebied als Business Intelligence. Daarbij komt dat in big data science, er veel gebruik gemaakt wordt van open-source tooling die documentatie en laagdrempeligheid niet als belangrijkste kernpunten hebben. Dit resulteert dan weer in het fenomeen dat de meeste van dergelijke tools alleen bruikbaar worden door ofwel commercieel support af te nemen, waarbij deels aan het idee van open-source tooling voorbij gegaan wordt, ofwel door experts in te huren die ook weer hun eigen tarieven hebben.

De tooling die momenteel beschikbaar is, is dusdanig gevarieerd dat louter met een training zoals Big Data Fundamentals er kaas van gemaakt kan worden als je (nog) niet bekend bent met de inhoud. De huidige gebruikers van big data tools zijn vaak dan ook technici met een achtergrond in software engineering. Dit terwijl big data juist belooft de business vraagstukken van vandaag de dag te beantwoorden. Er mist dus een belangrijke brug.

Bruggen bouwen, logisch

De brug die gebouwd dient te worden, moet de vertaling van de businessvraagstukken naar de techniek vormen. Business vraagstukken zijn vaak op te knippen in logsiche tussenstappen (ja; hier bedoel ik ook ‘zinvolle’, maar vooral tussenstappen vanuit denklogica). Idealiter zouden we dus een tussenlaag moeten hebben die de logsiche stappen van een vraagstuk om weet te zetten naar de techniek. Hoe dit gebeurd is voor een eindgebruiker niet relevant, wel dát het gebeurt.
Nadat vraagstukken omgezet zijn in technische bouwblokken via de logische tussenlaag, is er natuurlijk ook behoefte aan een terugvertaling. Er vinden processen plaats in de technische onderlaag die output genereren. Deze output kan ofwel naar andere processen doorgezet worden ofwel terug naar de bovenlaag gerapporteerd worden. Zodoende ontstaat eigenlijk een procesmatig flow-diagram van samengekoppelde logische processen, die elk afzonderlijk naar de technische onderlaag vertaalt worden en terug inzichtelijk gemaakt kunnen worden.

Helaas zijn er te weinig tools die deze aanpak volgen. Het opzetten van een compleet big data science landschap vergt het combineren van huidige bronsystemen, het opzetten van een batch tak, het interacteren met realtime data en het gebruik van nieuwe opslagsystemen zoals NoSQL stores. Dit alles komt terug in de Big Data Fundamentals training, maar er mist een platform dat al deze zaken eenduidig aan elkaar kan koppelen zonder te veel technische poespas.

Precies dit bovenstaande is wat op dit moment gebouwd wordt in de vorm van het open source platform Tuktu , een initiatief dat ik zelf ben begonnen, inmiddels al door een team van ontwikkelaars uitgebreid wordt en ook al bij een aantal grote partijen gebruikt wordt. Tuktu gaat uit van flow-diagrammen waarin logische processoren aan elkaar gekoppeld worden middels drag-and-drop functionaliteit en vraagt alleen configuratie. Er wordt dus geen enkele regel code geschreven en er hoeft niks geïmplementeerd te worden. Daarbij integreert Tuktu naadloos met de huidige bit data technologieën en tools en wordt er eenduidig naar batch en realtime data gekeken. Dit is dus mijn realisatie van de stelling “big data hoeft niet ingewikkeld te zijn”.

Erik Tromp

Erik is een freelance data scientist. Hij is momenteel werkzaam als data scientist annex big data consultant, werkend op het snijvlak van machine learning en schaalbare systemen. Erik is tevens trainer bij IIR van de opleiding Big Data Fundamentals.

Wij gebruiken cookies om IIR.nl gemakkelijk te maken. Bezoekt u onze website, dan gaat u akkoord met deze cookies meer informatie

De cookie-instellingen op deze website zijn ingesteld op 'toestaan cookies "om u de beste surfervaring mogelijk. Als u doorgaat met deze website te gebruiken zonder het wijzigen van uw cookie-instellingen of u klikt op "Accepteren" hieronder dan bent u akkoord met deze instellingen.

Sluiten