Print:

Alles Wat U Moet Weten Over Big Data Scientists Maar Nog Niet Wist

Mark van Rijmenam, Founder Datafloq

LinkedIn profiel

Als we de verhalen moeten geloven dan is de Big Data Scientist de meest sexy baan van de 21e eeuw. Het is naar alle waarschijnlijkheid ook één van de meeste gewilde banen en daarmee een baan die zeer goed zal betalen; verwachtte beloningen liggen boven de 100.000 euro per jaar. Het probleem is alleen dat dé Big Data Scientist, als die al bestaat, voor organisaties moeilijk te vinden is vanwege de hoge vraag.

Veel organisaties weten namelijk ondertussen dat ze ‘iets’ moeten met Big Data, maar hebben eigenlijk geen idee wat ze ermee moeten. Veel organisaties roepen ook dat ze “Big Data Scientists nodig hebben”, zonder eigenlijk een idee te hebben wat een Big Data Scientist nou typeert. Om te beginnen is de Big Data Scientist maar één van de rollen die een organisatie nodig heeft als ze met Big Data aan de slag willen gaan. Andere rollen die van groot belang zijn, zijn de Chief Data Officer, de Big Data Analist, de Big Data Engineer en de Big Data manager. Samen vormen deze rollen een Big Data team en de grootte van het project, als mede de ambitie van de organisatie, bepalen hoeveel van deze mensen noodzakelijk zijn in het team.

Voor nu richt ik mij op de Big Data Scientist, omdat dit profiel toch wel het meest tot de verbeelding spreekt. Laten we daarom eens kijken naar wie die Big Data Scientist nou is en wat hij/zij eigenlijk moet kunnen om het stempel ‘Big Data Scientist’ te krijgen. Idealiter beschikt de Big Data Scientist over een groot scala aan vaardigheden en technieken, welke tot voor kort niet eens samen kwamen in een gehele afdeling binnen organisaties. Zo moeten ze onder andere statistische kennis hebben, wiskundig goed onderlegd zijn, verstand hebben van het maken van voorspellende modellen als mede verstand hebben van de business. Tevens moeten ze in staat zijn om hun bevindingen goed te communiceren naar senior management, zowel mondeling als door middel van visualisaties. Ook moeten ze verstand hebben van het product dat verkocht wordt of de dienst die wordt aangeboden. Tot slot moeten ze een gevoel voor ethiek hebben, omdat Big Data vaak direct de privacy van de consument raakt.

Naast de kennis die Big Data Scientists op kunnen doen op de universiteit, of via opleidingen zoals bij de IIR, moeten ze ook beschikken over verschillende belangrijke karaktereigenschappen. Zo moeten ze van nature nieuwsgierig zijn en het leuk vinden om diep de materie te duiken om een antwoord op een nog onbekende vraag te vinden. Ze moeten het leuk vinden om tot in detail een probleem te ontleden en vandaaruit op zoek te gaan naar de oplossing. Ze moeten in staat zijn om de juiste vragen te stellen, zowel business vragen als technische vragen. Ze moeten vertrouwen hebben in hun eigen kunnen, want vaker niet dan wel zullen ze te maken krijgen met situaties waar veel nog onbekend is. Verder moeten ze geduldig zijn, want het onbekende ontdekken in enorme databronnen en een algoritme ontwikkelen wat daarmee aan de slag kan, gaat vaak gepaard met trial-and-error. Tot slot moeten ze op de hoogte zijn van voorbeelden in soms wel totaal andere industrieën, om die als inspiratie te gebruiken en daarmee een probleem op te lossen. Kortom een behoorlijk lijst van karaktereigenschappen.

Maar dan zijn we er nog niet. Een Big Data Scientist moet ook begrijpen hoe meerdere verschillende databronnen aan elkaar gekoppeld kunnen worden om nieuwe inzichten te krijgen. Vaak vereist dit het gebruik van verschillende type databronnen, gestructureerd en ongesturctureerd, die vaak incompleet zijn en ‘gecleaned’ moeten worden voordat ze gebruikt kunnen worden.

Natuurlijk moet een Big Data Scientist ook in verschillende talen kunnen programmeren. De belangrijkste talen waar aan te denken valt is R, Python, Java, Ruby, Clojure, Pig en vele andere programmeertalen. Ook moeten ze verstand hebben van Hadoop, Hive en/of MapReduce als mede op z’n minst bekend zijn met de volgende disciplines:

–    Natural Language Processing: de interactie tussen mens en machine;
–    Machine Learning: het gebruik van software om bestaande algoritmes automatische te optimaliseren;
–    Predictive Modeling: veel Big Data problemen hebben te maken met het voorspellen van een bepaalde uitkomst.

De exacte achtergrond van een Big Data Scientist is minder van belang. De beste Big Data Scientist kunnen een opleiding hebben gedaan zoals econometrie, wiskunde, biostatistiek, computer science, toegepaste wiskunde of technische natuurkunde. Vaak echter is de Big Data Scientist hoger opgeleid met een Master of PhD.

Oftewel, een Big Data Scientist moet een sterk opgevoerde variant zijn van een ‘manusje-van-alles’ en kennis hebben van een breed scala aan technieken, talen en vaardigheden.
Uiteraard zullen maar weinig Big Data Scientist over zo’n brede kennis beschikken en het is dan ook aan organisaties die met Big Data aan de slag willen om te kijken wat ze echt nodig hebben.

Voor organisaties die op zoek zijn naar een Big Data Scientist heb ik drie tips waar ze rekening mee kunnen houden:

  1. Vanwege het tekort aan Big Data Scientists is het goed mogelijk dat de perfecte Big Data Scientist voor uw organisatie niet te vinden is. De ultieme Big Data Scientist die over alle vaardigheden beschikt is sowieso een illusie. Om toch aan de slag te gaan is het dan ook van belang om op zoek te gaan naar een professional die kennis van de industrie heeft en op z’n minst over enkele vaardigheden beschikt. De ene industrie vergt namelijk een hele andere manier van denken dan de andere; de olie industrie is anders dan de hotel industrie. Van daaruit kan de Big Data Scientist ‘on the job’ de overige vaardigheden leren en daarmee steeds waardevoller worden voor een bedrijf.
  2. De perfect Big Data Scientist voor uw organisatie kan zomaar heel ergens anders wonen en zelfs in een ander land. U kunt óf wachten tot dit verandert, of u kunt op zoek gaan naar een Big Data Scientist en die verhuizen naar uw stad of gebruik maken van ‘werken op afstand’. Data analytics kan prima op afstand worden gedaan en met behulp van video conferenties kan prima worden samengewerkt.
  3. In plaats van het aannemen van een Big Data Scientist kunt u ook bestaand IT personeel omscholen naar Big Data en zorgen dat ze van elkaar kunnen leren en ‘along the way’ steeds meer kennis op doen van Big Data. Wellicht heeft u zelfs als een ‘Big Data medewerker in de dop’ in dienst zonder dat u het weet.

Wilt u toch een Big Data Scientist aannemen, dan is het belangrijk om meer naar het totale plaatje van de Big Data Scientist te kijken dan naar specifieke vaardigheden. Zoals reeds aangegeven zijn er namelijk veel verschillende tools en technieken die gebruikt kunnen worden. Het aantal technieken is zelfs zo groot dat een overzicht daarvan geven ondoenlijk is. Alleen het landschap van Big Data open source tools is al enorm onoverzichtelijk en dan heb ik het nog niet over de betaalde software oplossingen.

Om als Big Data Scientist aan te nemen is het daarom niet zo zeer het aantal oplossingen waar mee gewerkt kan worden van belang, maar meer de vaardigheid om patronen te ontdekken in miljoenen datapunten, afkomstig van een groot aantal verschillende bronnen en in staat zijn om inzichten te ontleden aan die patronen welke gebruikt kunnen worden in de besluitvorming. Dus in plaats van alle technieken te kennen moet een Big Data Scientist in staat zijn om op basis van hetgeen nodig is een juiste keuze te maken tussen de diverse mogelijkheden.

De keuze van de techniek heeft natuurlijk te maken met kennis van de markt en nog belangrijker kennis van de zakelijke context van het bedrijf. Voor een Big Data Scientist de data in kan duiken, moet hij/zij een goed begrip hebben van de context en het probleem volledig begrijpen. De beste manier om dat te doen is door samen te werken met business managers en de discussie aan te gaan wat nu precies noodzakelijk is. Kennis van hoe organisaties werken is daarom van belang. Een beter begrip van de context zal zeer zeker leiden tot betere resultaten.

De wereld waarin wij op dit moment leven is drastisch aan het veranderen. Data zal de komende jaren onze manier van werken en leven drastisch veranderen. Daarom is het zo belangrijk voor organisaties om hier rekening mee te houden en u tijdig voor te bereiden op een data-gedreven economie. Dit kunt u doen door nu kennis op te doen omtrent Big Data en aan de slag te gaan met Big Data binnen uw organisatie, zodat uw organisaties klaar is voor de data en informatie revolutie die er aan zit te komen.

Mark van Rijmenam

Mark is een gerenomeerde Big Data strateeg en tevens founder van Datafloq. Daarnaast schrijft Mark regelmatig een blog voor IIR ICT.

Wij gebruiken cookies om IIR.nl gemakkelijk te maken. Bezoekt u onze website, dan gaat u akkoord met deze cookies meer informatie

De cookie-instellingen op deze website zijn ingesteld op 'toestaan cookies "om u de beste surfervaring mogelijk. Als u doorgaat met deze website te gebruiken zonder het wijzigen van uw cookie-instellingen of u klikt op "Accepteren" hieronder dan bent u akkoord met deze instellingen.

Sluiten