Data science, een uitbreiding van data mining, opent nieuwe perspectieven. Maar de projecten worden niet op dezelfde manier aangestuurd. Tanguy Le Nouvel, directeur Data Science Practice bij Micropole, licht toe.

“Data science breidt het principe van data mining uit tot de nieuwe big-dataplatforms. Als je er nauwkeuriger naar kijkt, dan zie je dat de meeste fundamenten van de algoritmes die altijd genoemd worden als producten van de datawetenschap al héél lang geleden zijn gedefinieerd, of het nu om beeldverwerking, tekstverwerking of machine learning gaat,” zegt Tanguy Le Nouvel, directeur Data Science Practice bij Micropole.

Wat er echter wél is veranderd, is de koppeling van een bijna oneindige rekenkracht aan de democratisering van de toegang tot de nieuwste generatie algoritmes, die nu alle soorten informatie kunnen verwerken en meer voorspellingen en aanbevelingen in real time kunnen afleveren, soms met chirurgische precisie. “Maar, hoewel het veld der mogelijkheden vandaag zeer veel groter is geworden, hadden vele onlangs gelanceerde projecten zonder problemen ook al tien jaar geleden op een desktop-pc kunnen worden gedaan! Des te beter dus als alle buzz over big data en datawetenschap de geesten wakker heeft geschud!”

Het andere voordeel van de nieuwe big-dataplatforms is dat ze het mogelijk maken alle gegevensbronnen van een bedrijf (gestructureerde en ongestructureerde, data warehouse, web, sensoren, externe gegevens, …) in één omgeving samen te brengen, wat tot een aanzienlijke verhoging van de productiviteit van datawetenschappers leidt en waardoor ook een 360°-visie mogelijk wordt, wat tot nu toe voor veel bedrijven in het virtuele stadium was blijven steken.

Niet improviseren

“Dat het nu eenvoudiger wordt al die data in één enkele omgeving samen te brengen, betekent overigens nog niet dat elk data-scienceproject niet een afbakenings- en bewerkingsfase van zeer specifieke gegevens nodigt heeft,” onderstreept Tanguy Le Nouvel. “Het opstellen van individuele chronologieën en customer journeys zoals het sterker worden, afnemen of instabiel worden van bepaald gedrag in een omnichannel-context om een gebeurtenis te voorspellen, dat improviseer je niet zomaar eventjes bij elkaar als je het nooit eerder bij de hand hebt gehad.”

De meeste algoritmen moeten inderdaad kunnen werken binnen datatabellen die niets weg hebben van de ruwe gegevens die in datameren geloosd worden. In de meeste gevallen moeten deze algoritmen kunnen werken binnen tabellen waar elke rij voor een onderscheiden persoon staat en elke kolom voor specifieke informatie over die persoon. Maar de gegevens die in datameren worden geloosd zitten meestal in een transactioneel formaat. Voor een project in verband met klantenkennis, bijvoorbeeld, zal het deze ruwe data moeten kunnen omvormen, om zo het best de situatie van elke klant samen te vatten vóór het evenement dat je in een model wilt vatten. Die indicatoren zullen zowel op de profielschets van de klant slaan als op zijn gedrag in het verleden – alle recente aankopen, bezoeken online of offline, aankoopparcours, reacties op marketingprikkels, reviews van consumenten, bewegingen, affiniteitsvoorkeuren, gebruik van producten via sensoren …

“Dan mag je nog ‘de koning van het programmeren’ zijn, het zal je niet veel vooruithelpen als je nooit te maken hebt gehad met het omvormen van ruwe gegevens in potentieel relevante indicatoren om het beoogde evenement te verklaren of te voorspellen,” weet Tanguy Le Nouvel stellig. “Tot nu toe echter werden de meeste data-miningprojecten gewijd aan de voorbereidende bewerking van gegevens. We zien dan ook dat er vanuit dat oogpunt niets verandert met de komst van datawetenschap.”

Schapen met vijf poten

Tot slot is deze technologische verschuiving ook een enorme kans voor bedrijven die willen anticiperen op en voorspellingen doen over de belangrijkste evenementen van hun activiteit. Net zoals ze dat evenzeer is voor de data-miners zelf, die nieuwe benaderingen (machine learning) en nieuwe tools (R, Python, H2O …) zullen kunnen ontdekken, die ze makkelijk zullen kunnen gebruiken.

En zelfs als sommige data-miners, zoals beslist wel zal zijn voorgekomen, zich een beetje verloren hebben gevoeld bij zulke opschudding en de onwaarschijnlijke ophoping van nieuwe omgevingen, talen, pakketten en oplossingen die ze geacht werden onder de knie te hebben vanwege bedrijven op het aanwervingspad: laten ze zich geen zorgen maken! Deze functiebeschrijvingen komen overeen met de profielen van de pioniers in datawetenschap: de beroemde ‘schapen met vijf poten’. Maar spoedig zullen er niet meer dan twee elkaar aanvullende profielen over zijn.

Eén, de big-data-architecten met een veeleer informatica- dan businessgericht bedrijfsprofiel: die worden verantwoordelijk voor de configuratie en de administratie van het big-dataplatform, het beheer van de datastromen, de voorbereiding van de data en het automatiseren van de verwerking ervan om de datawetenschapper het werk lichter te maken en het operationeel benutten van voorspellingen of aanbevelingen. Twee, de data scientists met een veeleer statistiek- en zakelijk gericht profiel: zij zullen worden belast met het maken van de verbinding tussen zakelijke behoeften en data, het transformeren van die laatste om ze te analyseren en samen te vatten en bepaalde gebeurtenissen of gedragingen te verklaren en te voorspellen. In zekere zin een uitbreiding van het profiel van de data-miner met daarbovenop beheersing van de talen R en Python en echte vaardigheid in het kiezen van de juiste taal naar gelang van de specifieke vereisten van elk onderzoek.

Meer in het algemeen, is de opvatting bij Micropole, resulteren big-data-architecturen in een andere samenwerking tussen de verschillende actoren. Terwijl de data-miner aan het einde van de keten was neergezet en hoogst zelden bij eerdere fasen van projecten werd betrokken, zal de datawetenschapper meteen bij het begin van het project, samen met de big-data-architect, naar gelang van welke aanpak verkieslijker is, werken aan de beste manier om de hand te leggen op de data (API JSON-bestandstypen, real-time verwerking van gegevensstromen, enz.). De datawetenschapper geeft op die manier zijn input naar gelang van de pakketten, bibliotheken en algoritmes die hij denkt nodig te zullen hebben, waarbij het gebruik zelf van de algoritmes bepaald wordt door de hoeveelheid gegevens.

Begrijpen, creëren, experimenten

 “Er zit dus een dimensie van governance aan het werk van de datawetenschapper, door zijn unieke vermogen om in het datalake met alle transversale bedrijfsgegevens aan de slag te gaan”, aldus Tanguy Le Nouvel. “Dan rijzen er vragen in verband met de veiligheid, het respect voor en de bescherming van persoonlijke gegevens, de verwerking van gevoelige gegevens, enz. De datawetenschapper moet morgen dus werken met profielen zoals de chief information security officer, maar ook het hoofd databeheer, de beroemde CDO, die de strategie en ambitie van de gegevens binnen de organisatie stuurt.”

Onvermijdelijk zal er een intensiever beroep op datawetenschap in machine-learningmodus worden gedaan bij het operationele proces, door het gegeven van big data, de rekenkracht van de nieuwe platforms en de noodzaak om steeds meer voorspellingen, voorschriften en relevante aanbevelingen aan te leveren, sommige in real time. Maar machine learning betekent black box, en voorspellende analyse betekent het aan banden leggen van het spook van het verleden in het beïnvloeden van en richting geven aan de toekomst. Maar bedrijven zullen nog steeds doorzicht in nieuwe aanbiedingen, nieuwe strategieën en nieuwe voorzieningen moeten hebben om die te creëren en ermee te experimenteren.

“Bedrijven zullen dus proactief moeten zijn en massaal voor de ‘test and learn’-aanpak moeten kiezen,” besluit Tanguy Le Nouvel. “Op die manier zullen ze aan de hand van de klassieke statistische benadering en datawetenschap hun nieuwe groeihefbomen kunnen meten en identificeren.”