Welke ingrediënten zijn er nodig?

De juiste balans vinden in data-aanbod is een heel belangrijke element in Data Science. Dat begint met een globale verkenning naar data in de organisatie. De data die de verkenning oplevert, moet voldoende zijn voor een eerste exploratie.

"We hebben zelf zoveel data waarmee we nog zo weinig doen."

Bepaal doel

Het is belangrijk om duidelijk te krijgen, wat het doel is van Data Science. Wilt u alleen beschrijven hoe een situatie is? Wilt u verklaren wat er gebeurt, of voorspellen wat er gaat gebeuren en hoe u het vraagstuk moet aanpakken? Zie het figuur hieronder van Gartner voor de verschillende Data Science-doelen. Het doel bepaalt voor een groot deel de benodigde analysetools. In onze verkenning met gemeenten zijn we vooral onderzoekend te werk gegaan.

Doel

Overzicht data(sets)

Veel gemeenten hebben nog weinig tot geen overzicht van alle datasets. Denk aan registraties, monitors enzovoort, die binnen de organisatie aanwezig zijn. Laat staan een overzicht van de inhoud en betekenis van deze data(sets). Terwijl een gestructureerd overzicht binnen de gemeente positief kan bijdragen aan huidige en toekomstige (big) data-analyse-vraagstukken. In de enorme toename van externe informatiebronnen is het belangrijk een goed overzicht te hebben van registraties waarvan de informatie op een andere manier wordt verkregen. Het is bij elk Data Science-traject belangrijk om van alle datasets te weten wat u ermee mag. Maar ook: wat ze inhouden, hoe ze zich tot elkaar verhouden, hoe u data kunt herleiden en wat de restricties zijn op privacygebied.

Alles begint met datamanagement

Het delen van data op een gestructureerde en zinvolle manier - zowel tussen afdelingen als via expertises - is voor veel organisaties nog een uitdaging. Maak bij aanvang van een Data Science-exploratie duidelijke onderlinge afspraken met bronhouders over de wijze waarop data wordt beschreven en ontsloten. Voorkom dat u gerepliceerde data gebruikt of data alsnog moet repliceren. Probeer zoveel mogelijk data real-time vanuit de bron op te roepen op het moment dat het echt nodig is ("just-in-time-principe"). Het is belangrijker te weten wat de data betekent (meta-eigenschappen), wat de kwaliteit is, en op welke wijze deze is (on)gestructureerd, dan lokaal te kunnen beschikken over een exacte bronkopie. Met de juiste tools voor datamanagement, inclusief datavisualisatie, maakt u enorme sprongen vooruit. Het zorgt ervoor dat u snel validaties en kwalitatieve toetsing kunt uitvoeren, en data aan de hand van het principe onttrekken, opwerken en presenteren/verspreiden van data (Extract, Transform and Load, ETL) kunt verrijken. Visualisatie van gebundelde datasets maakt het mogelijk om snel tekortkomingen en de oorzaak daarvan te ontdekken.

Een speelse manier om met datamanagement aan de slag te gaan kan door het spel Datapoly te spelen. Datamanagement hoeft niet perfect te zijn ingeregeld, voordat u met een Data Science-project start. We raden aan een "agile-methode" te gebruiken. Kleinere (deel)projecten en iteraties helpen u om snel verbeteringen door te voeren.


Welke ingrediënten heeft u nog niet?

Niet wat er allemaal beschikbaar is, is bepalend, maar dat wat een bijdrage levert aan het onderzoek. De juiste balans staat centraal als het meest belangrijke element in Data Science.

"Ik heb niet echt zicht op welke data en tools 'out there' zijn. Er lijkt zoveel te zijn."

Data als olie en goud

De uitspraak 'data zijn het nieuwe goud of de nieuw olie' ging ook op tijdens de experimenten. Er zijn zeer veelbelovende data (sets) die u in talloze Data Science-trajecten kunt gebruiken. Data op basis van telefoonverkeer, betaalverkeer, sensoren, IoT zijn mogelijk zeer bruikbaar. Tijdens een van de trajecten ging het bijvoorbeeld over "traffic"-informatie op basis van GPS-registratie van de fysieke locatie van de telefoon. De licentiehouders en/of eigenaren van de datasets weten de waarde van de informatie. Dit resulteert in een hoge dataprijs. Ook is er vaak sprake van het opknippen van grote datasets in kleine (en vaak kostbare) delen. Een gemeentelijke samenwerking in het collectief inkopen van data biedt een kans op gezamenlijk gebruik.

Analysetools

Big data kunnen niet meer met de hand worden geanalyseerd. Softwaretools zijn nodig om deze grote hoeveelheden data te verwerken en te analyseren. De inkoop hiervan is een hele klus. Wat is er allemaal beschikbaar? Welke soort softwaretools zijn er specifiek nodig voor de maatschappelijke opgave? Dat vraagt om voortschrijdend inzicht en u ondervindt vaak uit ervaring of de softwaretool bij het probleem past. Daarbij gaat het ook om een juiste prijs-kwaliteitsverhouding. Draait één gemeente voor de kosten op, of is een gezamenlijke inkoop gunstig? De verschillende datalab-initiatieven (zoals het VNG Realisatie Data Science Center) kunnen aan de oplossing van dit dilemma bijdragen. Ook de Gemeentelijke Inkoopvoorwaarden bij IT (GIBIT) kan u verder helpen.


Kijk naar houdbaarheid en kwaliteit

Wanneer het over de kwaliteit van data gaat, spreken we al gauw over de betrouwbaarheid. Maak zonder u blind te staren op alle vermoedelijke tekortkomingen een inschatting hiervan. Maak wel op tijd een afweging of de kwaliteit voldoende is om het experiment te doorlopen. Ook hier kan datamanagement bij helpen. Een overzicht van alle verzamelde en beschikbare data met een beschrijving van format, omvang en inhoudsaspecten (bijvoorbeeld over het gebruik van persoonsgegevens) is erg belangrijk voor elk Data Science-project.

"Hoe weet ik of mijn data wel betrouwbaar is? Sommige data is vrij ongestructureerd."

Nieuwe inzichten

Nieuwe data en methoden bieden kans op nieuwe inzichten. Inzichten die niet zozeer in competitie staan met bestaande inzichten, maar veel meer complementair zijn en daarmee van toegevoegde waarde. Opvallend genoeg worden resultaten vanuit Data Science vaak op inhoud beoordeeld op basis van bestaande inzichten waarvan aangenomen wordt dat die kloppen. Data Science staat soms nog in de kinderschoenen. Dat wil niet zeggen dat de oude inzichten wel allemaal kloppen. Actuele cijfers en inzichten kunnen dus afwijken van al bestaande kennis. In het voorbeeld ziet u wat u over een onderwerp kunt weten. Elke onderzoeksvorm ziet een deel van die werkelijkheid. De winst zit niet in de overlap, maar in wat big data extra brengt. Dat maakt het totaalbeeld groter.

Voorbeeld overgewicht

Privacy

In veel trajecten komt vroeg of laat de vraag over het gebruik van persoonsgegevens op tafel. Privacy en dataveiligheid zijn belangrijke onderwerpen om mee te nemen in de trajecten. De kunst is om dit niet alleen als obstakel te zien. De ontwikkeling van Data Science en big data loopt vooruit op de wetgeving als het gaat over het omgaan met persoonsgegevens en privacy. Veel gemeenten zijn onzeker over de toepassing van de wetgeving en de zoektocht naar de doelbinding. De nieuwe AVG heeft vooral geen stuitende oplossing voor het doen van exploratief onderzoek. Gemeenten hebben nog tot mei 2018 om hun gegevensbescherming in lijn te brengen met de AVG.


Bereid de ingrediënten voor

Data Science bevindt zich in essentie op het snijvlak van programmeren, statistische modellering en sociale wetenschap en is gericht op een praktische toepassing en een breed publiek. Het gaat in feite om het onttrekken van kennis en inzichten uit data. Het creëren van een unieke smaakbeleving door een mix van heel verschillende ingrediënten.

"Data-science is fusion cooking."

Valideren van dataset

U bedrijft Data Science zolang u naar een samenstelling van wisselende perspectieven vanuit verschillende disciplines op een vraagstuk streeft. Elke mogelijkheid kan weer met andersoortige data worden gevoed. Dat betekent dat de aard van de dataregistraties, de gehanteerde conventies en de kwaliteit mogen verschillen. Zolang de data consistent en eenduidig worden geregistreerd, is het minder belangrijk wat een enkele databron eigenhandig representeert. Het valideren van een dataset moet u daarom loszien van een inschatting van de informatieve aard van de data. Het interpreteren en beschrijven van de dataset parameters is stap twee. Het in een evaluatie inschatten of de dataset bruikbaar is, is weer een afzonderlijke stap. Ook hier geldt dat datavalidatie, interpretatie en evaluatie geen perfect lineair proces vormen.

Data voorbereiden

Om met data aan de slag te kunnen, moeten eerst alle benodigde datasets zijn geïnventariseerd en worden ontsloten. Daarna is het heel belangrijk om de data op te schonen. Hiermee zorgt u ervoor dat u tijdens de analyse met een zo 'schoon' mogelijke data kan werken.