Dataset en open data gaan je in de praktijk veel geld besparen

Wat is een dataset?

Een dataset (of data set) is een verzameling gegevens over een bepaald onderwerp. Zo kan je voorspelling doen over files op de weg op basis van historische informatie. Ga je onderzoek doen naar de doorstroming op de Nederlandse wegen? Dan is een van je eerste onderzoekstappen het vinden van een dataset over file informatie.

Is het nu een “data set” of een “dataset”?

Er is enige discussie over het woord dataset en of het uit één of twee woorden moet bestaan. www.woorden.org vermeldt het als één woord, maar andere bronnen, zoals Dictionary.com, gebruiken het woord data set als twee afzonderlijke woorden. De voorkeur van EasyData gaat uit naar één woord, namelijk `dataset´ en die schrijfwijze gebruiken we dan ook in dit artikel. Dit artikel maakt het begrip ‘Dataset’ duidelijk op een wijze dat je hier afwegingen voor je eigen organisatie voor kan maken.

Wat zit erin een dataset?

Een verzameling gegevens rond het onderwerp dat je wilt onderzoeken. In het geval van de file informatie komt de dataset overeen met database gegevens in een tabel structuur die Rijkswaterstaat verzameld. In die dataset vertegenwoordigt elke kolom van de tabel een bepaalde variabele en elke rij overeenkomt met een bepaald record van de betreffende dataset. Een dataset bestaat niet altijd uit een tabel. Stel dat je een Machine Learning algoritme wilt gebruiken om een stoelen te herkennen. In dat geval zal je dataset uit een verzameling afbeeldingen van stoelen bestaan.

Een dataset bestaat dus niet uit een vast gegevensmodel. Een dataset kan bestaan uit een verzameling samenhangende gegevens die in allerlei verschillende formaten kunnen voorkomen. Denk dan aan teksten, cijfer reeksen, specifieke afbeeldingen, geluidsopnamen, video’s en andere bestandsformaten waar je een te definiëren verzameling digitaal in kan opslaan.

Wat doe je met een dataset?

Datasets worden vaak gebruikt bij het inregelen van Machine Learning algoritmen. Daar komt de populariteit van zo’n dataset vandaan. En om bij de file voorspellingen te blijven, hoe handig zou het zijn als je in de logistiek werkzaam bent en je planningsysteem rekening houdt met verkeersdrukte in combinatie met de actuele weersituatie?

De toekomst voorspellen

Bovenstaand voorbeeld laat de mogelijkheden om de toekomst te voorspellen aan de hand van dataset goed zien. Hoe je met historische verkeerinformatie en de actuele weersverwachting een goede kans maakt de reisduur van Amsterdam naar Rotterdam berekenen. Dat betreft dan de reisduur ook nog eens op een bepaald tijdstip. Die voorkennis of toekomstvoorspelling is niet zweverig, dit is het resultaat van toegepaste Data Science.

Wanneer je voldoende relevante data in je dataset hebt, kun je de toekomst voorspellen! Als je in staat bent op basis van je algoritme en dataset wetenschappelijk verantwoorde toekomstvoorspellingen te doen kan je zelfs de toekomst gaan manipuleren.

Om bij het voorbeeld van de file informatie te blijven, waarom zou je een bepaalde route of tijdstip kiezen als je van tevoren al weet dat je extra tijd kwijt bent vanwege files of verkeersdrukte in combinatie met een flinke regenbui? Aangezien de beschikbare hoeveelheid data steeds groter wordt, wordt het bijna met de dag makkelijker om de toekomst te voorspellen aan de hand van toegepaste data-analyse.

Data Science in de praktijk

We nemen je mee in de wonderlijke wereld van Data Science. In gewone mensen taal, hoe je met behulp van data-analyse de toekomst kan voorspellen. Ons uitgangspunt hierbij is de dataset. Zonder een passende dataset kunnen we een Machine Learning algoritme niet trainen. Het verkrijgen van zo’n dataset die precies aansluit op jouw specifieke situatie lijkt misschien lastig, maar dat hoeft niet zo te zijn.

Iedereen kan in principe datasets vinden waarmee vervolgens data-analyse resultaten behaalt kunnen worden. Google maar eens in het Dataset Search portal van Google. Een andere veelgebruikte bron van datasets is Kaggle. Naast deze twee portals zijn er nog vele andere zoeksystemen voor openbare datasets. In Nederland zijn rechtstreeks vanuit de bron ook veel verschillende datasets beschikbaar. Een overzicht daarvan vind je hier.

Van Dataset naar Data-Analyse

Om van Dataset naar Data-Analyse te komen In dit Data Science proces moeten verschillende stappen doorlopen worden. Je dataset bestaat uit zichzelf uit de data. De ‘Data Science’ bestaat in dit geval uit de kunst om met data-analyse de gewenste gegevens uit je dataset te halen. Die processtappen gaan we onderstaand grofweg in beeld brengen. Wil je aan het werk met datasets en data-analyse? Dan zijn dit de basis processtappen die bij je voorgenomen Data Science project in beeld komen.

Wat wil je met de Dataset bereiken?

Een van de eerste stappen van data-analyse is het bedenken van de vraag die je gaat beantwoorden. We moeten hier goed over nadenken en zullen in ons gesprek hierover mogelijk de ‘waarom-vraag’ in verschillende vormen terug laten komen om je vraag (en dus je onderzoeksdoelstelling) helder te krijgen.

Aan de hand daarvan verzamelen we je Dataset

Die dataset kan uit best voor een groot deel uit je eigen systemen voorkomen, Data Capture uit bestaande systemen is vaak een bron van waardevolle informatie voor je nieuwe dataset. Een andere optie kan web scraping zijn. Er is veel data over specifieke onderwerpen op Internet te vinden. Zodra je de onderzoeksdoelstellingen helder hebt kan je aan de hand van die uitgangspunten mogelijk al relevante data verzamelen. Last but not least zijn er natuurlijk de eerdergenoemde datasets. Met opzet worden die hier als laatste benoemd. Succesvolle Data Science projecten ontstaan door creativiteit en daar dragen onze Data Science specialisten graag aan bij!

Gegevens opschonen en aanvullen

De praktijk laat zien dat de verzamelde gegevens er vaak net even anders uit zien dan verwacht. EN als de gegevens in de dataset er wél uitzien zoals je verwacht hebt, dan kunnen er nog steeds delen van de gewenste data reeks ontbreken. In een ander geval komen dan weer uitschieters voor die je eigenlijk niet verwacht had. Dat maakt Data Science projecten juist zo boeiend, Data Science is meer dan een algoritme in combinatie met een dataset.

Data analyseren en visualiseren

Door de met data-analyse verkregen data in een vorm te gieten die eenvoudig is te begrijpen, kan je effectiever tot betere inzichten komen. Datavisualisatie helpt je bij het ontsluiten van je data op een transparante en begrijpelijke wijze. Je antwoorden die bij de vraag wat je wilt bereiken horen moeten in dit onderdeel letterlijk zichtbaar worden. EasyData gebruikt hier veelal Grafana voor. Indien de opdrachtgever zelf al een ander data visualisatie platform heeft gebruiken we dat natuurlijk.

Wat kunnen we verbeteren?

Hier komen we in het domein van wat Feature engineering genoemd wordt. In veel projecten is Feature engineering een belangrijk onderdeel om tot een kloppende voorspellende analyse te komen. Met Feature engineering transformeren we waarden uit onbewerkte gegevens naar een dataformaat dat kan gebruiken voor accurate voorspellingen.

Feature engineering komt in beeld zodra de dataset met de hiervoor getrainde algoritmen gegevens gaat opleveren. Die opgeleverde gegevens, dus het resultaat van je data-analyse, gaan we evalueren. Vervolgens construeren we op iteratieve wijze de specifieke kenmerken en evalueren we voortdurend de verbeterde modelprestaties. Die verbeteringen blijven we vergelijken met onze basisgegevens die ons uitgangspunt vormen voor het verbeterde resultaat.

Proces afronding

Afhankelijk van de individuele afspraken met onze opdrachtgever voorzien we onze Data Science project van de gewenste documentatie. Daarin is ook een hoofdstuk opgenomen hoe de dataset tot stand is gekomen. Op verzoek trainen we medewerkers van onze opdrachtgever over het afgeronde Data Science project.

Datasets helpen je om patronen sneller te herkennen