Data Science geeft je data een gezicht!

handmatige dataverwerking behoort tot het verleden

Wat kan jij met Data Science?

Data Science biedt je ongekende inzichten en deze wetenschap speelt nu al een belangrijke rol in je leven.
Denk allereerst maar aan besluitvorming. Data Science geeft je inzichten uit grote hoeveelheden informatie.
Op basis daarvan worden beslissingen genomen waar supermarkten, banken, etc. nu al gebruik van maken.
Deze techniek is ook bereikbaar voor jou bedrijf of toepassingen! In dit artikel leggen we je uit hoe dit werkt.

Wat is Data Science dan precies?

Data Science is de benaming voor de wetenschap die over data gaat.  Hoe maak je van grote hoeveelheden data uit je bedrijfsproces informatie waar je geld mee kan verdienen? Om hier mee aan het werk te gaan komt de Data wetenschapper op de hoek kijken.  Dat is een boeiend multidisciplinair vakgebied dat onder meer wiskundige algoritmen gebruikt om data uit gestructureerde en ongestructureerde gegevens te halen. Die geëxtraheerde data geeft jou vervolgens inzichten over je proces, klanten of andere vraagstelling waar genoeg data voor beschikbaar is.

Dat is Data Science!

Allerlei vormen van bedrijfsgegevens waar conclusies uit getrokken worden. Data Science is meer dat data Capture en vervolgens gegevens rubriceren of calculeren.  Data Science combineert expertise uit allerlei verschillende domeinen. Denk bijvoorbeeld daarvoor aan statistiek, specifieke software (algoritme) ontwikkeling en vooral wiskundige kennis.

handmatige dataverwerking behoort tot het verleden

 

We analyseren je data!

Dat geeft meteen aan wat we zoal bij EasyData doen, we houden ons dagelijks bezig met in meer of mindere mate complexe datasets. Zo’n dataset analyseren we op verschillende criteria en toetsen de analyse van zo’n dataset met verschillende wiskundige algoritmen om zo duidelijk als mogelijk data te interpreteren. Wil je zelf met Data Science en Machine Learning aan de slag?

Op zoek naar patronen…

Dat is het primaire doel van de EasyData datawetenschapper, het blootleggen van verborgen patronen. Als die patronen de oppervlakte raken moeten deze voor de opdrachtgever op een heldere wijze gepresenteerd worden.  Data voorspellingen doen aan de hand van uitkomsten die uit een minder transparant systeem komen heeft niets met Data Sciense te maken, dat valt wat ons betreft onder de noemer van waarzeggerij. Daar blijven we bij EasyData ver van verwijderd. Ons doel is het genereren van bruikbare inzichten aan de hand waar van je besluiten kan nemen op basis van de door Data Science gerealiseerde inzichten.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

We duiken de techniek in…

Onze ambitie is om jou te helpen inzage te geven in je informatie, zonder gedoe met techniek. Hoe die techniek werkt willen we graag aan belangstellenden uitleggen en dat gaan we onderstaand doen.

handmatige dataverwerking behoort tot het verleden

Je gegevensverzameling

Om als data wetenschapper aan het werk te gaan hebben we informatie nodig. Die informatie (de data) noemen we een gegevensverzameling.  Zo’n gegevensverzameling verwijst naar een set van gegevens, data of informatie die systematisch is verzameld.  Dat kan van alles zijn, orders die binnenkomen, maatwerk informatie die bij orders aan de productieafdeling wordt door gegeven of anderszins. In principe kan alle data die opgeslagen is onderdeel vormen van de gegevensverzameling waar de data wetenschapper mee aan het werk gaat.

Wat voor soort gegevens?

Als je die lijn verder doortrekt, zal je ontdekken dat gegevensverzamelingen voortkomen uit verschillende soorten gegevens, denk daarvoor aan allereerst aan tekst en getallen. Vervolgens schikken we niet van gegevensverzamelingen die bestaan uit   afbeeldingen, geluiden, geregistreerde metingen van apparaten, of welke andere vorm van informatie dan ook. Bij EasyData benaderen we Data Science vanuit een breed perspectief. Of anders gesteld, we passen ons aan in iedere bedrijfsomgeving waar altijd weer opnieuw andere gegevens verzameld worden.

Een dataset of een gegevensverzameling

Beide begrippen bedoelen hetzelfde, dit zijn in feite synoniemen van elkaar. Beide afzonderlijke termen verwijzen naar geclusterde gegevens die systematisch is verzameld in je bedrijfsproces. Die gegevens worden met opzet opgeslagen voor een specifiek doel. Veelal betreft het gegevens die ontstaan doordat je werkzaamheden goed uitvoert. In het Engels wordt meestal de term “dataset” gebruikt, terwijl juist in het Nederlands vaker over “gegevensverzameling” wordt gesproken. Het belangrijkste is dat deze termen door elkaar gebruikt kunnen worden en allebei hetzelfde bedoelen.  De term duidt op een set gegevens die in het kader van Data science als basis gebruikt wordt om tot een waardevolle gegevens presentatie te komen.

We stellen je dataset samen, Data Science in praktijk!

Data Science begint met een dataset. Zo’n dataset is opgebouwd met data vanuit je eigen organisatie. Dat is het verrassende resultaat dat je bereikt met moderne Data Capture. Slimme Data Capture van EasyData is in staat vanuit allerlei bronnen relevante data voor je aankomende resultaat te verzamelen. Zelf een pak oude kranten of reclame uitingen van je concurrentie kunnen een mooie basis vormen om met Data Science aan het werk te gaan. Even tussendoor een woord van uitleg. Een ‘Dataset’ is het model (en natuurlijk de data) waarop jouw specifieke Machine Learing model getraind gaat worden.

Externe Datasets?

Data voor je samen te stelen dataset hoeft niet per se uit je eigen organisatie afkomstig te zijn. Je kan allerlei externe datasets in je profiel opnemen.  Al die externe invloeden en dus je externe datasets, maken ons vak nu juist zo interessant! EasyData Data Science specialisten hebben kennis van een breed pallet aan (Data) mogelijkheden. Wij zijn op basis van die kennis en ervaring in staat jouw de gewenste data analyse resultaten te presenteren. Niet als eenmalige actie, maar steeds opnieuw en aanpasbaar naar jouw veranderende marktsituatie. Om een idee van de beschikbare dataset te krijgen kan je deze link bezoeken, hier staat een overzicht van Nederlandse en kosteloze datasets. Een ander meer internationaal voorbeeld staat hier.

handmatige dataverwerking behoort tot het verleden

Data preprocessing

Als we met je gegevensverzameling of Dataset aan het werk gaan komt allereerst Data preprocessing en data cleaning in beeld. Dit zijn belangrijke stappen om tot een goed eindresultaat  te komen. We kennen in dat aspect veelal wel de uitdrukken “garbage in means garbage out”.  Om goede resultaten in jouw Data Science proces te presenteren besteden we tijd aan de voorkant van dataverwerking. Een goede voorbereiding is essentieel om realistische gegevens te presenteren. Het doel van Data preprocessing stappen is om de kwaliteit en bruikbaarheid van de gegevens voordat het Data Science proces effectief begint de kwaliteit van de dataset naar een zo hoog mogelijk niveau te tillen. Dat proces van Data preprocessing maken we inzichtelijk.

Data Sciense kennis

Wij zijn ervan overtuigd dat als jij begrip hebt van wat erbij komt kijken voordat we je ruwe informatie kunnen verwerken iedereen meer plezier aan het eindresultaat beleeft. Onderstaand staan een aantal voorkomende Data preprocessing stappen beschreven. Heb je nog vragen? In dat geval horen we graag van je!

handmatige dataverwerking behoort tot het verleden
handmatige dataverwerking behoort tot het verleden
handmatige dataverwerking behoort tot het verleden
handmatige dataverwerking behoort tot het verleden
handmatige dataverwerking behoort tot het verleden
handmatige dataverwerking behoort tot het verleden

Beeld verbetering

Bij gescande documenten is het van belang dat de te lezen gegevens op een technisch zo compleet als mogelijk wijze gelezen worden.  EasyData heeft hiervoor Beeldverbetering algoritmen geschreven die op maat voor specifiek jouw documenten ingezet kunnen worden.

 

Duplicaat verwijdering

Identieke documenten in de dataset moeten worden verwijderd. Overeenkomstige gegevens bieden geen toegevoegde waarde aan de analyse. Sterker, als er veel duplicaten zijn in vergelijking met andere gegeven in je dataset zou dit zelfs tot een vertekend beeld in het eindresultaat kunnen leiden.

Ontbrekende gegevens

Ontbrekende waarden in de te gebruiken gegevensverzameling geven problemen. Het heeft niet zoveel zin analyses te maken als delen van de het fundament ontbreken.  Heb je een incomplete dataset? Dan is dat geen onoverkomelijk probleem. Een oplossingsrichting is om de onberekende data uit andere bronnen te halen. Of data uit andere bronnen te vergelijken met jouw data. Dat klinkt misschien een beetje abstract, maar kijk eens hier welke openbare bronnen we allemaal wel niet kunnen raadplegen!

Ontbrekende gegevens voorbeeld

Laten we ander voorbeeld beschrijven. Stel jezelf in de rol van een logistieke ondernemer die gaat onderzoeken waarom de vrachtauto’s niet altijd volgens de vastgestelde planning rijden.
Het niet volgen van de planning levert diverse kosten op die voorkomen kan worden door de planning en realiteit beter op elkaar aan te laten sluiten. De vraag is dan waar je begint. In dit geval gaat de ondernemer kijken naar de data die al aanwezig is.

In dit geval heeft de transportonderneming al gegevens van de slagboom en weegbrug. De slagboom gaat pas open na een positieve kenteken herkenning. Zo weet je al precies wanneer een vrachtauto het terrein verlaat of juist oprijdt. Een ander identificatie punt is de eveneens aan kentekenregistratie gekoppelde weegbrug. Opnieuw vastgestelde data die een waardevolle bron van informatie oplevert.

Natuurlijk, die informatie is lokaal gebonden en biedt onvoldoende aanknopingspunten voor een kwalitatief Data Science project. De ontbrekende gegevens zijn in dit voorbeeld allereerst de voorde hand liggende file informatie en weersinvloeden.  Die gegevens leggen samen met de weegmomenten en terrein bewegingen een fundament voor je Data Science project.  

Mogelijk komen er in de praktijk nog een aantal databronnen bij we mee en presenteren daarmee meer dan alleen een beter beeld over planning in het verleden. Op basis van deze gegevens kan je actueel en naar de toekomst toe een effectievere plannen maken door al deze gegevens te combineren. Zo zal je in de cijfers voorspelbaar ontdekken dat er op dinsdag en donderdag meer files staan.  Andere trends van weersinvloeden in bepaalde regio’s zijn lastiger te voorspellen zonder historisch opgebouwd Data Science project.  

Standaardisatie

Verschillende schalen en aannames zijn in ons dagelijkse menselijke verkeer heel normaal. Tijdens een overleg passeren allerlei soorten informatie in allerlei vormen. Dan nemen de gezichtsuitdrukking of handgebaren van je collega’s nog niet eens mee… In het geval van een Data Science project waarin we allereerst de meetpunten vastleggen werkt dat niet. Dan is het zaak je verscheidenheid aan waardevolle gegevens strak te trekken naar bijvoorbeeld een vaste schaal van numerieke gegevens. Zodra je een meetlint definitie hebt kan je ermee gaan meten. Hoe de standaardisatie van jouw gegevens eruit gaat zien beoordelen we zodra we deze hebben beoordeeld. EasyData heeft Data Science specialisten die jouw effectief terzijde staan bij het standaardiseren van jouw eigen dataset.

Tijdsreeksen en Datumverwerking

Best belangrijk als je gegevens tijdsafhankelijk zijn. In dat geval zullen tijdsnotaties teruggebracht worden tot een uniforme notatie. Dat maakt de interpretatie van tijd- of seizoeninvloeden veel beter te begrijpen. Dit klinkt misschien als veel gedoe. Dat valt in de praktijk echter best wel mee. EasyData heeft hier standaard normalisatie routines (of algoritmen) voor ontwikkeld die bijna automatisch datum en tijd reeksen converteren naar een begrijpelijk formaat.

Dataset uitzonderingen (Outliers)

Dat komt in de beste datasets voor…  Waarden die afwijken van het grootste deel van de gegevens. Uitschieters vertekenen de analyseresultaten. Is dat een reden om in het proces van ‘Data Preprocessing’ de data uitzonderingen te verwijderen? Dat is de vraag, de uitzonderingen komen werkelijk voor en vormen zodoende een onderdeel van de analyse.  Er zijn verschillende methoden om uitschieters te detecteren. Daar heb je ook geen data wetenschapper voor nodig, sorteren op waarde in Excel volstaat in dat geval. Het wordt anders in een Data Science project, dan komen meer complexe statistische methoden in beeld. Zo kan je bijvoorbeeld uitzonderingen detecteren met Z-score-analyse, of volgens de IQR methode.

Maak je geen zorgen als deze wiskundige onderbouwing buiten je dagelijkse werkzaamheden valt. Bij EasyData zijn specialisten hier dagelijks mee bezig. Dit is ons vak en worden blij van dit soort vraagstukken. En om deze kennis in de praktijk te brengen hebben we jouw hulp nodig. Nadat de uitzonderingen geïdentificeerd zijn is het belangrijk om de aard ervan te begrijpen.  Hoe verhouden deze uitschieters (in vakjargon Outliers) zich tot echte fouten?

handmatige dataverwerking behoort tot het verleden

 

De Outliers vervolg vraag is dan:

Is de ongebruikelijke gebeurtenis in je gegevensverzameling een uitzondering die we moeten negeren of juist niet?

Zo komt meteen voorspellende data-analyse in beeld. Door data uit het verleden te begrijpen kunnen toekomstige
beslissingen beter genomen worden. Het zal je duidelijk zijn: Om deze waardevermeerdering aan je proces te koppelen,
is kennis van het domein of de context waarin de gegevens zijn verzameld essentieel. Dat maakt Data Science
projecten ook zo interessant, dit is een vakgebied waar opdrachtgever en EasyData samenwerken om tot een goed resultaat te komen.

Exploratory Data Analysis (EDA)

Deze stap wordt nog wel eens overgeslagen, je hebt je gegevensverzameling, deze uitgezocht op uitzonderingen en genormaliseerd. Dan is het tijd voor Machine Learning!  Tja, dat zou je denken, de praktijk is echter anders. Een belangrijke stap voor het werkelijke trainen is de gegevens analyse waarbij je de dataset in zijn geheel verkent. Het doel van deze verkenning is dat je patronen en inzichten gaat ontdekken. Dit kan inderdaad een best lastige klus zijn. Het liefst betrekken we hier de opdrachtgever in.

Het zal niet verbazend zijn dat dit een onderdeel is dat toch wel vaak deels aan EasyData wordt uitbesteed. Het hoofddoel van de EDA stap is om een beter begrip van de gegevens te krijgen. Welke processen kan je ontdekken labelen voordat je diepgaande analyses uitvoert. Dit scheelt meer dan alleen tijd in het data-analyse proces. Aan de hand van deze stap kan de Data wetenschapper ook een beeld vormen welk Machine Learning algoritme het beste gebruikt kan worden. Of juist een combinatie van verschillende Machine Learning algoritmes in verschillende fase van het proces.

handmatige dataverwerking behoort tot het verleden

 

EDA in afzonderlijke analyses opgesplitst

In deze proces stap beginnen we meestal met de analyse van elke afzonderlijke variabele. We noemen dat binnen het Data Science domein “Uni-variate Analyse”. In het verlengde daarvan komt dan logischerwijze de “Bi-variate Analyse” in beeld. Deze analysemethode onderzoekt de relatie tussen paren van variabelen.  Als laatste kijken we naar de onderlinge meer complexe relaties tussen de afzonderlijke variabelen. Dan bereken je correlaties tussen variabelen.

Betekend dit dat je een (halve) wiskundige moet zijn om met Data Science aan het werk te gaan?

Zeker niet, EasyData heeft deze kennis royaal in huis.

Wel is het van belang om te begrijpen dat we een Data Analyse systeem dat model staat voor toekomstige vraagstukken niet zomaar tevoorschijn toveren. Andersom betekend dit ook dat wij, als datawetenschappers, ons zullen verdiepen in je processen. Als we deze samenwerking aan beide kanten goed inregelen is de basis voor succes gelegd.

Feature Engineering

We zijn nu zover dat we de dataset goed begrijpen. Dat betekent in de praktijk dat de meest relevante kenmerken uit de gegevensverzameling in kaart zijn gebracht. Met die gegevens gaan we het datamodel bouwen.  Zo kunnen we het woord “Feature engineering” dat in Data Science gebruikt wordt naar het Nederlands terugvertalen als “Datamodel bouwen”.

In de Feature Engineering processtap gaan we nieuwe kenmerken (features) creëren. Of we gaan bestaande kenmerken (opnieuw features) transformeren met als doel de prestaties van Machine Learning modellen te verbeteren. In goed opgebouwde feature engineering zal leiden tot betere voorspellingen.

Je Feature Engineering strategie begint bij de juiste Feature Selectie. Je selecteert de meest relevante kenmerken uit je dataset.  Hier heb je al in de EDA-stap kennis over vernomen. Doel is om alleen de kenmerken te behouden die daadwerkelijk bijdragen aan de voorspellende kracht van het model.

handmatige dataverwerking behoort tot het verleden

Features toevoegen

Vaak zijn de bestaande Features (dus dataset kenmerken) niet voldoende om tot een compleet datamodel te komen. In dat geval worden Features gecreëerd Creatie: Die Features (data kenmerken) worden gevormd op basis van de bestaande gegevens binnen je gegevensverzameling. Die nieuwe te creëren Features kunnen voortkomen uit de wiskundige bewerkingen die je op de dataset uitvoert. Denk dan aan het berekenen van verhoudingen, percentages of transformaties. Nieuw te vormen Features kunnen ook betrekking hebben op de combinatie van bestaande kenmerken. De combinatie van bestaande Features kunnen prima nieuwe informatie genereren die vervolgens weer tot nieuwe inzichten leidt.

Let wel op, Feature engineering heeft pas zin als je een goed begrip hebt van zowel de gegevens als projectdoelen. Onze ervaring leert dat de Exploratory Data Analysis (EDA) meer is dan een afzonderlijke stap in het data analyse project. EDA is in onze beleving een voorportaal of samenspel voor Feature engineering.

Machine Learning, belangrijk onderdeel van Data Science

De voorbereidingen zijn gedaan en komen nu toe aan de inrichting van de Machine Learning algoritmen.
Allereerst een korte inleiding over Machine Learning zelf, zodat we van elkaar weten wat daaronder verstaan wordt. EasyData ziet Machine Learning als een deelgebied van kunstmatige intelligentie (AI).
Een Machine Learning algoritme is in staat om van aangereikte gegevens te leren. In de praktijk betekent dit dat een Machine Learning algoritme in staat is zelfstandig verbeteringen door te voeren, zonder hiervoor expliciet te zijn geprogrammeerd. EasyData werkt met vele verschillende Machine Learning algoritmen, de meeste daarvan zijn Open Source. Hoewel we ook best de Machine Learning algoritmen van Google, Amazon en bijvoorbeeld Microsoft willen gebruiken. Waar we uiteindelijk voor kiezen is afhankelijk van de klant wensen, het soort gegevens en de gestelde resultaten. Deze afwegingen vallen samen met de techniek bij EasyData onder de noemer Data Science.

Kunstmatige intelligentie (AI)

Voor jou proces kan één Machine Learning algoritme heel bruikbaar zijn om je project van de gewenste resultaten te voorzien. Dit soort trajecten voeren we dagelijks uit en zien de vraag hiernaar alleen maar toenemen.  Zo’n Machine Learning algoritme heeft wat ons betreft nog niets met Kunstmatige intelligentie (AI) te maken. Hiervoor zijn
meerdere Machine Learning algoritmen actief die onder bepaalde condities ook weer van elkaar leren.   De
definitie voor Kunstmatige intelligentie (AI) is dat computersoftware gegevens analyseert en daar patronen uit
ontdekt. Op basis van die patronen worden vervolgens beslissingen genomen. Inderdaad, zonder dat een
menselijke programmeur deel uit maakt van dat proces.

EasyData werk met zelf samengestelde algoritmen die tot kunstmatige intelligentie (AI) leiden of gebruik complete modules zoals ChatGPT. Klantwensen en overwegingen staan daarvoor centraal bij EasyData Data Science specialisten.

In het geval Data Science Data Verificatie wenst…

Dan zetten we EasyVerify in. Onze veilige en complete Online omgeving die we aanpassen naar jouw wensen. In tegenstelling tot andere SAAS-aanbieders zijn wij ook genegen EasyVerify lokaal te installeren. Niet in alle gevallen even handig, maar we ervaren dat sommige data het beste gescheiden van Internet verwerkt en gecontroleerd kan worden. Met EasyVerify en al onze andere Data Science oplossingen voorzien we daar op verzoek in.

Voordeel van EasyVerify is het gemak dat de EasyVerify operators bieden. Je kan data direct controleren aan de hand van actief gekoppelde databases. Hoort document classificatie bij de opdracht? Dan zal de EasyVerify gebruiker de te classificeren documenten meteen in een omgeving zien die past bij de gestelde opdracht. Deze flexibele EasyVerify-structuur bespaart je tijd wanneer je eigen kenniswerkers je voorgestelde dataset gereed maken. Tegelijkertijd kunnen ingehuurde operators de meer eenvoudige data redigeren. De architectuur om dit op te zetten en de verschillen voor dataverwerking op te nemen zit in het fundament van onze Data Science architectuur.

dataset

Effectieve afstemming

Het zichtbaar maken van de eerste resultaten voor onze opdrachtgever is natuurlijk altijd een spannend moment!  Zeker, EasyData Engineers weten we wat we kunnen verwachten in de visuele presentatie van de opdracht, zelfs voordat we de eerste resultaten gezien hebben. Het draait om Data Science en dat is onze expertise. Zo kan je ervanuit gaan dat als de voorgaande stappen correct zijn gevolgd het resultaat aan de verwachtingen voldoet.