OCR software, hoe zit dat en wat kan je ermee?

OCR Betekenis

OCR Software uitgelegd

OCR software, het optisch (is scannen of fotograferen van tekst) is het proces dat van een afbeelding automatisch letters herkend en die herkende tekst omzet in tekst karakters die je bijvoorbeeld in Word kan gebruiken.

We noemen dat een ‘Machine leesbare tekstindeling’. Samengevat, je kunt OCR software gebruiken om een gescande of met je telefoon gemaakte afbeelding om te zetten naar een tekstdocument.

OCR Geschiedenis

De geschiedenis van OCR Software

Vroeger werden in de meeste zakelijke transacties de uiteindelijke overeenkomsten op papier ontvangen. Papieren formulieren, facturen, gescande juridische documenten, contracten en wat al niet meer maakte deel uit van de dagelijkse bedrijfsprocessen. Deze grote hoeveelheden papierwerk kostte veel tijd en ruimte om op te slaan en te beheren. Terugzoeken was lastig en hier vinden we oorsprong van het ‘papierloze kantoor’. Hoewel papierloos documentbeheer nog niet mogelijk was, alle documenten moesten immers eerst gescand worden, was dit het begin van kantoorautomatisering zoals we dat vandaag kennen. OCR Software zorgde voor de herkenning en terug zoek mogeelijkheden van zakelijke correspondentie binnen de toen opkomende digitale archief en beheer softwareoplossingen.

OCR Toepassingen

Meer toepassingen voor OCR Technologie

Zakelijke documenten beschrijft slechts een deel van de toepassingen die OCR Technologie te bieden heeft. Denk bijvoorbeeld aan archivering. Hoe kan je beter een archief ontsluiten dan met OCR Technologie? Denk aan alle documenten en boeken in archieven en bibliotheken. Zo werd bij de  oorspronkelijke ontwikkeling van OCR technologie meteen geleerd van gebruikers en hun verschillende toepassingen. In ieder geval door EasyData. EasyData vindt zijn oorsprong bij de ontwikkeling van OCR Software. De verschillende toepassingen van OCR Technologie zoals we daar vanaf 1999 mee bezig zijn wordt in dit filmpje getoond.

OCR-software werkt volgens onderstaande stappen

Het OCR-proces van begin tot het einde heeft zo zijn uitdagingen die je als gebruiker niet direct ervaart. Zo hoort het ook, je zou niet bij iedere automatisering stap moeten gaan bedenken hoe het proces inhoudelijk werkt. Als je echter een OCR-Project in gedachten hebt, is begrip het OCR-proces vooraf handig. Je kan zo beter inschatten waar eventuele knelpunten liggen wat handmatig werk achteraf kan voorkomen.

Afbeeldingen scannen

Een scanner leest documenten naar een PDF, JPG en vroeger vooral TIF-bestanden. Vervolgens zet de OCR Software deze gescande en opgeslagen afbeeldingen om naar een intern beeldformaat dat alleen de OCR Software zelf begrijpt. Die interne beeldinformatie noemen we binaire gegevens en zijn de basis voor het OCR-proces.

Beeldverbetering

Voordat de tekst gelezen kan worden wordt de structuur goed bekeken. Zo wordt de afbeelding gereinigd van beeld ruis en andere storende facturen zoals contrast, scheve scans en andere ongemakken die tijdens de scan of met maken van een foto met je mobiele telefoon kunnen optreden.
De kwaliteit van die Image enhancement stap is bepalend voor de rest van het proces.

Pagina segmentatie

Een krantenpagina bevat foto’s en teksten in kaders. Het lijnenspel (de lay-out) van zo’n krant is voor de uiteindelijke tekstherkenning van belang. Je wilt na de herkenning wel tekstblokken die bij elkaar horen. Overlopende teksten van het ene naar de andere kolom leveren een onleesbaar resultaat. In zakelijke correspondentie zijn we tabellen terugkomen, denk bijvoorbeeld aan prijslijsten. Tabellen vragen weer een hele andere benadering. Sommige documenten hebben weer een hele andere structuur, denk aan technische tekeningen. EasyData heeft zelf unieke document segmentatie technologie ontwikkeld. Die wordt toegepast in technische tekeningen en vind je ook terug in meer digitale ontwikkelingen zoals PDFCommunicator.

Traditionele OCR-technologie, de tekstherkenning

De traditionele OCR Software werkt volgens een ‘Vlekken Patroon afstemming’. De OCR Technologie gaat op zoek naar Pixels die samen een patroon zouden kunnen vormen. Dat patroon zou een letter kunnen zijn die deel uitmaakt van de verwachten tekstherkenning. Een letter op zichzelf zegt niet zoveel, het wordt pas interessant als er letters naast elkaar staan. Indien de patroonherkenning ook nog eens ruimte tussen de letters ontdekt (De spaties) is er sprake van een woord.

Moderne OCR-technologie met Machine Learning

Intelligente OCR Software maakt gebruik van Machine Learning netwerken. EasyData loopt hierin voorop. Net zoals 20 jaar geleden met verrassende OCR-implementaties passen we vandaag de OCT-Technologie van morgen al toe. De resultaten van OCR met Machine Learning zijn verbluffend!  We nodigen iedere lezer uit hun ‘onleesbare’ documenten met ons te delen. Dat stelt ons in staat meer kennis te vergaren over de bestaande OCR vragen en de vragende partij in staat de volgende stap in OCR-tekst herkenning te zetten.  Op dit moment zien we vooral organisaties die vroeger gescande documenten opnieuw met OCR willen herkennen om tot veel betere resultaten te komen. EasyData OCR technologie voorziet daarin.

De woordenboeken binnen de OCR Software

Het wordt weleens vergeten, maar binnen het vakgebied van tekstherkenning is taalkundige kennis essentieel. Zonder woordenboeken, semantische kennis en een slimme taalwetenschapper zijn goede OCR-uitkomsten niet te verwachten. Je kan nog zulke goede OCR Software ontwikkelen, maar zonder woordenboeken kan je een goed resultaat wel vergeten. De betere OCR Software kan zelf talen herkennen en die binnen een document naast elkaar herkennen. EasyData is hierin gespecialiseerd.

OCR Export

Nu heb je het document herkend in het OCR-proces en wil je dat exporteren. Die mogelijkheden zijn oneindig. Uitgangspunt is
het doel, wat je met het herkende resultaat gaan doen?  Zo kan je een document met een tabel naar zowel een Word als Excel document exporteren. Gaat het maar om opslag kan er een PDF-document van gemaakt worden. Sommige toepassingen hebben daar weer speciale restricties bij zoals een PDF/A document. Samen met zo’n PDF document kunnen we ook een extra document opleveren met specifieke gegevens uit het brondocument. Zo’n bestand noemen we een Metadata bestand. Heb je zelf een
andere export in gedachten? We spreken de details graag met je door!

Alternatieve OCR-technologie met OCR Online!

Cloud OCR geschiedenis

Interessante vraag: Wat te doen als gegevens op papier staan?

Dit was de algemene vraag voor data document specialisten twee decennia geleden, hoe verwerk je gegevens automatisch?

Twintig jaar geleden was EasyData al een innovatieve koploper op dit gebied. We begonnen onze OCR kennis in 1999 met TextBridge, dat werd al snel vervangen door ABBYY FineReader, de beste OCR Engine in die periode. EasyData gebruikte die technologie met succes in document digitalisatie projecten en we waren enthousiast over de geboden ondersteuning.

Deze positieve ervaring resulteert in de verkoop en distributie van ABBYY producten . En dat doen we nog steeds, ABBYY-technologie in al hun verschijningsvormen ondersteunen. De document en OCR expertise van EasyData vinden hun oorsprong bij ABBYY-technologie.
EasyData blijft ontwikkelen aan moderne OCR vraagstukken.

OCR ontwikkeling

Het omzetten van tekst naar een bruikbaar digitaal formaat was jarenlang de heilige graal. Veel fabrikanten investeerden tijd en geld om de beste resultaten te behalen met OCR-tekstherkenning. Dé uitdaging voor specialisten in het document management domein.

Terugkijkend op de periode waarin verschillende OCR technologie initiatieven hun oorsprong vonden, is die doelstelling gehaald. Tegenwoordig is er veel te kiezen in het landschap van OCR producten en technieken. Er is zelfs een open source OCR Engine
die redelijke resultaten behaalt. Uiteraard afhankelijk van de bron, kwaliteit en project eigenschappen.

Met onze reputatie als OCR-expert is een vraag die we onszelf stellen tijdens projectschattingen: Hoe realiseren we een evenwichtige prestatie tussen prijs en kwaliteit? Na vele jaren van ontwikkeling, is EasyData in staat om alternatieve Cloud OCR te presenteren.

Cloud OCR: Innovatie is het vermogen om verandering als een kans te zien, niet als een bedreiging

Tekst herkenning in de praktijk

De kennis van EasyData Cloud OCR is de afgelopen twee decennia opgebouwd uit een verscheidenheid van OCR oplossingen. Denk aan krant digitalisatie projecten die 99 procent nauwkeurigheid eisten. Met slimme project afhankelijke modules zijn we in staat om de meeste veeleisende OCR-wensen van onze klanten te realiseren. En we blijven verbeteren! Ons doel is de omzetting van innovatieve technologie naar een standaard service die door iedereen kan worden gebruikt. De gescande advertentie hieronder toont EasyData OCR resultaten in vergelijking met een andere OCR Engine.

OCR-oefening: paard versus auto

EasyData OCR

Horse vs. Automobile
BEFORE you discard your horse ahd buy an autoit is well to think of the cost.
Figure how much you spend for harness and then think of what new tires amount to.
Figure up what it takes to feed-Dobbin in a year and then think of gasoline, repairs and storage charges.
Dobbin is worth what you paid for him two years ago, where’s the man with an auto that can say the same? Come in and get a new harness instead of a new car and remember that Dobbin will take you through snow and mud as well as on good roads and that his carburetor i is never out of order.

Ed. Klein
732 Massachusetts Street

Other OCR

Horse vs. Automobile
BEFORE you oil card your horse arid buy an auto it » well to think of the cos*. 1
Figure how much you spend for hat nets and then think of what new tires amount to.
Figure up what it takes to feed-Dobbin in a year and then think of gasoline, repairs and storage charges.
Dobbin is worth what you paid for him two years ago, where’s the man with an auto that can say the same? Come in and get a new harness instead of a new car and remember that Dobbin will take you through snow and mud as well as on good roads and that his carburetor i is never out of order.

Ed. Klein
732 Massachusetts Street

De OCR-kwaliteit kan worden verbeterd door intelligente beeldverbeteringsalgoritmen van EasyData in het digitalisatie proces op te nemen. Door onze toegankelijke Cloud OCR oplossing te gebruiken, kunnen verschillende configuraties toegepast worden die het beste aansluiten bij uw wensen. Onze OCR specialisten helpen graag bij de opzet van ieder OCR-project. De juiste OCR straat configuratie komt de OCR-kwaliteit tijdens de project looptijd ten goede.

OCR alternatief

De logische vraag: waarom zou een bedrijf als EasyData in Cloud OCR technologie willen investeren? Dat is de praktijk, we hebben geleerd dat prijsstelling een probleem is wanneer bij het converteren van miljoenen documenten andere commerciële producten te duur worden en open source OCR niet het gewenste resultaat brengt. Aanvullend komt bij het verwerken van enorme aantallen documenten in een OCR proces meer kijken dan alleen OCR herkenningssoftware.

De uitdaging is dus een zeer goede OCR Engine te ontwerpen met hoge kwaliteit en meer dan gemiddelde snelheid. Dat is wat we doen, De Cloud OCR oplossing van EasyData verwerkt gemakkelijk
5 miljoen pagina’s van afbeeldingsbestand naar een herkend
PDF/A-document. Dat hele proces wordt binnen 24 uur volbracht.

We kunnen zelfs sneller draaien, maar dit is wat we standaard bieden vanuit de EasyData Cloud OCR omgeving. De geboden OCR snelheid is interessant voor meer dan alleen OCR naar PDF conversie, het verwerken van grote volumes in korte tijd geeft de gebruiker of analist het best mogelijke fundament voor machine learning en data-analyse. Onze OCR technologie laat zich makkelijk aansluiten op andere EasyData innovaties.

We koppelen algoritmen voor Machine Learning aan OCR resultaten voor gegevensextractie. Leg uw project uit aan onze specialisten die vervolgens in staat worden gesteld onze innovaties te verbinden aan de specifieke kenmerken van uw OCR-project. EasyData behandelt ieder OCR-project als uniek met een eigen technische identiteit.

De toekomst van OCR

Dat is wat we doen, slimme OCR technologie naar de markt brengen in de vorm van een veelzijdige, snelle, prijstechnisch passende OCR Engine van goede kwaliteit. De huidige ontwikkelingen vragen om OCR technologie als eerste stap naar Data Analyse en Machine Learning projecten. OCR technologie is niet meer het hoofdonderwerp bij EasyData, de wereld van tekstherkenning is drastisch veranderd.

EasyData bleef tijdens deze overgang niet aan de kant staan en biedt oplossingen voor klanten die miljoenen documenten online willen verwerken en tegelijk op zoek zijn naar data extractie en data controle. Zo komt de volgende logische stap in beeld, analyse op basis van de geëxtraheerde inhoud tijdens het Cloud OCR proces. Zo wordt tekstherkenning handig gereedschap als er afbeeldingen bij de data analyse invoer zitten. En dat zien we steeds minder,  moderne documenten zijn van digitale oorsprong, waardoor de noodzaak van OCR-technologie overbodig wordt. Documenten met een digitale oorsprong hebben geen tekstherkenning nodig, de tekst in dit document kan als digitaal document direct herkend worden.

We hebben geleerd dat het moeilijk kan zijn om digitale gegevens automatisch te extraheren, of omgekeerd, om zinvolle digitaal leesbare inhoud aan specifieke documenten zoals facturen toe te voegen. Dit verklaart waarom EasyData PDFCommunicator heeft ontwikkeld, de wens naar zo’n slimme kantooroplossing kon niet worden genegeerd door onze ambitieuze en gemotiveerde ontwikkelaars op het gebied van herkenningstechnologie.

Besparen met tekst herkenning

Als OCR technologie specialisten krijgen we van tijd tot tijd vragen over de herkenning van handgeschreven tekst. ‘ICR’ staat voor ‘Intelligente karakter herkenning’, een afkorting die een andere benadering voor herkenning impliceert, handgeschreven tekst is altijd weer anders en kan niet worden gevangen in een lettertype.

Met Machine Learning hebben we bruikbare resultaten kunnen realiseren voor onze klanten. Met andere woorden, EasyData is in staat om handgeschreven tekst op documenten te herkennen en ze automatisch toegankelijk te maken voor digitale interpretatie.

Deze ontwikkeling laat zien dat EasyData verder kijkt dan de primaire marktvraag en zich blijft ontwikkelen op technieken die bij ons dagelijks werk niet zo vanzelfsprekend zijn.

OCR in de Cloud

Webgebaseerde OCR heeft de toekomst, waarom dure hardware configureren met geavanceerde OCR-technologie? De OCR-technologie van EasyData zorgt voor volledige tekstherkenning. Veilig, schaalbaar en gekoppeld aan Microsoft Azure, NextCloud of ander platform dat de voorkeur geniet. EasyData OCR-service is de meest flexibele en effectieve OCR SaaS-oplossing in de markt.

Geschikt voor incidentele conversies naar de PDF/A bieden we gebruikers een stabiele Cloud OCR oplossing. Wanneer een hogere doorvoer gewenst is, faciliteren we dat. Tekst herkenning in de Cloud is een schaalbare, betaalbare oplossing, betaal gewoon voor de tekst herkenning funktionaliteit die u nodig hebt. De OCR Cloud-oplossing is uitbreidbaar naar machine learning technologie.