Newsflash

 
Na de succevolle acceptatie van de ABBYY Recognition Server is er nu ook een "light" versie uitgebracht.

Grote voordeel is dat de technolgie om meerdere CPU's aan het OCR resultaat mee te laten werken nu voor meer toepassingen bereikbaar wordt.  
 
 
FlexiCapture Technologie

ABBYY FlexiCapture Technologie

Doel van deze pagina is duidelijkheid te verschaffen over de mogelijkheden van FlexiCapture.
FlexiCapture is de technologie van ABBYY om ongestructureerde documenten te herkennen.

De bestaande documentatie over FlexiCapture is te verdelen in twee categorieën.

Marketing informatie die de brede toepassingen van FlexiCapture aangeven
Hier is natuurlijk niks mis mee, maar is geen technisch objectieve informatie.

Technische informatie voor software ontwikkelaars
Deze informatie geeft een beschrijving geeft van de functies en toepasbare mogelijkheden.
Voor een project manager die een overzicht maakt voor een specifiek probleem kan dit taaie kost zijn.

Het doel van dit document is een invulling tussen beide benaderingen te geven.
FlexiCapture een enorm innovatief product is maar het is geen magie.

Ook het onderzoek naar toepasbaarheid en het gebruik kan behoorlijk op het budget drukken.
Aan de andere kant, FlexiCapture niet gebruiken kan duurder zijn…

De Basis:
Formulieren zijn documenten die informatie communiceren op een gestructureerde wijze.  Dit betekent dat de informatie onderverdeelt is in verschillende velden.  Deze formulieren hebben meestal geprinte elementen die helpen aan te geven waar de informatie staat.  Grofweg zijn alle formulieren onder te verdelen in drie verschillende modellen of combinaties van deze type formulieren.

Geometrisch
Vaste formulieren waarbij de ingevulde data altijd op exact dezelfde plek staat.  Dit type formulier is uitstekend geschikt om te worden gelezen met FormReader. ABBYY FormReader geeft de mogelijkheid om een template te maken waarin al deze velden een vaste plek krijgen en zo direct naar bijvoorbeeld een database geschreven kunnen worden.

Flexibel
Dit type formulier is een stuk lastiger daar de exacte locatie van de te lezen velden niet vaststaat.  Neem als voorbeeld deze twee afbeeldingen. Bij de één staat het rekeningnummer links en bij de ander rechts. Voor menselijke waarneming zijn het dezelfde gegevens, maar voor FormReader totaal onleesbaar, de data valt immers buiten de gedefinieerde zone.

“Free Form”
Het  laatste het model dat we aanduiden.  Dit zijn documenten die balanceren tussen Geometrische formulieren en totaal ongestructureerd documenten. Dit zijn documenten waar de richtlijnen om data te lezen zo zwak zijn dat deze formulieren niet automatisch gelezen kunnen worden. Het grote verschil tussen deze verschillende formulieren komt tot uitdrukking in de Template matching.  Met Template matching wordt bedoelt dat de software weet waar welke data staat. Bij Template matching is het van belang dat er “Anker punten” of andere registratiepunten worden gevonden wat als relatie kan dienen voor de locatie van de te lezen datavelden.

Bij een Geometrisch formulier weten we via de coördinaten waar de datavelden staan.   Hier wordt ABBYY FormReader dan ook door ons voor gebruikt. Bij Flexibele formulieren, dus waar het onbekend is waar de te lezen data staat, is het een stuk lastiger om de veld locatie te bepalen. 

In dit geval wordt er geen “locatie definitie” gemaakt maar een regel samengesteld als:

Het rekeningnummer kan direct rechts worden gevonden van het woord “Invoice” en het getal bestaat uit 8 cijfers,  behalve als er een lijn onder het woord “Invoice” staat die een lengte heeft van 10 centimeter dan heeft de te lezen waarde 10 cijfers.

Bij de ABBYY benadering zijn deze omschrijvingen opgeslagen in begeleidende bestanden en via de grafische representatie “FlexiCapture Studio” bereikbaar. Het mag echter duidelijk zijn, het samenstellen van een FlexiTemplate is een tijrovende klus.

Kunnen we nu alle formulieren lezen?

Je kan stellen dat FormReader een automaat is en als de data binnen te gestelde coördinaten valt wordt deze data gelezen en anders niet.

FlexiCapture is meer te vergelijken met een 6 jarig kind. Als voorbeeld nemen we een fax voorblad en leggen uit wat de basis regels zijn om zo’n formulier te lezen. Zoals het telefoon en faxnummer moet op een redelijk te traceren punt staan zoals VAN:  en ONTVANGER: hierbij moet natuurlijk ook de pagina lay-out aan een aantal voorwaarden voldoen die binnen de belevingswereld van dit voorbeeld kind passen.  Als nu de basis veldnamen door een creatieve designer worden vervangen voor pictogrammen en sommige velden worden ineens “landscape”, andere velden staan alleen verticaal en er worden lettertypes gebruikt die ook bij volwassenen vraagtekens opwerpen, komen we op het punt waar het kind de formulieren op de grond gooit en geen zin meer heeft.(Voor FlexiCapture is dit een match fout)

Het uitgangspunt is dat FlexiCapture flexibeler is dan FormReader als het gaat om formulier interpretatie.

Maar er zit een limiet een deze herkenningstechnologie.

Hoe weet ik of mijn formulieren zich lenen voor FlexiCapture?
Zoals met alle projecten die wij uitvoeren: we beginnen met een evaluatie.

Op voorhand is niet te zeggen wat de kosten van een FlexiCapture project zullen zijn, dit in tegenstelling tot onze gebruikelijke software ontwikkelingen waarbij wij altijd met een vaste prijs werken.  Het grote verschil is dat software ontwikkeling constructief plannen & bouwen is. Een FlexiCapture project is meer te vergelijken met verstoppertje spelen.

In de praktijk betekent dit dat de FlexiCapture ontwikkelaar vele formulieren herkent, op zoek gaat naar fouten, deze corrigeert en wederom de afbeeldingen herkend. Met dit proces worden de grenzen van de FlexiCapture technologie opgezocht en dit kost, afhankelijk van het type documenten, veel tijd. Hoeveel tijd dit kost is moeilijk te zeggen, en is sterk afhankelijk van het budget en aangeleverde formulieren.

Absolute herkenning is onmogelijk te halen en waar wij stoppen met het verder ontwikkelen van het systeem is een vraag die alleen de klant kan beantwoorden.

Wat kost FlexiCapture dan ongeveer?  Dat is dus moeilijk op voorhand te zeggen.
Is het altijd “duur”? Hangt af van uw beleving, we hebben oplossingen gerealiseerd voor 5.000,- Euro.
Echter ook oplossingen voor 30.000,- Euro.   “Flexi technologie” is pas duur als het rendement er niet uitkomt.

In principe doen wij de eerste inschatting gratis of voor een bijdrage in de door ons te maken kosten.

Heeft u een project waar flexibele documenten voor gebruikt worden?
We bespreken graag persoonlijk de mogelijkheden met u.

 

 
Copyright 2010 EasyData B.V..