Data en symbool extractie uit technische tekeningen

De businesscase: Data extraheren uit een technische tekeningen

Heb je een project waarvoor het gewenst is om gegevens uit technische tekeningen te extraheren?
Dan ben je bij het goede artikel aangeland. EasyData heeft middels Machine Learning Neurale netwerken ontwikkeld die zo slim zijn dat het op AI (kunstmatige intelligentie) lijkt.

De taal van je technische tekeningen

Het was best een uitdaging, iedere tekening is weer anders. Soms voorzien handschrift, afzonderlijke tabellen en branche specifieke vormen.
EasyData is er hierin geslaagd. Allereerst stond onze eigen OCR (Optical Character Recognition) technologie centraal in combinatie met EasyData pagina segmentatie technologie. Met de toenemende vraag van onze klanten is daar in de loop der tijd diverse technologie bij aangehaakt.

We herkennen je tekening op component niveau

Let op, dit artikel onderdeel(tje) is technisch georiënteerd. We proberen hier de technisch geïnteresseerde lezer inzage te geven hoe ons herkenningsproces werkt en we je Digitale Transformatie proces op weg helpen. Onze ervaring is dat aanvragers voor dit soort werk een bovenmatige belangstelling hebben voor het technische tekening herken proces.

Heb je geen belangstelling voor de achterliggende techniek? Sla dan dit stukje over. Onderaan dit artikel staan animaties die grafisch invulling geven van waar we met jouw technische tekeningen toe in staat zijn!

De benodigde stappen voor data extractie van technische tekeningen

Om tot een goede technische tekening herkenning te komen is de classificatie van belang. Welk aangezicht heeft je tekening en welke gegevens zijn te verwachten? Tekening aanzichten geven een basisindicatie over de verder te verwachten tekening gegevens en lay-out. Dat maakt van de tekening segmentatie een stap die samen met document classificatie wordt uitgevoerd. Klopt de voorgestelde tekening segmentatie niet? Dan is de Classificatie waarschijnlijk niet goed.

Hier begint het eerste stukje AI, je moet er toch niet aan denken 1000+ vertwijfelde classificaties opnieuw handmatig en visueel te beoordelen? Dat klopt, daar komt kunstmatige intelligentie om de hoek kijken.

Op basis van document definities, vastgesteld over miljoenen afzonderlijke technische tekeningen hoort uiteindelijk een vast profiel bij een bestaande tekening. In het verlengde daarvan kan de volgende stap naar herkenning gemaakt worden.

Tekening Classificatie

Die herkenning kan, afhankelijk van de opdracht, opgesplitst worden naar tekening componenten. Gaat het om een huis, tandwiel of is het een overzicht van een circusattractie? Die specifieke informatie kunnen wij herkennen en exporteren op deze wijze die de opdrachtgever graag ziet. Voorbeelden van tekening omschrijvingen zijn bijvoorbeeld:

Ontwerptekeningen	Revisietekeningen
Schetsontwerp	Bestektekeningen
Voorlopig ontwerp	Werktekeningen
Definitief ontwerp	Detailtekeningen
Technisch ontwerp	Constructietekeningen
Uitvoeringsgereed ontwerp	Installatietekeningen

Tekeningen wijken per opdracht altijd weer af …

De praktijk van technische ontwikkeling

Waarom zou het bij jouw organisatie anders zijn? Documentatie van revisies en het structureel van notities worden bij uitgevoerde werken (soms) onderschat. Het verwerken en het mogelijk maken van effectieve terugzoek sleutels zijn zodoende belangrijk. EasyData heeft goede ICR-technologie (Handschriftherkenning) ontwikkeld die in staat is op tekeningen zelf notities te ontcijferen. We maken ons zelfs sterk om op basis van tekening herkenning de bijbehorende handleidingen te vinden. Dat kan zowel lokaal als op Internet. Zoals we maar weten waar we naar op zoek zijn. Deze informatie komt van de opdrachtgever of van de tekening zelf. Welke informatie geeft de tekening prijs? Tot hoever wil de opdrachtgever de verstrekte documenten ontsloten hebben?

Als voorbeeld, we kunnen ook de tabelinformatie met symbolen van de technische tekening ontsluiten.

Net als object herkenning onderscheid EasyData Technologie zich door het herkennen van tabellen en hun afzonderlijke regels. Onze technische tekening herkenning is opgebouwd rond verschillende modules. We beginnen met de classificatie en tekening segmentatie. Op basis daarvan gaan we op zoek naar de objecten (tekening details) die de opdrachtgever graag als bewerkbare data terug wil zien in de export. Hiervoor gebruiken we Machine Learning (ML) datasets, specifiek getraind voor het vinden van de objecten. Om de export compleet te krijgen wordt met OCR de tekst herkend. Waar dat niet goed gaat, wordt op basis van kunstmatige intelligentie (AI) gekeken of onze handschriftherkenning met betere resultaten komt.

Zodra onze tekening segmentatie technologie een tabel tegenkomt, wordt daarvoor een andere techniek ingezet. Die techniek maken we toegankelijk via onze applicatie PDFCommunicator, waarover via deze link meer te lezen is. Zo zit in PDFCommunicator tabel-herken technologie die we op afroep inzetten om tot een succesvolle tabel herkenning te komen.

Dit alles geschiedt in een automatisch proces, ingericht volgens de wensen van de opdrachtgever.

Voorbeeld voor gebruik

Er zijn al jaren verschillende technieken in gebruik om deze tekeningen inzichtelijk te maken. Vectoriseren, de conversie van een bitmap naar een lijn tekening, is de meest voor de hand liggende techniek.

Traditioneel wordt hiervoor aanvullende OCR (Optical Character Recognition) gebruikt om afgebeelde tekst naar leesbare tekens te vertalen. Een goede stap naar voren, maar het blijft een ongestructureerd document.

Tekenherkenning: Voorbeeld bruikbaarheid

OCR classificatie

EasyData benadert herkenning van technische tekeningen minder conventioneel, naast de traditionele OCR-herkenning worden de tekeningen geïnterpreteerd door onze Kunstmatige Intelligentie technieken. Deze benadering levert het fundament voor de Digitale Transformatie van archieven met technische tekeningen. Gebruikmakend van EasyData Algoritmen worden niet alleen de tekeningen goed herkend, maar eveneens relevante data apart herkend, denk aan de titel, revisie nummer en andere gegevens die voor digitale raadpleging van belang kunnen zijn.

Machine learning

De algoritmes van EasyData hebben voor de ontwikkeling van deze innovatie miljoenen technische tekeningen bekeken en de technologie ‘verteld’ welke waarden voor data extractie relevant zijn. Inmiddels zijn meerdere opdrachtgevers tevreden met de door EasyData gerealiseerde resultaten waar wij, als engineers van EasyData, opnieuw van bijleren. Want wat blijkt? Bijna iedere opdrachtgever heeft andere aandachtspunten, denk bijvoorbeeld aan specifieke kenmerken op de tekeningen zelf.

Technische tekeningen, herkennen en classificeren

In de praktijk kunnen wij individuele wensen relatief snel realiseren, afhankelijk van de complexiteit en de hoeveelheid voorbeelden die voor de training ingezet kunnen worden. Kunstmatige Intelligentie zoals EasyData dat bij interpretatie van technische tekeningen toepast, werkt grofweg gesproken op basis van patroonherkenning. Door onze technologie te leren wat de specifieke aandachtspunten zijn zal onze techniek deze bij voldoende training vervolgens automatisch vinden.

Hoogwaardige tekenherkenning: dagelijkse praktijk

De kwaliteit van patroonherkenning en de snelheid waarmee we deze inregelen maakt ons uniek in de wereld van herkenning van technische tekeningen. Afgezien van patroonherkenning is tekstherkenning extreem belangrijk, herkende tekst geeft
informatie die het verschil maakt of een Technische tekening überhaupt
teruggevonden kan worden.

Naast de getypte letters, wat we ‘machine leesbare tekst noemen’, zijn er soms ook relevante handgeschreven notities of opmerkingen geplaatst. Ook deze tekst is door EasyData naar leesbare tekst te converteren!