PDF naar XML converteren, waarom zou je dat willen?

Wat XML voor je kan betekenen

Wat XML voor je kan betekenen

Dit artikel begint met de vraag waarom je een PDF naar XML-conversie zou willen uitvoeren, wat is het doel van de conversie?  Dit artikel gaat dieper in op de vraag van “PDF naar XML converteren” wanneer een XML-conversie handig is en welke aanpak je daarvoor het beste kan volgen.

In de ideale wereld zou een online tool het beste werken, je doet een upload van je PDF en krijgt vervolgens een XML terug die je dan verder kan gebruiken, prachtig toch? Probleem opgelost!
Bij EasyData kijken we daar toch een beetje anders tegenaan, zo ‘easy’ is dat in de ogen van data-specialisten namelijk niet en leggen onderstaand het hoe en waarom van PDF naar XML conversie uit.

XML, wat is dat?

XML, wat is dat?

XML is de afkorting van: “Extensible Markup Language” en bestaat uit een set afspraken die wordt gebruikt voor het transporteren van data. Data kan in dit geval “alles” zijn. Je kan zelfs een foto in een XML-bestand vastleggen! Dat maakt zo’n XML bestand meteen wat lastig te bevatten, veel organisaties kennen een XML-bestand juist als een UBL-bestand. Een UBL XML is een bestand waarin factuur informatie is opgeslagen, dat is toch heel wat anders dan een afbeelding gemaakt tijdens je zonnige vakantie. Dit voorbeeld duidt de essentie van dit artikel, een XML op zichzelf is niets, het is de set afspraken binnen de “Extensible Markup Language” die de XML waardevol maakt.

XML2PDF

Meer over “Extensible Markup Language”

XML is dus een container begrip waarin ieder bestand dat op je computer staat ingepast kan worden. Als ‘alles kan’ maakt dat het begrip XML er niet makkelijker op. Daar heeft EasyData wat op gevonden met PDFCommunicator. PDFCommunicator is een makkelijk te hanteren oplossing waarmee je van een PDF de gewenste XML kunt maken. PDFCommunicator geeft je de gelegenheid het PDF-bestand te voorzien van labels. Nadat je dat hebt gedaan kan de PDF opgeslagen worden precies zoals je dat gedefinieerd hebt. Iedere keer dat een PDF-bestand aan PDFCommunicator wordt aangeboden zal PDFCommunicator het bestand begrijpen en precies converteren naar de gewenste XML structuur.

XML Labels uitgelegd

De techniek achter XML-afspraken

XML wordt beschouwd als een uitbreidbare taal wat meteen een vrije vertaling is van “Extensible Markup Language”. Het uitbreidbare aspect komt tot uitdrukking in de vrijheid je eigen XML-labels te maken:  Een apart label voor elk type informatie dat je wilt gebruiken. En dat gegeven geeft je de ruimte en maakt XML zo populair om data in welke vorm dan ook platform onafhankelijk over te zetten, op te halen en natuurlijk te exporteren naar iedere toepassing en database. Belangrijk om te vermelden, de XML-labels bevatten zelf geen informatie over hoe de gegevens zouden moeten worden weergegeven. Een XML-label is gedefinieerd volgens een afspraak ter identificatie van de inhoud.

UBL XML bericht als voorbeeld

Een XML-bericht

Nadat de XML is gemaakt wordt de data voorzien van labels en verzonden naar de ontvangende partij. Zo kan de ontvanger aan de hand van de gedefinieerde XML-labels weten welke data bij de betreffende labels staat.  Daarom spreken we bij een XML bestand over een XML bericht of een XML-bestand. Je kunt dit XML bestand delen met eenieder ander die de XML-afspraken (lees labels) begrijpt. Zo kan je, om maar even bij hetzelfde voorbeeld te blijven, een factuur herkennen in die volgens de UBL XML bericht afspraken naar een ontvangene partij verzenden die vervolgens moeiteloos dit bestand in de gewenste applicatie zoals een boekhoudsysteem inleest.

XML bestaat uit elementen

Belangrijk voor conversie

Samenvattend, een XML is een verzameling afspraken die verschillende soorten data platform onafhankelijk overdraagbaar maakt. Belangrijk is dat de verzender en ontvanger van tevoren afspraken hebben gemaakt hoe de XML is vormgegeven middels ‘Labels’. De labels representeren
de afspraken waarachter de data volgens de gemaakte XML-afspraken begrijpelijk is weergegeven.

XML Element

Als voorbeeld nemen we weer een factuur en pakken daar het element voor het BTW-nummer:<cbc:CompanyID>NL8083.46.775.B01</cbc:CompanyID>

In dit geval weten we dat het aan dit nummer gekoppelde bedrijf EasyData is. Dit BTW-nummer staat bij het afgesproken label (ook wel XML tag genoemd) en is zodoende direct herleidbaar tot de organisatie die de factuur verstuurd. Zo’n XML UBL element is ook gedefinieerd voor regelherkenning.

Zo zijn andere XML elementen logisch herleidbaar in de UBL standaard als voorbeeld:
<cbc:LineExtensionAmount currencyID=”EUR>7220.01</cbc:LineExtensionAmount>
<cbc:TaxAmount currencyID=”EUR>1516.20</cbc:TaxAmount>
<cbc:Name>NL, Hoog Tarief</cbc:Name>

Voor gebruik is XML ervaring niet nodig

EasyData Data Specialisten

Dit artikel probeert duidelijk te maken dat ‘zomaar’ conversie van PDF naar XML een minder zinvolle bezigheid is. Aan de andere kant zijn er slimme methoden denkbaar. Denk aan kosteneffectief
(dus niet krankzinnig duur) PDF naar XML conversies voor jou organisatie. PDFCommunicator of EasySeparate zijn hiervoor oplossingen die afhankelijk van je wensen treffend ingezet kunnen worden.

XML ervaring is niet nodig

Als je geen ervaring hebt met XML en je weet niet precies welk XML schema voor je toepassing gewenst is zijn we je graag van dienst met XML conversie. En we lopen vervolgens niet weg voor de export en eventueel gewenste XML-import van de benodigde techniek te voorzien. EasyData voorziet in de expertise en technologie je bedrijfsproces optimaal in te regelen!
Neem gerust contact met ons op voor een oriënterend gesprek.