Wat is OCR software is een veelgebruikt zoekbegrip op Google Search, ook vanuit accountants komt deze vraag regelmatig naar voren. Wereldwijd is dit een techniek die veel wordt toegepast, vaak zonder dat je het beseft. In deze blogpost leg ik uit hoe het werkt en wat de belangrijkste voordelen zijn.
Wat is OCR?
OCR is de Engelse afkorting van “Optical Character Recognition”, oftewel optische tekenherkenning. OCR-techniek kan tekens uitlezen van een afbeelding en deze klaarzetten voor verdere verwerking.
Wat doet OCR software?
Het wordt al tientallen jaren ingezet om boeken en papieren documenten te digitaliseren. Een voorbeeld hiervan zijn scanners en kopieerapparaten die OCR technieken bevatten waarmee je papier direct kunnen scannen naar bewerkbare Word-bestanden of langdurig kunt opslaan als PDF.
De laatste paar jaar zijn door technische innovaties ook nieuwe doelen beschikbaar gekomen. Daarbij kun je denken aan automatische herkenning van nummerborden, verkeersborden (autonoom rijden) paspoorten en rijbewijzen (identificatie).
De term OCR software evolueert daarbij steeds meer in een containerbegrip van technieken voor veel verschillende doelen. Een voorbeeld van zo’n OCR doel is de niche factuurherkenning, waar we ons bij TriFact365 mee bezig houden.
Hoe werkt OCR Software?
OCR software is complex, maar eigenlijk valt de techniek simpel in 3 stappen uit te leggen: (1) invoer, (2) doorvoer en (3) uitvoer. Nu zijn “invoer, doorvoer, uitvoer” kenmerken van een open systeem (https://nl.wikipedia.org/wiki/Open_systeem), iets waar we in TriFact365 ook gebruik van maken. Aan de hand van deze 3 stappen leg ik het begrip OCR verder uit:
1. Afbeeldingen inlezen (invoer)
Alles wat je scant of waarvan je een foto maakt is een afbeelding en kan door OCR software worden ingelezen, mits natuurlijk in het juiste formaat aangeleverd. Voorbeelden zijn afbeeldingen van: boeken, magazines, werkinstructies, zakelijke documenten en natuurlijk ook facturen.
2. Tekenherkenning (doorvoer)
Nadat een afbeelding is aangeleverd vindt de daadwerkelijke herkenning van tekens plaats. Deze bestaat uit 3 fasen (bron: https://en.wikipedia.org/wiki/Optical_character_recognition)
In de eerste fase (pre-processing) kijkt de OCR software of de afbeelding qua formaat recht is ingescand, randen glad zijn, en worden diverse andere bewerkingen gedaan om de aangeleverde afbeelding te optimaliseren voor de volgende fase.
In de tweede fase wordt op pixelniveau door de OCR software naar de afbeelding gekeken en worden bijvoorbeeld letters, cijfers en overige leestekens vastgesteld. De technieken hierachter kunnen zeer complex zijn en bestaan veelal uit neurale netwerken en computer visionachtige technieken.
In de derde fase kan de nauwkeurigheid van de OCR verder worden verhoogd door de uitkomsten te beperken met een begrippenlijst (lexicon). Dit is een lijst van bijvoorbeeld woorden die voor mogen komen in het document.
3: Export van ruwe data (uitvoer)
De uitvoer van OCR software (veelal een bestand) kan dus letters (meertalig), cijfers en overige karakters bevatten. Haal je dus een factuur door OCR software dan is de ruwe data uitvoer nog geen boekingsvoorstel. Waarom? Omdat de brei aan tekens nog geen enkele relatie heeft met de velden van een journaalpost.
Aangepaste OCR software
Leveranciers van OCR technologie hebben de laatste jaren niet stilgezeten. OCR systemen zijn steeds meer geoptimaliseerd om hele specifieke data te verwerken. Eerder schreef ik al over toepassingen voor autonoom rijden en identificatie. Hierachter zitten miljarden investeringen van bijvoorbeeld Big Tech (Google, Amazon, Facebook, Apple en Microsoft), maar ook vanuit de automotive (autonoom rijden) en bancaire/SaaS platformen vloeien verdere investeringen richting innovaties en start-ups.
Ook als Nederlandse niche-speler timmeren we ook bij TriFact365 hard aan de weg met onze zelf ontwikkelde software voor het interpreteren van ruwe OCR data.
Hoe werkt OCR van TriFact365
Alle digitale boekingsdocumenten die TriFact365 ontvangt gaan door onze zelflerende software. Het doel is facturen 100% te herkennen en automatische boekingsvoorstellen te genereren.
TriFact365 ontwikkelt zelfstandig machine learning (“OCR+”) waarmee we in staat zijn herkenning van factuurgegevens en mapping naar boekingsvoorstellen naar een veel hoger niveau te brengen dan een paar jaar geleden voor mogelijk werd gehouden.
Onze ambitie
De route die TriFact365 een paar jaar geleden heeft uitgestippeld betaalt zich uit. We zien de herkenningspercentages over alle klanten gemeten steeds verder stijgen en onze unieke aanpak voor realtime regelherkenning staat inmiddels live voor alle gebruikers en is veelbelovend. Actueel halen we over alle klanten een performance van ongeveer 90% correct herkende velden.
Gegeven de aanpassingen die we in 2021 nog naar de markt gaan brengen en de vele innovaties die we voor 2022 en 2023 al in de pijplijn hebben lijkt het ons realistisch te verwachten dat de factuurherkenning de komende 2 jaar boven de 95% gaat komen. Onze ambitie is factuurherkenning >99% met zelflerende OCR software te bereiken.
De onderbouwing van bovenstaande metingen zijn onze interne metingen en rapportages. Ons team van specialisten concludeert dat nu al een deel van de facturen 100% foutloos wordt verwerkt. Daarom wordt tijdens de Accountancy Expo van 2021 als verbetering “automatisch doorboeken” aangekondigd.
4 voordelen van TriFact365 OCR software
TriFact365 software bevat supersnelle en zelflerende OCR software die in een fractie van een seconde pagina’s kan verwerken en ruwe output met leestekens genereert. Als gebruiker merk je van deze technieken onder de motorkap helemaal niets en zal je de volgende voordelen ervaren.
Voordeel 1: Converteer automatisch bestanden naar het juiste OCR formaat
De ene gebruiker scant naar .PDF en de ander naar .JPG of .TIFF. Als universeel aanleverportaal accepteert TriFact365 daarom naast PDF ook Word, Excel en alle gangbare gescande bestandsformaten. TriFact365 converteert deze automatisch naar leesbaar formaat voor onze OCR software. Dus geen handelingen, TriFact365 regelt alles voor je.
Voordeel 2: Alle bestanden worden ingelezen via de OCR software
Bij TriFact365 worden alle ontvangen documenten direct na aanlevering door onze OCR software ingelezen. Het toewijzen van documenten na binnenkomst (“taggen”) is dus geautomatiseerd en dat scheelt weer handelingen en dus tijd bij het verwerken van boekingsdocumenten.
Voordeel 3: OCR software geschikt voor alle zakelijke documenten
Op het moment van schrijven zijn het vooral boekingsdocumenten zoals inkoopfacturen, verkoopfacturen en bonnetjes die door de OCR worden verwerkt. Dit wordt uitgebreid met o.a. zakelijke documenten zoals overeenkomsten, jaarrekeningen etc, die doorzoekbaar worden gemaakt.
Voordeel 4: Combineer uitvoer (data) met machine learning (AI) en genereer automatische boekingsvoorstellen tot op regelniveau.
Door op grote schaal OCR met machine learning toe te passen presenteert onze cloud software binnen enkele seconden nauwkeurige boekingsvoorstellen (journaalposten). Hierna hoef je alleen nog een visuele controle uit te voeren en heb je met 1 klik in no-time de factuur geboekt in je boekhouding. Met behulp van handige functies kun je het factuurverwerkingsproces nog soepeler laten verlopen. Verder lezen over OCR & Machine Learning