Hoe u handgeschreven documenten naar tekst kunt converteren
Als u een stapel handgeschreven documenten hebt die smeken om gedigitaliseerd te worden om ze eenvoudig te kunnen bewerken, delen en opslaan, dan is handwriting to text (HTR) technologie er om u te redden. Met behulp hiervan kunt u handgeschreven documenten in een paar eenvoudige stappen omzetten naar tekst, en het enige dat u nodig hebt is een scanner en software.
De uitdaging van het scannen van handgeschreven documenten
Het scannen van handgeschreven documenten en het omzetten ervan naar digitale tekst kan een echte klus zijn, omdat het een aantal unieke uitdagingen met zich meebrengt:
- Handschriften verschillen per persoon, waardoor het voor standaard OCR-software (Optical Character Recognition) lastig is om de tekst nauwkeurig te herkennen en over te schrijven.
- Handgeschreven documenten bevatten vaak fouten, zoals doorgestreepte woorden en spelfouten, die de scansoftware nog meer in de war kunnen brengen.
Om deze en andere uitdagingen het hoofd te bieden, hebben softwareontwikkelaars gespecialiseerde Handwriting to Text (HTR)-software ontwikkeld, speciaal ontworpen voor het omzetten van handgeschreven documenten naar tekst.
HTR-hulpmiddelen maken gebruik van geavanceerde algoritmen om zich aan te passen aan verschillende handschriftstijlen, onderscheid te maken tussen opzettelijk aangebrachte tekst en losse vlekken of correcties, en om te gaan met oude of beschadigde documenten.
Handgeschreven documenten naar tekst converteren met Transkribus
Als het aankomt op het omzetten van handgeschreven documenten naar tekst, zijn er veel HTR-tools beschikbaar. Degene die ik het meest aanbeveel is echter Transkribus . Het is een online software met een desktopversie die extreem makkelijk op te pikken is, en je kunt het trainen om de prestaties te verbeteren.
Out of the box, de resultaten met Transkribus kunnen teleurstellend zijn. De echte kracht van deze tool ligt echter in de trainingsinterface. Met wat tijd en moeite kunt u Transkribus trainen om uw handschrift nauwkeuriger te herkennen, wat de kwaliteit van de transcriptie aanzienlijk kan verbeteren.
Met de gratis versie van Transkribus kunt u tot 100 documenten converteren en tot vijf trainingsruns per maand uitvoeren (binnenkort meer hierover). Om te beginnen, bezoekt u de website van de tool, klikt u op de knop Probeer gratis en maakt u een gebruikersaccount aan.
Om te beginnen met het converteren van uw document, opent u de standaardcollectie in Transkribus. Beschouw collecties als mappen waarin u uw werk kunt organiseren, waarbij elke collectie afzonderlijke documenten bevat. Elk document bestaat uit afbeeldingen die de werkelijke pagina’s van uw tekst vertegenwoordigen.
Om uw document toe te voegen, klikt u op de knop Bestanden uploaden . Transkribus accepteert verschillende formaten, zoals JPEG’s, PNG’s en PDF’s, maar voor optimale herkenning raadt het aan om 300 DPI JPEG’s te gebruiken. Zodra uw documenten zijn geüpload, bent u klaar om het handgeschreven document om te zetten naar tekst.
Open het document en selecteer alle afbeeldingen die u wilt converteren. Klik op de knop Herkennen .
Transkribus biedt een reeks openbare modellen voor verschillende talen en tijdsperioden. Voor directe tekstherkenning zonder enige training, kiest u er een die het beste past bij de kenmerken van uw document, klikt u op de knop Herkenning starten en wacht u. Ik koos voor het model The English Eagle .
Handgeschreven tekstherkenningstaken die door gratis gebruikers zijn gemaakt, krijgen een lage prioriteit. Het kan dus even duren voordat Transkribus klaar is.
Na het herkenningsproces kunt u de resultaten verfijnen met de Transkribus-documenteditor. Deze synchroniseert tekst- en afbeeldingsweergaven voor een intuïtief bewerkingsproces. U kunt tags gebruiken om entiteiten, gebeurtenissen of onzekere transcripties te markeren.
Train een aangepast model om de HTR-prestaties te verbeteren
Om een aangepast model te trainen, bereidt u uw grondwaarheidsgegevens voor. Dit houdt in dat u een set handgeschreven documenten nauwkeurig transcribeert die overeenkomen met de schrijfstijlen die u wilt dat het model herkent. Hoe gevarieerder en representatiever uw gegevens, hoe beter uw model zal presteren.
Om een model te trainen, klikt u op de knop Train New Model . Selecteer de optie Text Recognition Model , kies de verzameling met uw ground truth-document(en) en selecteer vervolgens de pagina’s die moeten worden opgenomen in de trainings- en validatiegegevens. De trainingsgegevens worden gebruikt om de parameters van het model te passen, terwijl de validatiegegevens een onbevooroordeelde evaluatie van de prestaties van het model bieden.
Configureer de instellingen van het model, zoals de taal en tekenset om het trainingsproces te starten, dat meerdere cycli of ‘epochs’ omvat waarin het model leert van uw gegevens. Transkribus stopt automatisch de training wanneer de prestaties van het model niet meer verbeteren.
Na de training kunt u uw aangepaste model gebruiken om nieuwe documenten nauwkeuriger te transcriberen.
Alternatieven voor Transkribus
Hoewel Transkribus mijn eerste keus is voor het converteren van handgeschreven documenten naar tekst, zijn er nog veel meer goede opties:
- Pen2Txt is een nieuwkomer in het HTR-landschap. Het streeft ernaar om een hoge nauwkeurigheid te leveren door gebruik te maken van de nieuwste AI-technologie om zich aan te passen aan verschillende handschriftstijlen. Hoewel Pen2Txt nog steeds in ontwikkeling is, biedt het een gebruiksvriendelijke interface en solide prestaties. Gratis gebruikers zijn echter beperkt tot slechts drie conversies.
- Google Document AI is onderdeel van Google’s suite van AI-aangedreven documentverwerkingstools. Het biedt uitstekende out-of-the-box herkenning zonder training, waardoor het een solide keuze is voor snelle conversies. U kunt $ 300 aan gratis tegoed krijgen om de tool te proberen, maar u moet per conversie betalen voor voortgezet gebruik.
- GrabText is een eenvoudige online tool die handgeschreven of gedrukte tekst van foto’s, afbeeldingen en documenten vastlegt en omzet in bewerkbare tekst. Het biedt een eenvoudig proces in drie stappen: de tekst vastleggen, automatische correcties toepassen (inclusief spelling en grammatica) en de geconverteerde tekst exporteren in verschillende formaten. Helaas moet u een vriend uitnodigen om het gratis te gebruiken.
Of u nu kiest voor Transkribus of een van de hierboven genoemde alternatieven, u kunt uw documenten eenvoudig digitaliseren. Als u op zoek bent naar meer opties, leer dan hoe u afbeeldingen naar tekst kunt converteren met OCR op Android.
Afbeelding tegoed: Pixabay . Alle screenshots door David Morelo.
Geef een reactie