So konvertieren Sie handschriftliche Dokumente in Text
Wenn Sie einen Stapel handschriftlicher Dokumente haben, die digitalisiert werden müssen, um sie einfach bearbeiten, teilen und speichern zu können, ist die Handwriting-to-Text-Technologie (HTR) die richtige Lösung für Sie. Mit ihrer Hilfe können Sie handschriftliche Dokumente in wenigen einfachen Schritten in Text umwandeln. Alles, was Sie brauchen, ist ein Scanner und Software.
Die Herausforderung beim Scannen handschriftlicher Dokumente
Das Scannen handschriftlicher Dokumente und deren Umwandlung in digitalen Text kann eine echte Qual sein, da es eine Reihe einzigartiger Herausforderungen mit sich bringt:
- Die Handschrift ist von Person zu Person unterschiedlich, sodass es für herkömmliche OCR-Software (Optical Character Recognition) schwierig ist, den Text genau zu erkennen und zu transkribieren.
- Handschriftliche Dokumente enthalten häufig Fehler wie durchgestrichene Wörter und Rechtschreibfehler, die die Scan-Software noch mehr verwirren können.
Um diese und andere Herausforderungen zu bewältigen, haben Softwareentwickler spezielle Handwriting-to-Text-Software (HTR) erstellt, die speziell für die Umwandlung handschriftlicher Dokumente in Text konzipiert ist.
HTR-Tools verwenden erweiterte Algorithmen, um sich an unterschiedliche Handschriftstile anzupassen, zwischen beabsichtigtem Text und zufälligen Markierungen oder Korrekturen zu unterscheiden und mit alten oder beschädigten Dokumenten umzugehen.
Konvertieren Sie handschriftliche Dokumente mit Transkribus in Text
Wenn es darum geht, handschriftliche Dokumente in Text umzuwandeln, stehen viele HTR-Tools zur Verfügung. Das Tool, das ich jedoch am meisten empfehle, ist Transkribus . Es handelt sich um eine Online-Software mit einer Desktop-Version, die äußerst einfach zu erlernen ist und mit der Sie trainieren können, um ihre Leistung zu verbessern.
Die Ergebnisse von Transkribus können im Handumdrehen enttäuschend sein. Die wahre Stärke dieses Tools liegt jedoch in seiner Trainingsoberfläche. Mit etwas Zeit und Mühe können Sie Transkribus trainieren, Ihre Handschrift genauer zu erkennen, was die Qualität der Transkription erheblich verbessern kann.
Mit der kostenlosen Version von Transkribus können Sie bis zu 100 Dokumente konvertieren und bis zu fünf Trainingsläufe pro Monat durchführen (mehr dazu in Kürze). Um loszulegen, besuchen Sie die Website des Tools, klicken Sie auf die Schaltfläche „Kostenlos testen“ und erstellen Sie ein Benutzerkonto.
Um mit der Konvertierung Ihres Dokuments zu beginnen, öffnen Sie die Standardsammlung in Transkribus. Stellen Sie sich Sammlungen als Ordner vor, in denen Sie Ihre Arbeit organisieren können, wobei jede Sammlung einzelne Dokumente enthält. Jedes Dokument besteht aus Bildern , die die eigentlichen Seiten Ihres Textes darstellen.
Um Ihr Dokument hinzuzufügen, klicken Sie auf die Schaltfläche „Dateien hochladen“ . Transkribus akzeptiert verschiedene Formate wie JPEGs, PNGs und PDFs, empfiehlt jedoch für eine optimale Erkennung die Verwendung von JPEGs mit 300 DPI. Sobald Ihre Dokumente hochgeladen sind, können Sie das handschriftliche Dokument in Text umwandeln.
Öffnen Sie das Dokument und wählen Sie alle Bilder aus, die Sie konvertieren möchten. Klicken Sie auf die Schaltfläche Erkennen .
Transkribus bietet eine Reihe öffentlicher Modelle für verschiedene Sprachen und Zeiträume. Für eine sofortige Texterkennung ohne Training wählen Sie eines aus, das den Eigenschaften Ihres Dokuments am besten entspricht, klicken Sie dann auf die Schaltfläche „Erkennung starten “ und warten Sie. Ich habe mich für das Modell „The English Eagle“ entschieden .
Von kostenlosen Benutzern erstellte Aufträge zur Handschrifttexterkennung erhalten eine niedrige Priorität, daher kann es eine Weile dauern, bis Transkribus fertig ist.
Nach dem Erkennungsprozess können Sie die Ergebnisse mit dem Transkribus-Dokumenteneditor verfeinern. Er synchronisiert Text- und Bildansichten für einen intuitiven Bearbeitungsprozess. Sie können Tags verwenden, um Entitäten, Ereignisse oder unsichere Transkriptionen zu markieren.
Trainieren Sie ein benutzerdefiniertes Modell, um die HTR-Leistung zu verbessern
Um ein benutzerdefiniertes Modell zu trainieren, bereiten Sie Ihre Ground-Truth-Daten vor. Dazu müssen Sie eine Reihe handschriftlicher Dokumente, die dem Schreibstil entsprechen, den das Modell erkennen soll, genau transkribieren. Je vielfältiger und repräsentativer Ihre Daten sind, desto besser ist die Leistung Ihres Modells.
Um ein Modell zu trainieren, klicken Sie auf die Schaltfläche „Neues Modell trainieren“ . Wählen Sie die Option „Texterkennungsmodell“ , wählen Sie die Sammlung mit Ihren Ground-Truth-Dokumenten und wählen Sie dann die Seiten aus, die in die Trainings- und Validierungsdaten aufgenommen werden sollen. Die Trainingsdaten werden verwendet, um die Parameter des Modells anzupassen, während die Validierungsdaten eine unvoreingenommene Bewertung der Leistung des Modells liefern.
Konfigurieren Sie die Einstellungen des Modells, wie z. B. Sprache und Zeichensatz, um den Trainingsprozess zu starten, der mehrere Zyklen oder „Epochen“ umfasst, in denen das Modell aus Ihren Daten lernt. Transkribus stoppt das Training automatisch, wenn sich die Leistung des Modells nicht mehr verbessert.
Verwenden Sie nach dem Training Ihr benutzerdefiniertes Modell, um neue Dokumente mit verbesserter Genauigkeit zu transkribieren.
Alternativen zu Transkribus
Obwohl Transkribus meine erste Wahl für die Konvertierung handschriftlicher Dokumente in Text ist, gibt es noch viele andere großartige Optionen:
- Pen2Txt ist ein Neuling in der HTR-Landschaft. Es zielt darauf ab, hohe Genauigkeit zu liefern, indem es die neueste KI-Technologie nutzt, um sich an verschiedene Handschriftstile anzupassen. Obwohl Pen2Txt noch in der Entwicklung ist, bietet es eine benutzerfreundliche Oberfläche und solide Leistung. Kostenlose Benutzer sind jedoch auf nur drei Konvertierungen beschränkt.
- Google Document AI ist Teil von Googles Suite von KI-gestützten Dokumentenverarbeitungstools. Es bietet sofort einsatzbereite Erkennung ohne Training und ist damit eine solide Wahl für schnelle Konvertierungen. Sie können 300 $ kostenloses Guthaben erhalten, um das Tool auszuprobieren, aber für die fortgesetzte Nutzung müssen Sie pro Konvertierung zahlen.
- GrabText ist ein einfaches Online-Tool, das handgeschriebenen oder gedruckten Text aus Fotos, Grafiken und Dokumenten erfasst und in bearbeitbaren Text umwandelt. Es bietet einen unkomplizierten dreistufigen Prozess: Erfassen des Textes, Anwenden automatischer Korrekturen (einschließlich Rechtschreibung und Grammatik) und Exportieren des konvertierten Textes in verschiedene Formate. Leider müssen Sie einen Freund einladen, um es kostenlos nutzen zu können.
Egal, ob Sie sich für Transkribus oder eine der oben genannten Alternativen entscheiden, Sie können Ihre Dokumente problemlos digitalisieren. Wenn Sie nach weiteren Optionen suchen, erfahren Sie, wie Sie Bilder mit OCR auf Android in Text umwandeln.
Bildnachweis: Pixabay . Alle Screenshots von David Morelo.
Schreibe einen Kommentar