Comment convertir des documents manuscrits en texte

Comment convertir des documents manuscrits en texte
Pexels Pixabay 51191

Si vous avez une pile de documents manuscrits qui demandent à être numérisés pour permettre une édition, un partage et un stockage faciles, la technologie de conversion de l’écriture manuscrite en texte (HTR) est là pour vous sauver. Avec son aide, vous pouvez convertir des documents manuscrits en texte en quelques étapes simples, et tout ce dont vous avez besoin est un scanner et un logiciel.

Le défi de la numérisation de documents manuscrits

Numériser des documents manuscrits et les convertir en texte numérique peut s’avérer être une véritable corvée, car cela implique un ensemble de défis uniques :

  • L’écriture manuscrite varie d’une personne à l’autre, ce qui rend difficile pour les logiciels de reconnaissance optique de caractères (OCR) standard de reconnaître et de transcrire le texte avec précision.
  • Les documents manuscrits contiennent souvent des erreurs, telles que des mots barrés et des fautes d’orthographe, qui peuvent encore plus dérouter les logiciels de numérisation.

Pour faire face à ces défis et à d’autres, les développeurs de logiciels ont créé un logiciel spécialisé de conversion d’écriture manuscrite en texte (HTR), conçu spécifiquement pour convertir des documents manuscrits en texte.

Les outils HTR utilisent des algorithmes avancés pour s’adapter à différents styles d’écriture manuscrite, différencier le texte intentionnel des marques ou corrections parasites et traiter les documents anciens ou endommagés.

Convertir des documents manuscrits en texte à l’aide de Transkribus

Pour convertir des documents manuscrits en texte, il existe de nombreux outils HTR. Cependant, celui que je recommande le plus est Transkribus . Il s’agit d’un logiciel en ligne avec une version de bureau extrêmement facile à prendre en main et vous pouvez l’entraîner pour améliorer ses performances.

Les résultats obtenus avec Transkribus peuvent être décevants dès le départ. Cependant, la véritable puissance de cet outil réside dans son interface d’apprentissage. Avec un peu de temps et d’efforts, vous pouvez entraîner Transkribus à reconnaître votre écriture manuscrite avec plus de précision, ce qui peut améliorer considérablement la qualité de la transcription.

La version gratuite de Transkribus vous permet de convertir jusqu’à 100 documents et d’effectuer jusqu’à cinq exécutions de formation par mois (plus d’informations bientôt). Pour commencer, visitez le site Web de l’outil, cliquez sur le bouton Essayer gratuitement et créez un compte utilisateur.

Essayez Transkribus gratuitement

Pour commencer à convertir votre document, ouvrez la collection par défaut dans Transkribus. Considérez les collections comme des dossiers dans lesquels vous pouvez organiser votre travail, chaque collection contenant des documents individuels. Chaque document est composé d’ images qui représentent les pages réelles de votre texte.

Collection Transkribus par défaut

Pour ajouter votre document, cliquez sur le bouton Télécharger les fichiers . Transkribus accepte différents formats, tels que les JPEG, PNG et PDF, mais pour une reconnaissance optimale, il recommande d’utiliser des JPEG 300 DPI. Une fois vos documents téléchargés, vous êtes prêt à convertir le document manuscrit en texte.

Transkribus Télécharger des fichiers

Ouvrez le document et sélectionnez toutes les images que vous souhaitez convertir. Cliquez sur le bouton Reconnaître .

Bouton de reconnaissance Transkribus

Transkribus propose une gamme de modèles publics pour différentes langues et périodes. Pour une reconnaissance de texte immédiate sans aucune formation, choisissez celui qui correspond le mieux aux caractéristiques de votre document, puis cliquez sur le bouton Démarrer la reconnaissance et attendez. J’ai opté pour le modèle The English Eagle .

Transcrit l'aigle anglais

Les tâches de reconnaissance de texte manuscrit créées par des utilisateurs gratuits reçoivent une faible priorité, il faudra donc un certain temps à Transkribus pour se terminer.

Résultats de Transkribus

Après le processus de reconnaissance, peaufinez les résultats à l’aide de l’éditeur de documents Transkribus. Il synchronise les vues texte et image pour un processus d’édition intuitif. Vous pouvez utiliser des balises pour marquer des entités, des événements ou des transcriptions incertaines.

Entraînez un modèle personnalisé pour améliorer les performances HTR

Pour former un modèle personnalisé, préparez vos données de vérité terrain. Cela implique de transcrire avec précision un ensemble de documents manuscrits qui correspondent aux styles d’écriture que vous souhaitez que le modèle reconnaisse. Plus vos données sont variées et représentatives, plus votre modèle sera performant.

Modèle de reconnaissance de texte du train Transkribus

Pour entraîner un modèle, cliquez sur le bouton Former un nouveau modèle . Sélectionnez l’ option Modèle de reconnaissance de texte , choisissez la collection contenant vos documents de vérité de base, puis sélectionnez les pages à inclure dans les données d’entraînement et de validation. Les données d’entraînement sont utilisées pour ajuster les paramètres du modèle, tandis que les données de validation fournissent une évaluation impartiale des performances du modèle.

Configuration de la formation du modèle Transkribus

Configurez les paramètres du modèle, tels que la langue et le jeu de caractères, pour démarrer le processus de formation, qui implique plusieurs cycles ou « époques » pendant lesquels le modèle apprend à partir de vos données. Transkribus arrête automatiquement la formation lorsque les performances du modèle cessent de s’améliorer.

Après la formation, utilisez votre modèle personnalisé pour transcrire de nouveaux documents avec une précision améliorée.

Alternatives à Transkribus

Bien que Transkribus soit mon premier choix pour convertir des documents manuscrits en texte, il existe de nombreuses autres excellentes options :

  • Pen2Txt est un nouveau venu dans le paysage HTR. Il vise à offrir une grande précision en exploitant les dernières technologies d’IA pour s’adapter à divers styles d’écriture manuscrite. Bien qu’il soit encore en cours de développement, Pen2Txt offre une interface conviviale et des performances solides. Cependant, les utilisateurs gratuits sont limités à seulement trois conversions.
  • Google Document AI fait partie de la suite d’outils de traitement de documents basés sur l’IA de Google. Il offre une excellente reconnaissance prête à l’emploi sans formation, ce qui en fait un choix solide pour des conversions rapides. Vous pouvez obtenir 300 $ de crédit gratuit pour essayer l’outil, mais vous devrez payer par conversion pour une utilisation continue.
  • GrabText est un outil en ligne simple qui capture du texte manuscrit ou imprimé à partir de photos, de graphiques et de documents, et le convertit en texte modifiable. Il propose un processus simple en trois étapes : capturer le texte, appliquer des corrections automatiques (y compris l’orthographe et la grammaire) et exporter le texte converti dans différents formats. Malheureusement, vous devez inviter un ami pour l’utiliser gratuitement.

Que vous choisissiez Transkribus ou l’une des alternatives mentionnées ci-dessus, vous pourrez numériser vos documents en toute simplicité. Si vous recherchez plus d’options, découvrez comment convertir des images en texte à l’aide de l’OCR sur Android.

Crédit image : Pixabay . Toutes les captures d’écran par David Morelo.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *