如何將手寫文件轉換為文本

如何將手寫文件轉換為文本
Pexels Pixabay 51191

如果您有一堆手寫文件需要數位化以方便編輯、共享和存儲,那麼手寫文字 (HTR) 技術可以拯救您。借助它的幫助,您只需幾個簡單的步驟即可將手寫文檔轉換為文本,而您所需要的只是掃描器和軟體。

掃描手寫文件的挑戰

掃描手寫文件並將其轉換為數位文字可能非常痛苦,因為它帶來了一系列獨特的挑戰:

  • 筆跡因人而異,因此標準光學字元辨識 (OCR) 軟體很難準確識別和轉錄文字。
  • 手寫文件通常包含錯誤,例如劃掉的單字和拼字錯誤,這可能會進一步混淆掃描軟體。

為了應對這些和其他挑戰,軟體開發人員創建了專門的手寫文字 (HTR) 軟體,專門用於將手寫文件轉換為文字的工作。

HTR 工具使用先進的演算法來適應不同的手寫風格,區分有意文字和雜散標記或更正,並處理舊的或損壞的文件。

使用 Transkribus 將手寫文檔轉換為文本

將手寫文件轉換為文字時,有許多 HTR 工具可用。不過,我最推薦的是Transkribus。它是一款具有桌面版本的線上軟體,非常容易上手,您可以訓練它以提高其效能。

Transkribus 的開箱即用結果可能並不令人印象深刻。然而,這個工具的真正威力在於它的訓練介面。透過一些時間和精力,您可以訓練 Transkribus 更準確地識別您的筆跡,這可以顯著提高轉錄品質。

Transkribus 的免費版本可讓您轉換最多 100 個文件並每月執行多達五次訓練(稍後將詳細介紹)。首先,請造訪該工具的網站,點擊「免費試用」按鈕,然後建立使用者帳戶。

Transkribus 免費試用

若要開始轉換文檔,請在 Transkribus 中開啟預設集合。將集合視為您可以組織工作的資料夾,每個集合都包含單獨的文件。每個文件都由代表文字實際頁面的圖像組成。

Transkribus 預設集合

若要新增文檔,請按一下「上傳文件」按鈕。 Transkribus 接受各種格式,例如 JPEG、PNG 和 PDF,但為了獲得最佳識別效果,建議使用 300 DPI JPEG。上傳文件後,您就可以將手寫文件轉換為文字。

Transkribus 上傳文件

開啟文檔,然後選擇要轉換的所有影像。點選識別按鈕。

Transkribus 識別按鈕

Transkribus 提供一系列針對不同語言和時間段的公共模型。若要在無需任何培訓的情況下立即進行文字識別,請選擇最適合您文件特徵的文字識別,然後按一下「開始識別」按鈕並等待。我選擇了英國鷹模型。

Transkribus 英國鷹

免費使用者建立的手寫文字辨識作業的優先順序較低,因此 Transkribus 可能需要一段時間才能完成。

Transkribus 結果

識別過程結束後,使用 Transkribus 文件編輯器微調結果。它同步文字和圖像視圖,以實現直覺的編輯過程。您可以使用標籤來標記實體、事件或不確定的轉錄。

訓練自訂模型以提高 HTR 效能

要訓練自訂模型,請準備您的地面實況資料。這涉及準確轉錄一組與您希望模型識別的書寫風格相匹配的手寫文件。您的資料越多樣化、越具有代表性,您的模型的效能就越好。

Transkribus 列車文字辨識模型

要訓練模型,請點擊“訓練新模型”按鈕。選擇文字辨識模型選項,選擇包含真實文件的集合,然後選擇要包含在訓練和驗證資料中的頁面。訓練資料用於擬合模型的參數,而驗證資料則提供對模型表現的公正評估。

Transkribus 模型訓練設置

配置模型的設置,例如啟動訓練過程的語言和字元集,該過程涉及模型從資料中學習的多個週期或「時期」。當模型效能停止改善時,Transkribus 會自動停止訓練。

訓練後,使用您的自訂模型以更高的準確性轉錄新文件。

Transkribus 的替代方案

雖然 Transkribus 是將手寫文件轉換為文字的首選,但還有許多其他不錯的選擇:

  • Pen2Txt是 HTR 領域的新來者。它旨在透過利用最新的人工智慧技術來適應不同的手寫風格,從而提供高精度。雖然仍在進行中,Pen2Txt 提供了用戶友好的介面和穩定的性能。然而,免費用戶僅限於三次轉換。
  • Google Document AI是 Google 人工智慧驅動的文件處理工具套件的一部分。它無需培訓即可提供出色的開箱即用識別能力,使其成為快速轉換的可靠選擇。您可以獲得 300 美元的免費積分來試用該工具,但您需要按每次轉換付費才能繼續使用。
  • GrabText是一個簡單的線上工具,可以從照片、圖形和文件中捕獲手寫或列印文本,並將其轉換為可編輯文本。它提供了一個簡單的三步驟過程:捕獲文字、應用自動更正(包括拼字和語法)以及以各種格式匯出轉換後的文字。不幸的是,您需要邀請朋友才能免費使用它。

無論您選擇 Transkribus 還是上述替代方案之一,您都可以輕鬆地將文件數位化。如果您正在尋找更多選項,請了解如何在 Android 上使用 OCR 將圖像轉換為文字。

圖片來源:Pixabay。所有螢幕截圖均由 David Morelo 製作。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *