なぜPDFを直接OCRしないのか
スキャンしたPDFの中身は「ページの画像が貼り付いただけ」のことが多く、 PDFそのままだとOCRエンジンは結局1ページずつ画像として取り出してから読み取ります。 その前処理を自分で済ませてしまうと、解像度を選べる・複数ページを並列で扱える・誤認識ページを差し替えられるなど、 あとの作業がぐっと楽になります。
推奨設定:PNG・300dpi
- PNGを選ぶ理由: JPGは保存のたびに圧縮による「にじみ」が増え、文字の輪郭がぼやけます。 PNGは可逆圧縮なので文字の縁が崩れず、OCRの誤認識を減らせます。
- 300dpiを選ぶ理由: 一般的なOCRエンジンの推奨入力は300dpi。 150dpiでも読めるが、小さい文字(注釈や住所)の取りこぼしが増えます。
手順(手軽屋だけで完結)
- PDF→画像変換 にスキャンしたPDFをドロップする。
- 形式は PNG、画質は 高画質(300dpi) を選ぶ。
- 「変換する」を押し、サムネイル右の「保存」または上の「ZIP一括保存」で書き出す。
- 書き出したPNGを 画像の文字起こし(OCR) に1枚ずつドロップしてテキストにする。
- 抽出テキストをコピー→ExcelやGoogleドキュメントに貼って整える。
※ どちらのツールも端末内で処理されるので、契約書・社内資料・身分証など外に出せない書類でも安全に使えます。
うまくいかないとき
実用例
- ・ 紙の請求書・領収書を経費精算用にテキスト化
- ・ 古い契約書PDFを検索可能なテキストに
- ・ 議事録のFAXコピーをデータ化
- ・ 役所配布の紙資料(パンフ・募集要項)の中身を抽出
- ・ 紙ベースの会員名簿を再入力せず取り込み