手軽屋
ツール一覧

スキャンPDFをOCRに通すなら、まず300dpi PNGで画像化する

紙を複合機・スマホスキャンしたPDFを文字起こし(OCR)する場合、 PDFのまま読ませるより一度「PNG画像」に書き出してから処理した方が、 認識精度が安定し、誤認識の修正も楽になります。手軽屋の無料ツールだけで完結する手順をまとめました。

なぜPDFを直接OCRしないのか

スキャンしたPDFの中身は「ページの画像が貼り付いただけ」のことが多く、 PDFそのままだとOCRエンジンは結局1ページずつ画像として取り出してから読み取ります。 その前処理を自分で済ませてしまうと、解像度を選べる・複数ページを並列で扱える・誤認識ページを差し替えられるなど、 あとの作業がぐっと楽になります。

推奨設定:PNG・300dpi

  • PNGを選ぶ理由: JPGは保存のたびに圧縮による「にじみ」が増え、文字の輪郭がぼやけます。 PNGは可逆圧縮なので文字の縁が崩れず、OCRの誤認識を減らせます。
  • 300dpiを選ぶ理由: 一般的なOCRエンジンの推奨入力は300dpi。 150dpiでも読めるが、小さい文字(注釈や住所)の取りこぼしが増えます。

手順(手軽屋だけで完結)

  1. PDF→画像変換 にスキャンしたPDFをドロップする。
  2. 形式は PNG、画質は 高画質(300dpi) を選ぶ。
  3. 「変換する」を押し、サムネイル右の「保存」または上の「ZIP一括保存」で書き出す。
  4. 書き出したPNGを 画像の文字起こし(OCR) に1枚ずつドロップしてテキストにする。
  5. 抽出テキストをコピー→ExcelやGoogleドキュメントに貼って整える。

※ どちらのツールも端末内で処理されるので、契約書・社内資料・身分証など外に出せない書類でも安全に使えます。

うまくいかないとき

  • 傾いて読み取られる: スキャナのフィーダーが斜めだった可能性。スマホで撮り直すか、スキャナ側で傾き補正を有効にしてやり直してください。
  • 表が崩れる: OCRは表構造を完全には保てません。表は手軽屋の テキスト整形で揃えるか、Excelに貼ってから整え直しましょう。
  • 文字が薄い: 元のPDFを 画像補正でコントラストを上げてから再OCRすると改善します。
  • 背景に色がある領収書: モノクロ化してからOCRに通すと認識率が上がります。

実用例

  • ・ 紙の請求書・領収書を経費精算用にテキスト化
  • ・ 古い契約書PDFを検索可能なテキストに
  • ・ 議事録のFAXコピーをデータ化
  • ・ 役所配布の紙資料(パンフ・募集要項)の中身を抽出
  • ・ 紙ベースの会員名簿を再入力せず取り込み

PDF→画像変換を試す