手軽屋無料Webツール集

ツール一覧

スキャンPDFをOCRに通すなら、まず300dpi PNGで画像化する

紙を複合機・スマホスキャンしたPDFを文字起こし（OCR）する場合、 PDFのまま読ませるより一度「PNG画像」に書き出してから処理した方が、認識精度が安定し、誤認識の修正も楽になります。手軽屋の無料ツールだけで完結する手順をまとめました。

なぜPDFを直接OCRしないのか

スキャンしたPDFの中身は「ページの画像が貼り付いただけ」のことが多く、 PDFそのままだとOCRエンジンは結局1ページずつ画像として取り出してから読み取ります。その前処理を自分で済ませてしまうと、解像度を選べる・複数ページを並列で扱える・誤認識ページを差し替えられるなど、あとの作業がぐっと楽になります。

推奨設定：PNG・300dpi

PNGを選ぶ理由： JPGは保存のたびに圧縮による「にじみ」が増え、文字の輪郭がぼやけます。 PNGは可逆圧縮なので文字の縁が崩れず、OCRの誤認識を減らせます。
300dpiを選ぶ理由： 一般的なOCRエンジンの推奨入力は300dpi。 150dpiでも読めるが、小さい文字（注釈や住所）の取りこぼしが増えます。

手順（手軽屋だけで完結）

PDF→画像変換にスキャンしたPDFをドロップする。
形式は PNG、画質は 高画質（300dpi） を選ぶ。
「変換する」を押し、サムネイル右の「保存」または上の「ZIP一括保存」で書き出す。
書き出したPNGを画像の文字起こし（OCR）に1枚ずつドロップしてテキストにする。
抽出テキストをコピー→ExcelやGoogleドキュメントに貼って整える。

※ どちらのツールも端末内で処理されるので、契約書・社内資料・身分証など外に出せない書類でも安全に使えます。

うまくいかないとき

傾いて読み取られる： スキャナのフィーダーが斜めだった可能性。スマホで撮り直すか、スキャナ側で傾き補正を有効にしてやり直してください。
表が崩れる： OCRは表構造を完全には保てません。表は手軽屋のテキスト整形で揃えるか、Excelに貼ってから整え直しましょう。
文字が薄い： 元のPDFを画像補正でコントラストを上げてから再OCRすると改善します。
背景に色がある領収書： モノクロ化してからOCRに通すと認識率が上がります。

実用例

・紙の請求書・領収書を経費精算用にテキスト化
・古い契約書PDFを検索可能なテキストに
・議事録のFAXコピーをデータ化
・役所配布の紙資料（パンフ・募集要項）の中身を抽出
・紙ベースの会員名簿を再入力せず取り込み

PDF→画像変換を試す