スキャン書類のPDFから白紙・裏写りページを一気に消す手順
複合機でA4両面スキャンしたPDFを開くと、片面しか印刷されていない原稿の裏側が「白紙ページ」として混入します。さらに薄い原稿は裏側が透ける「裏写り」が発生してOCRの精度を落とします。本記事では、これらを効率的に整理する手順を、事前準備からファイル検証まで順に解説します。
※本記事はpdf-lib v1.17・pdfjs-dist v6.0系の挙動を前提に2026年6月時点でまとめたものです。
1. 事前準備:スキャン時の設定を見直す
整理作業の前に、複合機(リコー・キヤノン・富士フイルム)の設定で「白紙ページ自動削除」が使えるかを確認します。多くの機種に標準搭載されており、原稿の階調しきい値で白紙を判定します。
- ・リコー:原稿読取設定の「白紙原稿スキップ」
- ・キヤノン:「白紙とばし」
- ・富士フイルム:「白紙除去」
- ・Brother:「白紙ページのスキップ」
このオプションを使えば、複合機側で7〜8割の白紙が削除されます。残りの2〜3割(罫線だけのページ・薄文字・裏写りで白紙判定にならなかったページ)を本ツールで処理します。
2. PDFをPDFページ整理に読み込む
ツールページのドロップエリアにPDFを放り込むか、クリックして選びます。100MBまでアップロード対応。80ページ目までサムネイル表示されます(81ページ以降はページ番号だけの表示)。
サムネイル生成にはpdfjs-distのcanvas描画を使っています。Mozilla公式のAPI設計ではintent: "print"を指定するとブラウザの裏タブでも描画が完走するため、本ツールでは「print」を採用しています。「display」だとブラウザによっては裏タブで描画が止まることがあります。
3. 白紙・裏写りページの見分け方
サムネイル一覧を眺めながら、以下のパターンを順に探していきます。
- ・完全に白いページ:両面原稿の片面が無地のケース。確実に削除対象。
- ・薄いグレー全面ページ:裏写り。原稿が薄かった可能性。OCR時に「文字化け」を発生させる原因。
- ・罫線・ヘッダーだけ印刷されたページ:会議資料のテンプレ部分や様式集の見出し。必要かどうか判断要。
- ・同じ画像が連続するページ:ADFが原稿を二重送りしたケース。重複を削除。
- ・左右が逆向きのページ:スキャナーに原稿を逆向きセット。回転で対処。
4. 削除の判断基準(迷ったら残す)
法律・税務・社内記録として保管するPDFの場合、判断に迷ったページは「残す」が安全です。削除して困るパターンの方が、残して困るパターンより大きいためです。
- ・契約書の白紙ページ:「第N条以下省略」を意味する場合あり。残す。
- ・電子帳簿保存法対象のPDF:原本性を保つため白紙ページも削除しない。
- ・社内回覧用のPDF:見やすさ重視で白紙削除可。
- ・OCR前処理用のPDF:裏写りページは削除してOCR精度を上げる。
5. 削除・回転・並べ替えの実操作
ページ削除は「×」ボタン。半透明になって削除予定とわかります。間違えたらもう一度「×」で取り消し。
回転は「⟳」で90度ずつ右回り。180度なら2回、270度なら3回。これはISO 32000-1:2008仕様で定められた0/90/180/270度の制約に従ったもので、自由角度回転はPDF仕様外です。
並べ替えは「←」「→」で1ページずつ移動。ドラッグ&ドロップ非対応のため、大幅な順番入れ替えは予め目視で計画しておくのが効率的です。
6. 保存・元PDFとの差分検証
「この内容でPDFを保存」をクリック。元PDF名+_整理済み.pdfがダウンロードされます。元PDFは自動的には削除されません。
保存後は念のため整理済みPDFを開き、ページ数・順番・回転が意図通りかを確認します。重要書類は元PDFも別フォルダに退避させておくと、誤削除時に復元できます。
7. よくある失敗とその回避
- ・サムネイル生成に時間がかかる:100ページ超のPDFは生成中に他の作業をしないこと(メモリ食う)。
- ・保存ボタンを連打する:保存処理中はボタンが無効化されますが、別タブで同じPDFを開いて並行操作するとブラウザがフリーズすることがあります。
- ・暗号化PDFを読み込もうとする:パスワード付きPDFは非対応。事前にPDFパスワード解除で開放してから整理してください。
- ・電子署名付きPDFの整理:保存時に署名が無効化されます。法務関連書類は専用ツールで整理を。
まとめ
スキャン書類のPDF整理は「複合機の白紙とばし機能で7割削減→PDFページ整理で残り3割を視覚的に削除→保存後に差分検証」の流れが最短です。電子帳簿保存法対象書類は白紙ページも消さないのがルールなので、用途を意識して整理してください。