memorandums

日々のメモです。

PDFファイルがOCR済みかどうかを判定するスクリプト

このスクリプトを動かすにはxpdfをインストール必要があります。brewでインストールでいます。

brew install xpdf

テキストが含まれているかどうかの判定なので関係ないと思いますが、xpdfの日本語化はこちらの手順でできました。

使い方は簡単?で、このシェルを/usr/local/binなどに入れておき実行権を与えておきます。あとは、pdfファイル群があるディレクトリを指定して実行するだけです。実行結果は、OCR済みのテキストが含まれていない(と思われる)PDFのファイル名を表示します。

例えば、カレントディレクトリをサーチする場合は以下です。

findNoTextPdf.sh .