memorandums

日々の生活で問題解決したこと、知ってよかったことなどを自分が思い出すために記録しています。

PDFファイルがOCR済みかどうかを判定するスクリプト

このスクリプトを動かすにはxpdfをインストール必要があります。brewでインストールでいます。

brew install xpdf

テキストが含まれているかどうかの判定なので関係ないと思いますが、xpdfの日本語化はこちらの手順でできました。

使い方は簡単?で、このシェルを/usr/local/binなどに入れておき実行権を与えておきます。あとは、pdfファイル群があるディレクトリを指定して実行するだけです。実行結果は、OCR済みのテキストが含まれていない(と思われる)PDFのファイル名を表示します。

例えば、カレントディレクトリをサーチする場合は以下です。

findNoTextPdf.sh .