memorandums

日々の生活で問題解決したこと、知ってよかったことなどを自分が思い出すために記録しています。

MacでPDFを作成すると画像中のテキストが認識されてしまう件についてのあれこれ

背景

担当科目の多くではパワーポイントのスライドをPDF化して講義資料を作成しています。コロナ以降はそのファイルをGoogle Classroomに貼り付けて公開する感じです。プログラミング授業の講義資料では、手でコードを入力して欲しい場面があるため、その場合はパワーポイントで作成したページをスクショし、その画像を貼り付けたスライドを作成してきました。コピペするとタイプミスが発生しない良さはあるのですが、何も考えずにコードが完成できてしまうので得るものが少ない実感があります。プロの方もであっても新しい言語などを学ぶときにはコピペできたとしても実際に自分で入力してみることがあると思います。写経といいます。なので写経はそれなりに効果がある学習方法と思います。

問題は?

前期の講義もだいたい中盤まできました。実は前からおかしいと思っていたのですが。画像スライドでコードをコピペできないはずなのに巡回しているとコピペできているのを見かけました。。。あれ?と。忙しく、追っていませんでした。明日の授業資料をPDFに変換してみたところ。。。なぜかコピペできない画像のスライドのはずなのにPDFではテキスト(コード)を選択できちゃいました。。。あれれ!?こんな感じです。。。しかもちゃんとコピペもできちゃいます。なぜ?

調べたこと

パワーポイントかMacかどちがかがPDF化する過程でOCRしているのでは?と考えました。とりあえずMacを疑ったのですが。。。すると、以下の記事が。

osxdaily.com

確かに、その設定項目がありました。しかし、OFFにしてPowerpointでPDF化しても状況は変わりませんでした。

もう少し、問題を切り分けないとわかりません。とりあえずMacでテキストが入った画像ファイルをPreviewで表示してPDF化してみました。すると。。。上記の設定項目をOFFにしているとOCRが効かない(画像中のテキストが認識・選択できない)状況になりました。おー。Mac内では、ちゃんと「テキスト認識表示」のON・OFFが切り替えできていることがわかります。

次に、PowerpointでもWindowsだとどうなるだろう?とファイルをWindows11(Powerpoint 2019)で開いてエクスポート機能でPDFを作成すると。。。画像は画像のままでテキストは選択できませんでした!?Windows用とMac用ではPowerpointも機能が同じとは言えないでしょうけど、Windows版よりMac版の方が高機能というのは考えにくいです。

となるとやはり犯人(画像中のテキストを勝手にOCRしてPDFに埋め込んでいる)はMacのPDF化エンジン(テキスト認識表示機能)ということになります。恐らく、ですが。

しかし、調べども調べども、このPDF化時のテキスト認識機能に関する書き込みは見当たりませんでした。もう、ここまでで1時間くらい時間を使ってしまいましたので時間切れです。

結局、どーしたの?

Windowsマシンを立ち上げてそこでPowerpointからPDF化する。。。が良いのですが、ただ、そのたびにWindowsを起動するのは面倒(時間は短いですが)。できれば、Macだけで完結したい。もう1つは、以下のようなPowerpointからPDFに変換するオンラインサービスを利用する、です。こちらも画像は画像のままでしたのでOKです。しかし、フォントが変わってしまう(特に日本語フォントは印象が変わってしまう)ので。。。不採用でした。

www.ilovepdf.com

一番手数が少なくMacだけでできる方法は以下です。

(1)MacPowerpointでPDFにします。出力されたファイルをAとします。

(2)オンラインサービスでPowerpointでPDFにします。出力されたファイルをBとします。

(3)AとBをプレビューで開き、プレビューのサムネイルで、Aの中の画像スライド部分を削除し、Bの画像スライドのページをAにドラッグ&ドロップします。あとはAを保存すればPDFが完成します。

どう考えても無駄な作業ですが。。。もうしかたがないですね。。。画像スライド自体は出現頻度はそれほど多くはないのでとりあえずこの方法で逃げるしかないかな。。。と思います。

たぶん、こんなことをしている人はそう多くないと思いますが。。。とりあえず、書いておきます。