pdf2htmlEX すばらしいぃ。。。

前置き

以下の本が読みたいな。。。と。Kindleだと6千円。買えなくはないですが。

The Essentials of Modern Software Engineering: Free the Practices from the Method Prisons! (English Edition)

作者:Jacobson, Ivar,Lawson, Harold "Bud",Ng, Pan-Wei,McMahon, Paul E.,Goedicke, Michael
発売日: 2019/09/13
メディア: Kindle版

調べてみると、この本はACM Booksの１つらしく。ACM会員は29USD/年を支払うとACM Booksが1年間、読みホーダイになるというなんとも素晴らしいサブスクがあったのでした。。。つまり、6千円の本を3千円で入手できるだけでなく、他の本も読めちゃうんですね。すぐ登録して上記の本（PDF）をDLしました。

PDFだとしおりがないので読みにくく、 Google Play Bookに突っ込んで読んでいました。

でも、読みにくい。。。我がままですいません。

やはり紙がいいな。。。ということで、学科のカラーコピー機をぶん回して、また長年？培った自炊技術を駆使して簡易書籍を作りました。
f:id:ke_takahashi:20200302173044j:plain

それでも、なかなか厚いので読み進めません。学生向けでもあるので記述が冗長なところも多く。。。サクッと読んでしまいたいな。。。と思いました。

HTMLにしてGoogle翻訳かけちゃえば、ザッと読めるんじゃないかな。。。と。

PDFをHTMLに変換するオンラインコンバーターがいくつかヒットするのですがファイル上限にひっかかってできません。さらにぐぐるとpdf2htmlEXというツールがあることがわかりました。2013年の記事ですから。。。ずいぶん前のことですね。。。ご存知の方も多いのでは？

あらゆるPDFをHTMLに変換する「pdf2htmlEX」がすごい | ソフトアンテナブログ

で、使ってみました。

pdf2htmlEXを使ってみた

インストールはbrewですぐ。

brew install pdf2htmlEX

pdfファイルのあるディレクトリでPDFファイル名を指定してコマンドを叩くだけです。オプションもあるようですが何も指定せずに実行しました。

pdf2htmlEX  PDFファイル名

HTMLファイルと画像ファイルのフォルダが生成されるのかと思いきや生成されたのはHTMLァイルだけでした。こりゃ。。。失敗したな、、、と思って、ダメ元でHTMLファイルをダブクリしたら。。。まぁなんということでしょう？どういう仕組みなのでしょう？画像データもbase64か何かでHTMLファイル内に組み込まれているのでしょうか？めっちゃ使いやすいです。忠実なんてもんじゃないです。PDFファイルをPDFリーダーで読んでいるのと差を感じられません。

f:id:ke_takahashi:20200302173703p:plain

おもむろに右クリックして「日本語に翻訳」を押しますと。。。

f:id:ke_takahashi:20200302173853p:plain

わ。読みやすいとは言えませんが。。。ザッと見るにはいいような気がします。日本語にするかどうかは別として、HTMLで閲覧できるのはかなりいいですね。PDFファイルはレイアウト上、テキストがとても小さくて余白が多い（洋書あるある）ので、それがないだけでも様々なデバイスで閲覧がしやすいと思います。これをネット上においたら怒られますので、個人用のローカルファイルとして閲覧して利用したいと思います。

f:id:ke_takahashi:20200302174012p:plain