さくらのレンタルサーバーでpdfをテキスト化する方法


PHPにて、PDFをテキスト化する方法を調べたところ、XPDFというのがあった。
http://www.foolabs.com/xpdf/download.html

これを、さくらのレンタルサーバで入れたいのだが、厄介。日本語を抽出するのも設定が面倒そう。。
https://saturday-development.com/archives/2297.html

もう少し調べてみると、Popplerというのがあることを知った。

https://poppler.freedesktop.org/

Popplerとは

Poppler is a PDF rendering library based on the xpdf-3.0 code base.

Popplerをインストール

さくらのレンタルサーバへSSHで入ったあとに、こちらの手順に従う。

http://pulltab.info/2017/02/-pdfimages.html

2017年6月7日時点では、

  • poppler-0.55.0.tar.xz
  • poppler-data-0.4.7.tar.gz

が最新。

 

使い方

上の手順に従うと、pdftotextなどのbinaryが /home/〇〇/local/bin/ に入っているので、

とすれば、pdfから抽出したtextを取得できる。

pdftotextの他に、

  • pdfdetach
  • pdffonts
  • pdfimages
  • pdfinfo
  • pdfseparate
  • pdftohtml
  • pdftoppm
  • pdftops
  • pdfunite

が使える。便利。

 

この投稿へのコメント

コメントはありません。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

この投稿へのトラックバック

トラックバックはありません。

トラックバック URL