[PHP-users 15374]Re: WordとPDFの内容について

Osamu Shigematsu m5issige @ mr.hitachi-medical.co.jp
2003年 5月 19日 (月) 15:35:22 JST


重松です。こんにちは。

>  pdflibで既存のファイルを読み込む(テキスト文章にする)方法がよくわかり
> ません。
>  PDFからパラメターを読み込む関数pdf_get_parameterがあります。それででき
> るかな、と考えていますが文章の内容を読み込む方法(パラメター)が分かりま
> せん。
>  引き続き調べてみます。

というか、どういう環境か、かかれたほうが良いと思います。

例えば、Adobe Acrobat (Reader/Exchage) を使う方法などもあるようですし、
環境に依存する問題が多い内容と思います。

で、私も興味がある内容だったので、
「PDF テキスト 変換」で Google で検索を試みました。

その結果、以下のページがヒットしました。

http://www.geocities.co.jp/SiliconValley-Bay/1992/tips/pdf2text.html

個人的には、ざっと見た感じ、PHP から使用する場合には、
pdf2html (xpdf) を使う方法が優れているように思います。

>  ドキュメントの最終更新日が2000年になっているのが気になります。
>  確かWordファイルはバージョンごとにエンコード方法が違っていたと思います。

そうですね。

なので、このあたりについて、試して、レポートしていただけたり、
あるいは、新たなツールを発掘するなりしていただけたりすると、
M$ なファイルから解き放たれて心安らかに眠れる日が多くの人に訪れそうな
そんな予感がする今日この頃です。 :-)

Solaris 環境はものすご〜く遅いので、栞とかまで含めて HTML に
変換してくれるならば、w3m でさくさく閲覧できそうな予感。
# その前に、インラインイメージを表示できるようにしないと。。。<自分

-- 
Osamu Shigematsu <m5issige @ mr.hitachi-medical.co.jp>



PHP-users メーリングリストの案内