[PHP-users 7135] Re: read the pdf

Alex php-users@php.gr.jp
Wed, 24 Apr 2002 22:36:08 +0800


ALEXです。

いろいろとレスありがとうございます。
私がやりたいのは、相当数のPDFにて作成されている画像入りの文書からテキストデータ
のみを全て取り出して、これをMySQLに入れ高速なワード検索を可能としたいのです。
perlなどではできるという「うわさ」をきいたことがあるのですが、phpでできるので
あれば、と思っていました。しかし簡単には行かないようですね。


On Tue, 23 Apr 2002 00:39:31 +0900
"Naoto Imai" <n-imai@bf.wakwak.com> wrote:

> 今井です。
> 自己レスです。
> 
> > PDFファイルはバイナリファイルなので、表示されているのは、PDFファイルをテキ
> > ストエディタで開いたのと同じではないでしょうか?
> 
> すみません、上記、ちょっと間違っていました。
> テキストだけのPDFの場合、ファイル自体もテキストファイルになっているよう
> ですね。ただし、画像が入ったりした場合には、バイナリファイル(?)のよう
> になります。
> 
> 
> ご質問の意味も私なりに少し考えてみたのですが、
> 1.webサーバーからアクセスできないディレクトリからpdfファイルを読み込んで、
>   pdfとして表示
> 2.pdfファイルの中身のテキストデータを表示
>   例:pdfを開いたときに「こんにちは」と表示されるファイルをPHPで読み込んで
>     テキストとして「こんにちは」をブラウザに表示
> の2つのどちらかかなと思います。
> それで、1の場合は、ヘッダにpdfであることを書けばよいかと思います。
> 2の場合ですが、これは、pdfのファイルフォーマットを解析してテキストの部分だ
> けを抜き出す作業が必要です。
> (確か標準ではそのような関数は無かったと思います)
> pdfのファイルフォーマットは一般公開されているようです。
> 
> 
> 
> _______________________________________________
> PHP-users mailing list
> PHP-users@php.gr.jp
> http://ns1.php.gr.jp/mailman/listinfo/php-users
>