[PHP-users 7135] Re: read the pdf
Alex
php-users@php.gr.jp
Wed, 24 Apr 2002 22:36:08 +0800
ALEXです。
いろいろとレスありがとうございます。
私がやりたいのは、相当数のPDFにて作成されている画像入りの文書からテキストデータ
のみを全て取り出して、これをMySQLに入れ高速なワード検索を可能としたいのです。
perlなどではできるという「うわさ」をきいたことがあるのですが、phpでできるので
あれば、と思っていました。しかし簡単には行かないようですね。
On Tue, 23 Apr 2002 00:39:31 +0900
"Naoto Imai" <n-imai@bf.wakwak.com> wrote:
> 今井です。
> 自己レスです。
>
> > PDFファイルはバイナリファイルなので、表示されているのは、PDFファイルをテキ
> > ストエディタで開いたのと同じではないでしょうか?
>
> すみません、上記、ちょっと間違っていました。
> テキストだけのPDFの場合、ファイル自体もテキストファイルになっているよう
> ですね。ただし、画像が入ったりした場合には、バイナリファイル(?)のよう
> になります。
>
>
> ご質問の意味も私なりに少し考えてみたのですが、
> 1.webサーバーからアクセスできないディレクトリからpdfファイルを読み込んで、
> pdfとして表示
> 2.pdfファイルの中身のテキストデータを表示
> 例:pdfを開いたときに「こんにちは」と表示されるファイルをPHPで読み込んで
> テキストとして「こんにちは」をブラウザに表示
> の2つのどちらかかなと思います。
> それで、1の場合は、ヘッダにpdfであることを書けばよいかと思います。
> 2の場合ですが、これは、pdfのファイルフォーマットを解析してテキストの部分だ
> けを抜き出す作業が必要です。
> (確か標準ではそのような関数は無かったと思います)
> pdfのファイルフォーマットは一般公開されているようです。
>
>
>
> _______________________________________________
> PHP-users mailing list
> PHP-users@php.gr.jp
> http://ns1.php.gr.jp/mailman/listinfo/php-users
>