[PHP-users 7135] Re: read the pdf

Wed, 24 Apr 2002 22:36:08 +0800

ALEXです。

いろいろとレスありがとうございます。
私がやりたいのは、相当数のPDFにて作成されている画像入りの文書からテキストデータ
のみを全て取り出して、これをMySQLに入れ高速なワード検索を可能としたいのです。
perlなどではできるという「うわさ」をきいたことがあるのですが、phpでできるので
あれば、と思っていました。しかし簡単には行かないようですね。


On Tue, 23 Apr 2002 00:39:31 +0900
"Naoto Imai" <n-imai@bf.wakwak.com> wrote:

> 今井です。
> 自己レスです。
> 
> > PDFファイルはバイナリファイルなので、表示されているのは、PDFファイルをテキ
> > ストエディタで開いたのと同じではないでしょうか？
> 
> すみません、上記、ちょっと間違っていました。
> テキストだけのPDFの場合、ファイル自体もテキストファイルになっているよう
> ですね。ただし、画像が入ったりした場合には、バイナリファイル（？）のよう
> になります。
> 
> 
> ご質問の意味も私なりに少し考えてみたのですが、
> １．webサーバーからアクセスできないディレクトリからpdfファイルを読み込んで、
> 　　pdfとして表示
> ２．pdfファイルの中身のテキストデータを表示
> 　　例：pdfを開いたときに「こんにちは」と表示されるファイルをPHPで読み込んで
> 　　　　テキストとして「こんにちは」をブラウザに表示
> の２つのどちらかかなと思います。
> それで、１の場合は、ヘッダにpdfであることを書けばよいかと思います。
> ２の場合ですが、これは、pdfのファイルフォーマットを解析してテキストの部分だ
> けを抜き出す作業が必要です。
> （確か標準ではそのような関数は無かったと思います）
> pdfのファイルフォーマットは一般公開されているようです。
> 
> 
> 
> _______________________________________________
> PHP-users mailing list
> PHP-users@php.gr.jp
> http://ns1.php.gr.jp/mailman/listinfo/php-users
>