[PHP-users 19738]Re: リンク切れHTMLファルのチェック

HAYAKAWA Hiroshi hayakawa @ sam.hi-ho.ne.jp
2004年 1月 7日 (水) 12:32:06 JST


こんにちは。早川@名古屋 です。

亀レスっぽいのですが、

on 04.1.6 1:25 PM, Teruyuki Wakamatsu at terupost @ mxa.mesh.ne.jp wrote:

> 初めましてwakaです。
> デッドリンクチェックをして一覧化する作業をしています。
:
> また、ドメイン下位のファイルレベルまでチェックするするには
> どんな方法がおありでしょうか?

差し支えのない範囲で教えていただけると嬉しいのですが、
PHPの学習として作られているのでしょうか?

サイト内を全部チェックするのは、
(PearにHTMLパーサーがあるかどうか把握していませんが)
HTMLパーサーを利用してページ中のリンクをリスト化、
あとはサイト内を幅優先で順に繰り返してチェック、
という感じでいいかと思います。

HTMLパーサーがなければ、
Iwasakiさんが紹介された
http://www.arielworks.net/2003/1220d/
の方のように正規表現でリンクを抽出してもよいと思います。

ただ、デッドリンクをチェックさせるプログラムを書くのは、
小規模な自サイトのチェックくらいでしたらあまり問題にならないでしょうが、
汎用的なことを考慮すると例外的な処理や意味的なものの考慮などが必要になって
結構やっかいな作業になるかと思います。

あと上記URLの方もサイト内に書かれていましたが、
ウェブから実行させると簡単にタイムアウトしますので、
(ぜひともPHPでということでしたら)
コマンドライン版を(組み合わせて)使ってみられてはいかがでしょう。
http://www.php.net/manual/ja/features.commandline.php

ただし、4.3.xの前までのコマンドライン版は
そのままではタイムアウトが有効ですので、
set_time_limit(0);
を指定して制限なしにする必要がありますので念のため。
http://jp.php.net/manual/ja/function.set-time-limit.php


-----
With your dreaming, with your smile.
Hayakawa, Hiroshi <hayakawa @ sam.hi-ho.ne.jp>
Nagoya,Aichi,JAPAN ☆彡



PHP-users メーリングリストの案内