[PHP-users 28894] Re: 正規表現による文字列の抽出

2006年 3月 29日 (水) 15:58:29 JST

矢地です。こんにちは。

On Wed, 29 Mar 2006 15:23:17 +0900
"k.kikuchi" <apple ＠ s21.fxis.fujixerox.co.jp> wrote:

> 「?q=」から始まる場合もあるためパターンの「&」を外し、
> 「/q=([^&]*)/」のようにして見ました。
> 
> ある程度マッチするのですが件数が合いませんでした。
> 
> おそらくこの場合「&」ではさまれていないとマッチしないと思うのですが、
> 「"」の場合もある場合はどのようにしたら良いのでしょうか？
> 「/?q=|&q=([^\"|&]*)/」のようにしてみたのですが駄目でした。

$pattern = '/&q=([^&"]*)/';
だとだめですか？

ちなみに私なら、logをparseする時点で、
<?php
$line = 'XXX.XXX.XXX.XXX - - [時間] "GET コンテンツ HTTP/1.0" 200 99999 "http://www.google.co.jp/search?hl=ja&q=%82%a0%82%a0%20%82%a0%82%a0%81%40%82%a0&lr=" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;)"';
$pattern = '/^(\S+) (\S+) (\S+) \[(.*)\] "(.*?)" (\d+) (\d+) "(.*?)" "(.*?)"$/';
if (preg_match($pattern, $line, $matches)) {
    print_r($matches);
}
?>
として、最初から「"」が含まれないようにREFERERを抜き出します。
そうしてからparse_url()を使うか、自力でゴリゴリ実装すると思います。
正規表現一発にしないで、無理せず、あせらず、ゆっくり、順番に。
＃ ちょっと上のコードは動くか怪しいですけど・・・

そのうちURL毎に集計したい気分になるかもしれませんし^^
ご参考まで。

-- 
Shigetaka Yachi <syachi ＠ brownmush.net>