[PHP-users 11691] Re: 文字列のマッチングについて

Moriyoshi Koizumi php-users@php.gr.jp
Fri, 22 Nov 2002 09:49:48 +0900


小泉です。

> 個人的には、[A-Zあ-んア-ン] だと、([A-Z]|[あ-んア-ン]) のように、
> まず、バイト数ごとに分割して、その後に、[あ-ん][ア-ン] の部分を、
> ([あ-ん]|[ア-ン]) として、
> 
> 	あ = \xa4\xa2	ア = \xa5\xa2
> 	ん = \xa4\xf3 ン = \xa5\xf3
> 
> なので、([A-Z]|\xa4[\xa2-\xf3]|\xa5[\xa2-\xf3]) とすればいいのかなと。
> 
> あとは、JIS にどうやって対処するのかが問題です。

たまたま JIS 漢字コードの配列が大概あいうえお順だからできる最適化ですね。
でも、たとえば[ヶ-ャ]は予期せぬ結果となりますね。まあ、この辺は期待するの
が野暮なのかもしれませんが。

ちなみに pcre では U-00FF 以上の領域の文字はサポートされていないようです。
残念。