[PHP-users 11691] Re: 文字列のマッチングについて
Moriyoshi Koizumi
php-users@php.gr.jp
Fri, 22 Nov 2002 09:49:48 +0900
小泉です。
> 個人的には、[A-Zあ-んア-ン] だと、([A-Z]|[あ-んア-ン]) のように、
> まず、バイト数ごとに分割して、その後に、[あ-ん][ア-ン] の部分を、
> ([あ-ん]|[ア-ン]) として、
>
> あ = \xa4\xa2 ア = \xa5\xa2
> ん = \xa4\xf3 ン = \xa5\xf3
>
> なので、([A-Z]|\xa4[\xa2-\xf3]|\xa5[\xa2-\xf3]) とすればいいのかなと。
>
> あとは、JIS にどうやって対処するのかが問題です。
たまたま JIS 漢字コードの配列が大概あいうえお順だからできる最適化ですね。
でも、たとえば[ヶ-ャ]は予期せぬ結果となりますね。まあ、この辺は期待するの
が野暮なのかもしれませんが。
ちなみに pcre では U-00FF 以上の領域の文字はサポートされていないようです。
残念。