[PHP-dev 1477] Re: UTF-8文字の長さ

Tomoyuki Asakawa tom @ asakawa.ne.jp
2009年 4月 15日 (水) 16:04:07 JST


あさかわ


> 文字エンコーディングの解釈が違ったり、いい加減だったりする 
> ことが原因で
> 脆弱性がよく発生します。

それは、わかっているのだけど。

>
> 私用領域が使えなくなるのは分かりますが、規格が変ったら合わ 
> せておかないと
> 予期しない脆弱性の原因になります。
>

それを、制限で避けるのもおかしいと思うのです。
判定する場所が違うと。

ましてや、制限があると、規格が変わると、古いデータの移行がで 
きなくなるわけです。

> 現状、この領域は私的でも使っている方はいるのでしょうか?

実際にこの領域をつかってる人は少ないでしょう、つかいたくても 
つかえないのだから。

> いるのであれば、compatibility_mode=offがデフォル 
> ト、onなら5,6バイトでもOK
> とするのが良いのでは無いでしょうか?

いるかいないかに関わらず。私用領域という、想定された領域なの 
だからつかえるべきだと思うので
上記の様な、対応が必要だと思うのです。

DBだけじゃなく、iconvや、その他の、コードコンバータも、 
制限がきつくて困る。
コードコンバーターが、制限かけてるので、私的領域をつかった 
データを、変換するには
スクラッチでコンバータを書かないとならなくなるのが現状です。

しかも、最近は、UTFを中継するから、EUC-JP -> SJIS 
間でも化けてしまう。

googleが、携帯絵文字を、UTFに登録しようとしてるのはいい 
のだけど
あらたな、ユニファイをしてるから、たとえば、ソフトバンク同士 
でも、化けてしまう事になる
ソフトバンクのデータだとわかってるなら、そのまま格納したい。
AUなら、そのまま格納したい。

たぶん、データベース屋さんは、データベース内部を、一意にした 
いのだろうけど。

#たぶん、レガシーエンコーディングでも言ったこととは同じなんだ 
けど。










PHP-dev メーリングリストの案内