[PHP-dev 1465] Re: UTF-8文字の長さ

Moriyoshi Koizumi mozo @ mozo.jp
2009年 4月 11日 (土) 00:36:40 JST


小泉です。

それはわかるのですが、これは単純にUTF-81文字を表すシーケンスの最初のオクテットから長さを決定するテーブルなので、単純に 5 を 4
に変えるような問題ではないと思うのです。

また、ISO/IEC 10646 では U+110000 以降は reserved と定義しているので、この領域に対応する UTF-8
シーケンスは (符号化という観点では) 有効です。

RFC3629 や Unicode Standard では、そのようなシーケンスは無効だという理解です。

2009/4/11 Moriyoshi Koizumi <mozo @ mozo.jp>:
> 2009/4/11 KOYAMA Tetsuji <koyama @ hoge.org>:
>> 小山です。
>>
>> 2009/4/11 Moriyoshi Koizumi <mozo @ mozo.jp>:
>>> 小泉です。
>>>
>>> 不勉強ですみませんが、この変更にはどのような意義があるのでしょう。
>>
>> RFC 3629 では、UNICODE で定義されていない 第16面より後ろに
>> 対応するバイトシーケンスは削除されているということだと
>> 思います。最長 4 バイトになってますね。
>>
>>
>> --
>>    小山哲志@テックスタイル
>>    koyama @ techstyle.jp
>>    koyama @ hoge.org
>> _______________________________________________
>> PHP-dev mailing list
>> PHP-dev @ php.gr.jp
>> http://ml.php.gr.jp/mailman/listinfo/php-dev
>>
>


PHP-dev メーリングリストの案内