[PHP-users 4743] Re: sjis で echo ”能” エ

T.P.S. 中川 php-users@php.gr.jp
Wed, 16 Jan 2002 11:38:19 +0900


パイプ喫いの中川です。

	よしおかさんが
	01月16日11時09分に発信された
	「[PHP-users 4742] Re: sjis で echo ”能” エ」こと
	<20020116110937M.hyoshiok@miraclelinux.com>より


>  > ・2バイト目に0x5c等が含まれる。
>  
>  iso-2022-jpなんかもそうなんですよね。

  iso-2022-jp ( いわゆる JIS ) では、その 0x5c で文字列が終了する
ことはありませんですよね。必ずエスケープコードで ASCII などの
コードセットに復旧してから終わっている。

  松島さんの表現が言葉たらずだったかもしれませんが、SJIS の
文字コードとしての弱点から目を背けるような混ぜっかえしはどうかと
思います。

# このメーリングリストは結構初心者の方も読んでおられるんだし、
# そんな言葉遊びみたいなことはやめましょうよ。



>  > ・区点コードとの変換が複雑。
>  
>  UTF-8へ区点コードとの変換はテーブルを利用しないと
>  できないと思うのですが。それから比べれば、簡単に
>  区点コードへと変換できると思います。

  もちろん、JIS や EUC に較べて変換が複雑だが、それに見合うだけの
メリットがない、と松島さんは書かれているように読めますです。

  UTF-8 との間の変換は複雑だが、それに見合うだけのメリットもある、
という松島さんの趣旨はここまでの流れで充分に読めますが。


>  > ・8bit目が落ちたら、情報の復元が困難。
>  
>  EUC-JPもUTF-8も8ビット目が落ちたら復元は困難だと
>  思うのですが。

  本気ですか? *私には* 復元の難易度に雲泥の差があると思えますが。

# でも、それ以前の問題として、近頃のネットワーク環境で 8bit 目が
# 落ちることは滅多にないと思うのであまり深入りしたい議論じゃないけど


>  > 海外系のツールで痛い目に合う事(今回の'能'も然り)を考えると、
>  > EUC-JPやUTF-8の方が技術的に都合の良い事が多いと感じています。
>  
>  技術的に都合がいいというより、たまたま通ることが
>  多い程度の話ですよね。

  そうかなぁ。日本語 *も* 通るようなパッチを当てようとするときに、
EUC-JP だけ考えたらいいのと、そのほかの文字コードも扱うつもりに
なるのとでは全く難易度が違うと思いますが...


>  Shift_JISのアプリケーションが全然新規に作られて
>  いなくて、どんどん廃棄あるいは他のエンコーディングに
>  マイグレートされているのならlegacyという感じがする
>  のですが、そーではなくて、ばりばり新規に作られている
>  のが実状ですよね。

  で、作っている人がみんな「SJIS みたいなコードセットがなかったら
どんなに楽か」とヒーヒー言っている現状には目を背けられる、と?


--
  中川 恒雄 ( T.Nakagawa )         mailto:yaemon@alles.or.jp 
                                   http://www.alles.or.jp/~yaemon/