[PHP-dev 515] Re: [RFC] Introducing more consistent stuff - mb_translit()

Moriyoshi Koizumi php-dev@php.gr.jp
Tue, 01 Oct 2002 02:35:00 +0900


小泉です。

> http://ns1.php.gr.jp/pipermail/php-users/2001-August/001330.html
> 
> でも書いたんですが、個人的に、convert_kana とか、convert_case とかよりも、
> mb_translit() の方が名前的にも良いと思いますし、
> 用途があるかどうか分かりませんが、将来、ひらがなをローマ字にしたり、
> なんて言う変換も transliteration といえると思います。

ご意見ありがとうございます。
以前に同じようなことをおっしゃっていたんですね。
まったく同感です。
たとえば、UCDATA 自体には、ハングル一文字が表すいくつかの音素を、それぞれ
の音素に当たるハングル文字に分解する関数も備わっています。
将来この機能も付加されるとしたら、translit の名称が適切になりますよね。
もっとも、コリア語の話者ではないので、
この機能が実際に必要なのかどうかは判断しかねますが。

# 日本語でいうと、漢字 → かな変換をするようなものなんでしょうか...

> ただ、個人的には、全角/半角という表現は一般的ではありますが、
> 技術的にどうかと思う部分がありますから、シングルバイト文字、
> マルチバイト文字 (utf-8 だと、max 6 バイトで、漢字は 3 バイトなので、
> 2 バイト文字という表現も不適切と思いますから) という記載に
> 改めた方がよろしいのではないかともいます。

utf-8 でも、半角カナはマルチバイトになってしまいます。(しかも4バイト)
unicode では、字形が同一で、幅が違う文字を half width / full width という
呼称で区別してマッピングしているので、それの邦訳として 全角 / 半角 と呼ぶ
のが適切かと思うのですが、いかがでしょう。

# utf-8 以前は double byte character set とか言っていたなあ、、、