[PHP-users 21228]Re: ネストされたタグを正規表現で抽出する場

NAKAMURA Takeshi 1yen @ sh.rim.or.jp
2004年 4月 9日 (金) 16:14:07 JST


仲村です。

On Fri, 09 Apr 2004 09:14:45 +0900,
 Tadashi Jokagi <ml @ elf.no-ip.org> wrote:

>       あと tidy で HTML のパースが出来るみたいです.これはいわきりさん
>     が詳しいです(指名してみるテスト

 モジュールは使ったことがないのですが、コマンドライン版を使った経験から
これは場合によってはちょっと危険じゃないかとおもいます。
 &nbsp; &hearts; &trade; などという実体参照が UTF-8 な文字に展開されるため
出力が UTF-8 以外の場合は使わない方が良いと思います。

 絶対間違えてるよな〜って思う翻訳ソフトの出力をそのまま貼ってたりしますが(^^;
http://sourceforge.net/tracker/index.php?func=detail&aid=724148&group_id=27659&atid=390963
ちなみに最後 Y の中身は 日本語 と書かれたファイルです。

# やりとりの途中には書きませんでしたが tidy -shiftjis でも、展開されます
----+----1----+----2----+----3----+----4----+----5----+----6----+----7----+
 関西沖縄青年の集い がじまるの会 手伝い 一人だけの勝手に神奈川支部
 仲村 武 <1yen @ sh.rim.or.jp>
コマンドライン版は sed を使って
   sed -ne '{p;/<\!--tidy_safe /{s/^\(.*\)<\!--tidy_safe \(.*\) -->\(.*\)$/\1 \2 \3/p;N;};}' 
で、文章は
   <!--tidy_safe なんとか &nbsp; なんとか -->
    なんとか &nbsp; なんとか 
と書いて逃げてます。ここだけ tidy が無効化されてしまいますが。


PHP-users メーリングリストの案内