[PHP-users 21228]Re: ネストされたタグを正規表現で抽出する場
NAKAMURA Takeshi
1yen @ sh.rim.or.jp
2004年 4月 9日 (金) 16:14:07 JST
仲村です。
On Fri, 09 Apr 2004 09:14:45 +0900,
Tadashi Jokagi <ml @ elf.no-ip.org> wrote:
> あと tidy で HTML のパースが出来るみたいです.これはいわきりさん
> が詳しいです(指名してみるテスト
モジュールは使ったことがないのですが、コマンドライン版を使った経験から
これは場合によってはちょっと危険じゃないかとおもいます。
♥ ™ などという実体参照が UTF-8 な文字に展開されるため
出力が UTF-8 以外の場合は使わない方が良いと思います。
絶対間違えてるよな〜って思う翻訳ソフトの出力をそのまま貼ってたりしますが(^^;
http://sourceforge.net/tracker/index.php?func=detail&aid=724148&group_id=27659&atid=390963
ちなみに最後 Y の中身は 日本語 と書かれたファイルです。
# やりとりの途中には書きませんでしたが tidy -shiftjis でも、展開されます
----+----1----+----2----+----3----+----4----+----5----+----6----+----7----+
関西沖縄青年の集い がじまるの会 手伝い 一人だけの勝手に神奈川支部
仲村 武 <1yen @ sh.rim.or.jp>
コマンドライン版は sed を使って
sed -ne '{p;/<\!--tidy_safe /{s/^\(.*\)<\!--tidy_safe \(.*\) -->\(.*\)$/\1 \2 \3/p;N;};}'
で、文章は
<!--tidy_safe なんとか なんとか -->
なんとか なんとか
と書いて逃げてます。ここだけ tidy が無効化されてしまいますが。
PHP-users メーリングリストの案内