[PHP-users 35719] DOMDocumentの文字化けに悩んでおります

yk_mailing @ excite.co.jp yk_mailing @ excite.co.jp
2012年 6月 3日 (日) 01:21:15 JST


cURLでサイトから文章を取得してきて、
HTMLをDOMDocumentにて必要な部分だけを抽出する、
という事をしたいと考えているのですが、文字化けします。
以下の$target_urlはShift_JISにて書かれているようですが、mb_convert_encoding()を使ってもダメです。
この一連の操作で、いつも文字化けに悩まされます。

自分のPHPスクリプトの問題もあるかもしれませんし、PHP_cURLの方にそもそも問題があるのかもしれませんし、もしくは自分のphp.iniの方に問題があるのかもしれません。
どのようにすれば解決できるのでしょうか?
ご教授頂けたらと思います。
宜しくお願いします。


実際のコードとは違うので、もしかしたら間違いがあるかもしれません。
PHP5.3
Windows7 64bit


<?php
error_reporting(E_ALL | E_STRICT);
define('DS', DIRECTORY_SEPARATOR);
define('PS', PATH_SEPARATOR);
require_once 'lib' . DS . 'simplecURL.php';
mb_detect_order('eucJP-win,UTF-8,SJIS-win,jis');

/** 
 *   $top_urlから各記事のURLが取得できない。
 *   仕方がないので他サイトの日付を使う
 *    (↑自分はhttp://cgi2.nhk.or.jp/e-news/index.cgiから同様の処理をして取っています)
 */
 
if (isset($_POST['abc']))
{
	$site_name = "abc";
	$target_url = "http://www.nhk.or.jp/worldwave/abc/popup/abc120423.html";
	$body_xPath_en = "//p[@class="en"]/text()";
	$body_xPath_ja = "//div[@class="paragraph clearfix"]//p[@class="ja"]/text()"
	$body_xPath_ex = "//p[@class="comment"]//text()";
	$text = get_text($target_url, $body_xPath_en, $body_xPath_ja, $body_xPath_ex);
	var_dump($text);
}

function get_text ($target_url, $body_xPath_en, $body_xPath_ja, $body_xPath_ex)
{
/**
 *   以下のSimplecURL classはhttp://www.php.net/manual/ja/curl.examples-basic.phpと
 *   それほど変わりません。
 *   set_option()を色々付けているだけです。
 */
	$http = new SimplecURL($target_url); 
	$html = $http->execute();
	$doc = new DOMDocument();
	@$doc->loadHTML($html);
	$xpath = new DOMXPath($doc);

	$extracts = $xpath->query($body_xPath_en);
	$abc_pattern1 = "|</?(br|span).*?>|i";
	foreach ($extracts as $value)
	{
		$result = trim($value->nodeValue);
		$result = preg_replace($abc_pattern1, '', $result);
		$results["en"][] = trim($result);
	}

	$extracts = $xpath->query($body_xPath_ja);
	foreach ($extracts as $value)
	{
		$result = trim($value->nodeValue);
		$result = mb_convert_encoding($result, 'UTF-8', 'Shift-JIS');
		$results["ja"][] = $result;
	}

	$extracts = $xpath->query($body_xPath_ex);
	foreach ($extracts as $value)
	{
		$result = trim($value->nodeValue);
		$result = mb_convert_encoding($result, 'UTF-8', 'Shift-JIS');
		$results["ex"][] = $result;
	}
	return $results;
}


PHP-users メーリングリストの案内