boost::property_treeで日本語を含むJSONが文字化けする

8月 052012

久しぶりにC++ネタ。JSONを生成するプログラムをC++で書こうなんて人がそもそもいない気もするが、boost::property_tree::write_json()を使うと簡単にJSON出力ができる。

#include &amp;lt;iostream&amp;gt;
#include &amp;lt;sstream&amp;gt;
#include &amp;lt;boost/property_tree/json_parser.hpp&amp;gt;
using namespace std;

int main(int argc, char *argv[])
{
	if(argc &amp;lt; 2)
	{
		cerr &amp;lt;&amp;lt; &amp;quot;Usage: &amp;quot; &amp;lt;&amp;lt; argv[0] &amp;lt;&amp;lt; &amp;quot; message&amp;quot; &amp;lt;&amp;lt; endl;
		return 1;
	}

	boost::property_tree::ptree pt;
	pt.put(&amp;quot;message&amp;quot;, argv[1]);
	boost::property_tree::write_json(cout, pt, false);
	return 0;
}

コマンドライン引数にhelloを渡して出力されたJSONがこちら。

$ g++ -I/usr/include/boost_1_50_0 -o write_json main.cpp
$ ./write_json hello
{"message":"hello"}

では引数に日本語を渡すとどうなるか。

$ ./write_json ほげ
{"message":"\u00E3\u0081\u00BB\u00E3\u0081\u0092"}

シェル実行環境のロケールはen_US.UTF-8。日本語部分は1バイトずつ\u00XXという形にエンコードされている。

このJSONをChrome Development Toolで読み込ませてみる。
GarbledJSON
素敵に文字化け。

JSONの仕様で文字列型は

A string is a sequence of zero or more Unicode characters, wrapped in double quotes, using backslash escapes.

と定義されているので、UTF-8から一旦Unicodeに変換しなければならない。PHPのjson_encode()なんかは、入力の文字コードがUTF-8に限定しているものの、内部でUnicode化してからJSONエンコードをしてくれているようだ。

ということで、まずはUTF-8からUnicodeへ変換する処理が必要になる。また、マルチバイト文字列（std::string）とワイド文字列（std::wstring）との変換もしなければならない。面倒ではあったが、標準ライブラリのcodecvtを使えばなんとかなりそうだったので、UTF-8からUnicodeへの変換を行うwiden()関数と、その逆変換を行うnarrow()関数（JSON出力の目的ではなくてもいいんだけど対称性のため）を提供するCodeCvtクラスを作ってみた。

#include &amp;lt;iostream&amp;gt;
#include &amp;lt;stdexcept&amp;gt;
#include &amp;lt;vector&amp;gt;
#include &amp;lt;string&amp;gt;
#include &amp;lt;cstring&amp;gt;
#include &amp;lt;locale&amp;gt;
#include &amp;lt;boost/property_tree/json_parser.hpp&amp;gt;
using namespace std;

class CodeCvt
{
public:
	explicit CodeCvt(const char *locale=&amp;quot;en_US.UTF-8&amp;quot;)
	: locale_(locale), codecvt_(use_facet&amp;lt;codecvt_type&amp;gt;(locale_)) {}

	wstring widen(const string &amp;amp;s)
	{
		const char *fb = s.data();
		const char *fe = fb+s.size();
		const char *fn;
		vector&amp;lt;wchar_t&amp;gt; ws(s.size());
		wchar_t *tb = &amp;amp;ws.front();
		wchar_t *te = tb+ws.size();
		wchar_t *tn;
		mbstate_t st;
		bzero(&amp;amp;st, sizeof(st));

		const codecvt_base::result res = codecvt_.in(st, fb, fe, fn, tb, te, tn);
		assert_result(res, fn, fe);
		return wstring(tb, tn);
	}

	string narrow(const wstring &amp;amp;ws)
	{
		const wchar_t *fb = ws.data();
		const wchar_t *fe = fb+ws.size();
		const wchar_t *fn;
		vector&amp;lt;char&amp;gt; s(ws.size()*4);
		char *tb = &amp;amp;s.front();
		char *te = tb+s.size();
		char *tn;
		mbstate_t st;
		bzero(&amp;amp;st, sizeof(st));

		const codecvt_base::result res = codecvt_.out(st, fb, fe, fn, tb, te, tn);
		assert_result(res, fn, fe);
		return string(tb, tn);
	}

private:
	template&amp;lt;class CharT&amp;gt;
	static void assert_result(codecvt_base::result res, const CharT *fn, const CharT *fe)
	{
		switch(res)
		{
			case codecvt_base::ok:
				if(fn != fe)
				{
					throw invalid_argument(&amp;quot;Conversion failure&amp;quot;);
				}
				break;
			case codecvt_base::partial:
				throw invalid_argument(&amp;quot;partial&amp;quot;);
			case codecvt_base::error:
				throw invalid_argument(&amp;quot;error&amp;quot;);
			case codecvt_base::noconv:
				throw invalid_argument(&amp;quot;noconv&amp;quot;);
		}
	}

	typedef codecvt&amp;lt;wchar_t, char, mbstate_t&amp;gt; codecvt_type;
	const locale locale_;
	const codecvt_type &amp;amp;codecvt_;
};

mbstate_t型の変数stをbzero()やmemset()などで初期化しておかないと、codecvt_.in()やcodecvt_.out()の中で不測の事態が起こるので注意（実際テスト中に無限ループにハマってデバッガで追いかける羽目になった）。

main()関数側では、ptreeの代わりにwptreeを使い、出力もcoutではなくwcoutを使うようにするだけ。

int main(int argc, char *argv[])
{
	try
	{
		CodeCvt cvt;
		boost::property_tree::wptree pt;
		pt.put(L&amp;quot;message&amp;quot;, cvt.widen(argv[1]));
		boost::property_tree::write_json(wcout, pt, false);
		return 0;
	}
	catch(const exception &amp;amp;e)
	{
		cerr &amp;lt;&amp;lt; e.what() &amp;lt;&amp;lt; endl;
		return 1;
	}
}

さっそく実行してみる。

$ ./write_json ほげ
{"message":"\u307B\u3052"}

ちゃんとUnicodeのバイトシーケンスでエンコードされているのがわかる。

同じようにChrome Development Toolで読み込ませてみる。
FixedJSON

今度はちゃんと「ほげ」と表示されるようになった。

CodeCvtクラスのコンストラクタ引数で別の文字コード（例えばja_JP.EUC-JP）を渡せば、UTF-8以外のマルチバイト文字列からでもJSON化することができるはず。

ソースはGistに置いといた。

Inhale n' Exhale

boost::property_treeで日本語を含むJSONが文字化けする

返信する返信をやめる

返信する 返信をやめる

返信する返信をやめる