转码问题是由于Windows并没有UTF-8的locale导致的。实际上即使你使用_get_current_locale强行修改代码页也不行,根本原因因为VC运行库在转码时设置了UTF-8不支持的MB_PRECOMPOSED开关。因此想用wcstombs或mbstowcs转换UTF-16和UTF-8的尝试注定要失败。
要支持UTF-8,可以使用Visual C++ 2010 SP1以上提供的wstring_convert转码。不过要注意如果碰到非法字符的话,会触发异常,无法继续转换下去。使用try{程序代码}catch(...){},即catch括号里三个点这种形式可以捕捉异常,避免程序崩溃。
在Windows中(wchar_t是16位)最常用的方式:
// string(UTF-8) <-> wstring(UTF-16)
wstring_convert<codecvt_utf8_utf16<wchar_t>> cvt_utf8;
在wchar_t是32位环境中最好这样写:
// string(UTF-8) <-> wstring(UTF-32)
wstring_convert<codecvt_utf8<wchar_t>> cvt_utf8;
如果要可移植的话,建议改用平台无关的char16_t和u16string,而不是使用wchar_t和wstring:
// string(UTF-8) <-> u16string(UTF-16)
wstring_convert<codecvt_utf8_utf16<char16_t>, char16_t> cvt16_utf8_utf16;
除此之外,C++标准库还支持基于UTF-32的char32_t和u32string:
// string(UTF-8) <-> u32string
wstring_convert<codecvt_utf8<char32_t>, char32_t> cvt32_utf8;
// string(UTF-16BE字节流) <-> u32string
wstring_convert<codecvt_utf16<char32_t>, char32_t> cvt32_utf16le;
// string(UTF-16LE字节流) <-> u32string
wstring_convert<codecvt_utf16<char32_t, 0x10ffff, little_endian>, char32_t> cvt32_utf16le;