一、除ANSI外,源码可保存为UTF-8、UTF-16LE、UTF-16BE三种编码,但是源码一定要带BOM,这样Visual C++才会识别出源代码是Unicode编码。新版gcc也支持带BOM的UTF-8源代码,因此不用担心移植性问题。
二、关于char[]窄字符常量的字符集问题
如果需要使用ANSI编码窄字符常量,则在其它语言的Windows下不一定能编译通过,一般需要在源代码中设置默认区域:
#pragma setlocale("chinese-simplified")
如果需要使用UTF-8编码char[]窄字符常量,则需要Visual C++ 2010 SP1以上的编译器,并设定执行字符集:
#pragma execution_character_set("utf-8")
这个选项有个bug,那就是不能正确处理转义字符,转义字符仍然被编码为ANSI。
如果使用Visual C++ 2015以上的编译器,则可以同时使用ANSI和UTF-8字符集的char[]窄字符常量:
char ansi_str[] = "我是ANSI字符串";
char utf8_str[] = u8"我是UTF-8字符串";
Visual Studio 2015完全解决了UTF-8字符串常量问题。
如果不想这么麻烦的话,可以使用宽字符wchar_t,而不是使用窄字符char储存中文。需要UTF-8的地方再将宽字符转换为UTF-8使用。