、䲠,这两个字有什么不同?
acmilan2017/04/03软件综合 IP:四川

这两个字在Windows操作系统下都是chun鱼的chun,但是前者在其它系统下却可能变为乱码。

这是由于前者是GBK增补字符集PUA编码,而后者是Unicode标准非PUA编码。

受影响的有106个字符。由于不是所有字体都支持这106个PUA字符,导致了UTF-8在这106个字符上实际上并不跨平台。考虑到大多数操作系统都支持Unicode,如果要让文本跨平台使用,最好转换为非PUA编码。

转换时要注意,有6个字符需要映射到扩展平面Ext-B区域,需要两个UTF-16字符表示。

在其它操作系统下乱码的原因,主要是PUA区域除了GBK以外,也被Big5-HKSCS使用,操作系统可能会将这些字符显示为Big5-HKSCS字符。

判断这些字的方法也很简单,如果打出来的字符只有宋体没有雅黑,说明是PUA字符,建议用更通用的字符代替。

pua_hkscs_gbk.png

<code class="language-txt">PUA范围   对应的PUA字符
E76C-E76C 
E78D-E796 
E7C7-E7C8 
E7E7-E7F3 
E815-E815 
E819-E830 
E832-E83A 
E83C-E854 
E856-E864 

PUA范围   对应的非PUA字符
E76C-E76C €
E78D-E796 ︐︒︑︓︔︕︖︗︘︙
E7C7-E7C8 ḿǹ
E7E7-E7F3 〾⿰⿱⿲⿳⿴⿵⿶⿷⿸⿹⿺⿻
E815-E815 ⺁
E819-E830 ⺄㑳㑇⺈⺋龴㖞㘚㘎⺌⺗㥮㤘龵㧏㧟㩳㧐龶龷㭎㱮㳠⺧
E832-E83A 龸⺪䁖䅟⺮䌷⺳⺶⺷
E83C-E854 䎱䎬⺻䏝䓖䙡䙌龹䜣䜩䝼䞍⻊䥇䥺䥽䦂䦃䦅䦆䦟䦛䦷䦶龺
E856-E864 䲣䲟䲠䲡䱷䲢䴓䴔䴕䴖䴗䴘䴙䶮龻

扩展平面(UTF-16需保存为两个字符):
E816 20087[𠂇]
E817 20089[𠂉]
E818 200CC[𠃌]
E831 215D7[𡗗]
E83B 2298F[𢦏]
E855 241FE[𤇾]
</code>


attachment icon puamap_txt_pic.rar 48.40KB RAR 22次下载

[修改于 7年1个月前 - 2017/04/03 22:19:04]

来自:计算机科学 / 软件综合
1
已屏蔽 原因:{{ notice.reason }}已屏蔽
{{notice.noticeContent}}
~~空空如也

想参与大家的讨论?现在就 登录 或者 注册

所属专业
上级专业
同级专业
acmilan
进士 学者 笔友
文章
461
回复
2934
学术分
4
2009/05/30注册,5年3个月前活动
暂无简介
主体类型:个人
所属领域:无
认证方式:邮箱
IP归属地:未同步
文件下载
加载中...
{{errorInfo}}
{{downloadWarning}}
你在 {{downloadTime}} 下载过当前文件。
文件名称:{{resource.defaultFile.name}}
下载次数:{{resource.hits}}
上传用户:{{uploader.username}}
所需积分:{{costScores}},{{holdScores}}下载当前附件免费{{description}}
积分不足,去充值
文件已丢失

当前账号的附件下载数量限制如下:
时段 个数
{{f.startingTime}}点 - {{f.endTime}}点 {{f.fileCount}}
视频暂不能访问,请登录试试
仅供内部学术交流或培训使用,请先保存到本地。本内容不代表科创观点,未经原作者同意,请勿转载。
音频暂不能访问,请登录试试
支持的图片格式:jpg, jpeg, png
插入公式
评论控制
加载中...
文号:{{pid}}
投诉或举报
加载中...
{{tip}}
请选择违规类型:
{{reason.type}}

空空如也

加载中...
详情
详情
推送到专栏从专栏移除
设为匿名取消匿名
查看作者
回复
只看作者
加入收藏取消收藏
收藏
取消收藏
折叠回复
置顶取消置顶
评学术分
鼓励
设为精选取消精选
管理提醒
编辑
通过审核
评论控制
退修或删除
历史版本
违规记录
投诉或举报
加入黑名单移除黑名单
查看IP
{{format('YYYY/MM/DD HH:mm:ss', toc)}}