这是个棘手的问题。
今天把一个充满各种符文(全角和半角的英文汉字,偏旁部首等)的文本从windows传到linux,发现是除了半角字母和标点,其他的都是乱码。
我就查资料啊
学习了一下字符编码跟字符集。着重看了一下GBK相关的编码。最终发现GB18030编码的字符范围最大。就用了iconv这个命令解码。
iconv -f GB18030 -t utf-8 input -o output
不出意外,用GB18030能够到解码的数据最多,跟cp936差不多,GBK和GB2312只能解出很少一部分。
但是问题是,用GB18030这种编码方式还是不能全部解码。
有这方面经验的不?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。