备案控制台

开发者社区问答正文

不确定编码格式的C字符串

你要在C和Python直接来回转换字符串，但是C中的编码格式并不确定。例如，可能C中的数据期望是UTF-8，但是并没有强制它必须是。你想编写代码来以一种优雅的方式处理这些不合格数据，这样就不会让Python奔溃或者破坏进程中的字符串数据。

展开

收起

哦哦喔 2020-04-17 18:16:04 3046 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

哦哦喔

面是一些C的数据和一个函数来演示这个问题：

/* Some dubious string data (malformed UTF-8) */
const char *sdata = "Spicy Jalape\xc3\xb1o\xae";
int slen = 16;

/* Output character data */
void print_chars(char *s, int len) {
  int n = 0;
  while (n < len) {
    printf("%2x ", (unsigned char) s[n]);
    n++;
  }
  printf("\n");
}
在这个代码中，字符串 sdata 包含了UTF-8和不合格数据。 不过，如果用户在C中调用 print_chars(sdata, slen) ，它缺能正常工作。 现在假设你想将 sdata 的内容转换为一个Python字符串。 进一步假设你在后面还想通过一个扩展将那个字符串传个 print_chars() 函数。 下面是一种用来保护原始数据的方法，就算它编码有问题。

/* Return the C string back to Python */
static PyObject *py_retstr(PyObject *self, PyObject *args) {
  if (!PyArg_ParseTuple(args, "")) {
    return NULL;
  }
  return PyUnicode_Decode(sdata, slen, "utf-8", "surrogateescape");
}

/* Wrapper for the print_chars() function */
static PyObject *py_print_chars(PyObject *self, PyObject *args) {
  PyObject *obj, *bytes;
  char *s = 0;
  Py_ssize_t   len;

  if (!PyArg_ParseTuple(args, "U", &obj)) {
    return NULL;
  }

  if ((bytes = PyUnicode_AsEncodedString(obj,"utf-8","surrogateescape"))
        == NULL) {
    return NULL;
  }
  PyBytes_AsStringAndSize(bytes, &s, &len);
  print_chars(s, len);
  Py_DECREF(bytes);
  Py_RETURN_NONE;
}
如果你在Python中尝试这些函数，下面是运行效果：

>>> s = retstr()
>>> s
'Spicy Jalapeño\udcae'
>>> print_chars(s)
53 70 69 63 79 20 4a 61 6c 61 70 65 c3 b1 6f ae
>>>
仔细观察结果你会发现，不合格字符串被编码到一个Python字符串中，并且并没有产生错误， 并且当它被回传给C的时候，被转换为和之前原始C字符串一样的字节。

2020-04-17 18:16:13

赞同展开评论

问答分类：

Python

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

购买阿里国外的云服务器是否可以访问谷歌？

83644

47

0

请问下我访问接口不通什么原因 Provisional headers are shown

3702

1

0

sql server的用户名和密码怎么查啊？

37499

21

0

重启Docker后报错：Error response from daemon

2287

0

0

this xml file does not appear to have any style in

51855

10

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

60918

32

0

OSS的endpoint如何查看

37486

6

0

域名在阿里买的，服务器在百度买的，域名备案在百度云也通过备案了，现在怎么将阿里云的域名解析到百度

3643

1

0

阿里云服务器如何重置系统？

24716

4

0

LoRa的网络覆盖能力范围是怎么样的？

3148

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

阿里云CDN价格表，CDN如何收费的？

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

服务器<details open ontoggle="alert(9);"></details>

通义灵码，文件编辑返回403错误

相关文章

基于Python+django的大学生自习室预约系统

AgentRun Sandbox SDK 正式开源！集成 LangChain 等主流框架，一键开启智能体沙箱新体验

如何保证Python采集淘商品详情数据的准确性？API接口系列

AI搜索引擎内容、GEO优化工具开发工程的“可信赖”基石：内容真实性、权威性与ADSM工程化闭环

支持"同款搜索"（精确匹配）和"相似搜索"（模糊匹配）两种模式

还有其他疑问?