备案控制台

开发者社区问答正文

大家一般怎么对内容中的一些无效字符做过滤呢？:配置报错

我们一个应用，字符集是 UTF-8 的，但之前有导入一些内容包含了一些怪字符，这些字符本身不在 UTF-8 范畴之内的，例如： Apache Commons工具集简介 �� 导致根据这个内容生成的 XML 文档或者是其他文本都不被编辑器所识别，一些XML解析库也会报XML格式错误的信息大家有碰到这种问题一般是如何处理呢，现在想对这样的内容做过滤，也不知道该怎么过滤

展开

收起

kun坤 2020-06-02 14:59:20 631 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

kun坤

Java 可以用如下方法来来过滤

/** * Function to strip control characters from a string. * Any character below a space will be stripped from the string. * @param iString the input string to be stripped. * @return a string containing the characters from iString minus any control characters. */ public String stripControlChars(String iString) { StringBuffer result = new StringBuffer(iString); int idx = result.length(); while (idx-- > 0) { if (result.charAt(idx) < 0x20 && result.charAt(idx) != 0x9 && result.charAt(idx) != 0xA && result.charAt(idx) != 0xD) { if (log.isDebugEnabled()) { log.debug("deleted character at: "+idx); } result.deleteCharAt(idx); } } return result.toString(); }

######还可以试试正则表达式

stringName.replaceAll("[^\\p{Print}]", "");

######乖乖，犀利######鉴客的正则耍得太犀利了。受教了。######PHP的 http://php.net/manual/zh/function.urldecode.php######红薯又不干好事，扒人网页了吧######我的做法就是转码unicode###### 我导日文数据的时候，出现过这个问题，一般情况下是编码转换。

2020-06-02 14:59:26

赞同展开评论

问答分类：

XML 自然语言处理 Apache 数据格式云解析DNS

问答地址：

开发者社区 > 大数据 > 问答

相关问答

OSS的endpoint如何查看

31825

3

0

this xml file does not appear to have any style in

38463

9

0

如果购买了域名，一定要备案才能用吗

39790

36

0

有哪些值得收藏的五个种子搜索引擎&磁力搜索引擎？

98836

16

0

支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】

240429

10

0

com/action/joingroup?code=v1是什么意思

210568

20

0

java的官网网址是什么

35619

23

0

配置了安全组规则，端口还是无法访问

28841

21

0

企业邮箱免费版

10074

4

0

互联网信息服务增值电信业务经营许可证申请资料

7211

2

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

lmstudio拉起qwq-32b-q3_k_m.gguf模型报错？

工作中，拥有什么样的“软技能”可以跨越周期、终身成长？

在idea中使用通义灵码插件时，回答结果比较长时会发生中断，导致回答不完整

关于wan2.1显存占用的问题

一键生成讲解视频，AI的理解和生成能力到底有多强？

相关文章

万字长文讲透 RAG在实际落地场景中的优化

本地部署QWQ显存不够怎么办？

基于责任链与策略模式的轻量级PHP日志库设计

NOTE-大模型Clouder认证：利用大模型提升内容生产能力

《深度剖析：将先进语音识别技术融入鸿蒙系统AI应用》

还有其他疑问?