开发者社区> 问答> 正文

PHP下preg_replace_callback匹配中文的问题

代码:

$html = preg_replace_callback("/(?<chinese>[\x{4e00}-\x{9fa5}]+)/u",array("self","wyc_chinese"),$html);
...
省略
...
public function wyc_chinese($matches)
{       
    return $matches['chinese'].'(Chinese)';
}

问题:
$html为要提取的网页数据
如果$html是utf8编码的,则以上代码能正常执行(即能正常提取中文),但如果是其他编码的,则没法正常执行(无法匹配到汉字)
使用iconv转换$html的编码格式,也无法正常提取中文。

展开
收起
落地花开啦 2016-06-17 16:29:02 2157 0
1 条回答
写回答
取消 提交回答
  • 喜欢技术,喜欢努力的人

    <meta charset="utf-8">来识别编码是错误的.有些网页没有写meta,对于现代浏览器也会正常显示的(IE6有问题,IE7,IE8没测~)
    应该根据HTTP响应头Content-Type: text/html; charset=UTF-8来判断.如果没有返回charset,就根据内容来自行判断了..
    为了方便,最好将html转换为UTF-8来进行正则匹配.
    screenshot

    2019-07-17 19:43:03
    赞同 展开评论 打赏
问答分类:
PHP
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
PHP安全开发:从白帽角度做安全 立即下载
PHP 2017.北京 全球开发者大会——高可用的PHP 立即下载
复杂PHP系统性能瓶颈排查及优化 立即下载