开发者社区> 周梦康> 正文

PHP 源码探秘 - 为什么 trim 会导致乱码

简介: 我的博客 https://mengkang.net/1039.html 运行以下代码: $tag = "互联网产品、"; $text = rtrim($tag, "、"); print_r($text); 我们可能以为会得到的结果是互联网产品,实际结果是互联网产�。
+关注继续查看

我的博客 https://mengkang.net/1039.html

运行以下代码:

$tag = "互联网产品、";
$text = rtrim($tag, "、");
print_r($text);

我们可能以为会得到的结果是互联网产品,实际结果是互联网产�。为什么会这样呢?

科普

PHP 里使用mb_前缀的都是多字节函数 http://php.net/manual/zh/ref.mbstring.php

比如

$str = "abcd";
print_r(strlen($str)."\n"); // 4
print_r(mb_strlen($str)."\n"); // 4

$str = "周梦康";
print_r(strlen($str)."\n"); // 9
print_r(mb_strlen($str)."\n"); // 3

mb_系列函数是以“多个字节组成的一个字符”为颗粒度来操作的,不带mb_则是按实际的字节数来操作的。

原理

trim 函数文档

string trim ( string $str [, string $character_mask = " \t\n\r\0\x0B" ] )

该函数不是多字节函数,也就是说,汉字这样的多字节字符,会拿其头或尾的单字节来和后面的$character_mask对应的char数组进行匹配,如果在后面的数组中,则删掉,继续匹配。比如:

echo ltrim("bcdf","abc"); // df

如下面的 demo 中的函数string_print_char所示:
0xe3 0x80 0x81三字节组成,
0xe5 0x93 0x81三字节组成。
所以在执行rtrim的时候,通过字节比对,会将0x81去掉,导致了最后出现了乱码。

源码探究

查看 PHP7 的源码,然后提炼出下面的小 demo ,方便大家一起学习,其实PHP源码的学习并不难,每天进步一点点。

//
//  main.c
//  trim
//
//  Created by 周梦康 on 2017/10/18.
//  Copyright © 2017年 周梦康. All rights reserved.
//

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

void string_print_char(char *str);
void php_charmask(unsigned char *input, size_t len, char *mask);
char *ltrim(char *str,char *character_mask);
char *rtrim(char *str,char *character_mask);


int main(int argc, char const *argv[])
{
    printf("%s\n",ltrim("bcdf","abc"));
    
    string_print_char("品"); // e5    93    81
    string_print_char("、"); // e3    80    81
    
    printf("%s\n",rtrim("互联网产品、","、"));
    
    
    return 0;
}

char *ltrim(char *str,char *character_mask)
{
    char *res;
    char mask[256];
    register size_t i;
    int trimmed = 0;
    
    size_t len = strlen(str);
    
    php_charmask((unsigned char*)character_mask, strlen(character_mask), mask);
    
    for (i = 0; i < len; i++) {
        if (mask[(unsigned char)str[i]]) {
            trimmed++;
        } else {
            break;
        }
    }
    
    len -= trimmed;
    str += trimmed;
    
    res = (char *) malloc(sizeof(char) * (len+1));
    memcpy(res,str,len);
    
    return res;
}

char *rtrim(char *str,char *character_mask)
{
    char *res;
    char mask[256];
    register size_t i;
    
    size_t len = strlen(str);
    
    php_charmask((unsigned char*)character_mask, strlen(character_mask), mask);
    
    if (len > 0) {
        i = len - 1;
        do {
            if (mask[(unsigned char)str[i]]) {
                len--;
            } else {
                break;
            }
        } while (i-- != 0);
    }
    
    res = (char *) malloc(sizeof(char) * (len+1));
    memcpy(res,str,len);
    
    return res;
}

void string_print_char(char *str)
{
    unsigned long l = strlen(str);
    
    for (int i=0; i < l; i++) {
        printf("%02hhx\t",str[i]);
    }
    
    printf("\n");
}

void php_charmask(unsigned char *input, size_t len, char *mask)
{
    unsigned char *end;
    unsigned char c;
    
    memset(mask, 0, 256);
    
    for (end = input+len; input < end; input++) {
        c = *input;
        mask[c]= 1;
    }
}

如果觉得 demo 还不够清晰的,复制下来,自己执行一次吧~
C 语言基础较差的同学也不用担心,我准备后面专门写一个PHP小白学习 C 语言的系列入门短文哈。

解决方案

那么我们就依葫芦画瓢,用 php 本身的多字节函数来实现下吧:

function mb_rtrim($string, $trim, $encoding)
{

    $mask = [];
    $trimLength = mb_strlen($trim, $encoding);
    for ($i = 0; $i < $trimLength; $i++) {
        $item = mb_substr($trim, $i, 1, $encoding);
        $mask[] = $item;
    }

    $len = mb_strlen($string, $encoding);
    if ($len > 0) {
        $i = $len - 1;
        do {
            $item = mb_substr($string, $i, 1, $encoding);
            if (in_array($item, $mask)) {
                $len--;
            } else {
                break;
            }
        } while ($i-- != 0);
    }

    return mb_substr($string, 0, $len, $encoding);
}

$tag = "互联网产品、";
$encoding = mb_internal_encoding();
print_r(mb_rtrim($tag, "、",$encoding));

当然你也可以使用正则来做。通过上面的函数学习,单字节函数和多字节函数,你学会了吗?

PHP7 相关源码

PHP_FUNCTION(trim)
{
    php_do_trim(INTERNAL_FUNCTION_PARAM_PASSTHRU, 3);
}
PHP_FUNCTION(rtrim)
{
    php_do_trim(INTERNAL_FUNCTION_PARAM_PASSTHRU, 2);
}
PHP_FUNCTION(ltrim)
{
    php_do_trim(INTERNAL_FUNCTION_PARAM_PASSTHRU, 1);
}
static void php_do_trim(INTERNAL_FUNCTION_PARAMETERS, int mode)
{
    zend_string *str;
    zend_string *what = NULL;

    ZEND_PARSE_PARAMETERS_START(1, 2)
        Z_PARAM_STR(str)
        Z_PARAM_OPTIONAL
        Z_PARAM_STR(what)
    ZEND_PARSE_PARAMETERS_END();

    ZVAL_STR(return_value, php_trim(str, (what ? ZSTR_VAL(what) : NULL), (what ? ZSTR_LEN(what) : 0), mode));
}
PHPAPI zend_string *php_trim(zend_string *str, char *what, size_t what_len, int mode)
{
    const char *c = ZSTR_VAL(str);
    size_t len = ZSTR_LEN(str);
    register size_t i;
    size_t trimmed = 0;
    char mask[256];

    if (what) {
        if (what_len == 1) {
            char p = *what;
            if (mode & 1) {
                for (i = 0; i < len; i++) {
                    if (c[i] == p) {
                        trimmed++;
                    } else {
                        break;
                    }
                }
                len -= trimmed;
                c += trimmed;
            }
            if (mode & 2) {
                if (len > 0) {
                    i = len - 1;
                    do {
                        if (c[i] == p) {
                            len--;
                        } else {
                            break;
                        }
                    } while (i-- != 0);
                }
            }
        } else {
            php_charmask((unsigned char*)what, what_len, mask);

            if (mode & 1) {
                for (i = 0; i < len; i++) {
                    if (mask[(unsigned char)c[i]]) {
                        trimmed++;
                    } else {
                        break;
                    }
                }
                len -= trimmed;
                c += trimmed;
            }
            if (mode & 2) {
                if (len > 0) {
                    i = len - 1;
                    do {
                        if (mask[(unsigned char)c[i]]) {
                            len--;
                        } else {
                            break;
                        }
                    } while (i-- != 0);
                }
            }
        }
    } else {
        if (mode & 1) {
            for (i = 0; i < len; i++) {
                if ((unsigned char)c[i] <= ' ' &&
                    (c[i] == ' ' || c[i] == '\n' || c[i] == '\r' || c[i] == '\t' || c[i] == '\v' || c[i] == '\0')) {
                    trimmed++;
                } else {
                    break;
                }
            }
            len -= trimmed;
            c += trimmed;
        }
        if (mode & 2) {
            if (len > 0) {
                i = len - 1;
                do {
                    if ((unsigned char)c[i] <= ' ' &&
                        (c[i] == ' ' || c[i] == '\n' || c[i] == '\r' || c[i] == '\t' || c[i] == '\v' || c[i] == '\0')) {
                        len--;
                    } else {
                        break;
                    }
                } while (i-- != 0);
            }
        }
    }

    if (ZSTR_LEN(str) == len) {
        return zend_string_copy(str);
    } else {
        return zend_string_init(c, len, 0);
    }
}
/* {{{ php_charmask
 * Fills a 256-byte bytemask with input. You can specify a range like 'a..z',
 * it needs to be incrementing.
 * Returns: FAILURE/SUCCESS whether the input was correct (i.e. no range errors)
 */
static inline int php_charmask(unsigned char *input, size_t len, char *mask)
{
    unsigned char *end;
    unsigned char c;
    int result = SUCCESS;

    memset(mask, 0, 256);
    for (end = input+len; input < end; input++) {
        c=*input;
        if ((input+3 < end) && input[1] == '.' && input[2] == '.'
                && input[3] >= c) {
            memset(mask+c, 1, input[3] - c + 1);
            input+=3;
        } else if ((input+1 < end) && input[0] == '.' && input[1] == '.') {
            /* Error, try to be as helpful as possible:
               (a range ending/starting with '.' won't be captured here) */
            if (end-len >= input) { /* there was no 'left' char */
                php_error_docref(NULL, E_WARNING, "Invalid '..'-range, no character to the left of '..'");
                result = FAILURE;
                continue;
            }
            if (input+2 >= end) { /* there is no 'right' char */
                php_error_docref(NULL, E_WARNING, "Invalid '..'-range, no character to the right of '..'");
                result = FAILURE;
                continue;
            }
            if (input[-1] > input[2]) { /* wrong order */
                php_error_docref(NULL, E_WARNING, "Invalid '..'-range, '..'-range needs to be incrementing");
                result = FAILURE;
                continue;
            }
            /* FIXME: better error (a..b..c is the only left possibility?) */
            php_error_docref(NULL, E_WARNING, "Invalid '..'-range");
            result = FAILURE;
            continue;
        } else {
            mask[c]=1;
        }
    }
    return result;
}
/* }}} */

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
网站安全防护公司对php版本存在泄露源码漏洞分析
经过进一步的安全测试,我们发现最新版本的PHP没有这个漏洞。我们对不同版本的PHP进行了进一步的安全测试,以确定这个漏洞到底是什么时候修复的。最终发现PHP 7.4.22版本存在该漏洞,我们的技术对未修补版本和已修补版本的代码进行了比较,发现了漏洞的修复细节,通过修复的代码,我们构造了漏洞的利用代码。
50 0
秘乐短视频开发源码丨秘乐短视频系统开发详细(PHP开发)丨秘乐短视频系统源码运营版
 短视频系统开发的内容产出的核心就在于视频内容的录制和编辑。录制短视频之前,用户可以提前设定更改短视频的滤镜,视频的清晰度,视频比例,码率等设置,通过不同的设置程度拍摄出别出心裁的短视频。而短视频之所以如此受人关注,主要还是在于视频录制和编辑中的特效内容的加入。在短视频录制时加入美颜等基于AI技术打造的特殊效果,给人以展示不同的自己。
27 0
景蓝交易所源码php区块链交易所源码/币币/法币/合约交易/配资上币/带搭建教程
景蓝交易所源码php区块链交易所源码/币币/法币/合约交易/配资上币/带搭建教程
199 0
新浪短网址接口源码,并使用PHP模拟登陆来自动更新
新浪短网址接口源码,并使用PHP模拟登陆来自动更新
50 0
如何将gitee仓库的php源码快速托管到阿里云函数计算
如何将gitee仓库的php源码快速托管到阿里云函数计算
258 0
PHP直播源码,直播如何入场社交市场
PHP直播源码,直播如何入场社交市场
174 0
PHP直播源码,验证码倒计时
PHP直播源码,验证码倒计时
144 0
PHP直播源码,水平平分两个按钮
PHP直播源码,水平平分两个按钮
208 0
直播后台开发,php直播源码这样选择才不会出错
直播软件根据应用的不同,开发语言也有所不同,安卓系统使用java语言开发;苹果系统使用OC语言;直播管理后台使用的是php语言
351 0
PHP直播源码,实现简单弹幕效果
PHP直播源码,实现简单弹幕效果
644 0
+关注
周梦康
十年前从 LNMP 开始个人站长 mengkang.net 生涯。 分享各种线上故障复盘笔记,关注我,防止采坑。
文章
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
PHP安全开发_从白帽角度做安全
立即下载
PHP在机器学习上的应用及云深度学习平台的架构设计与实现
立即下载
PHP与APM_技术内幕和最佳实践
立即下载