开发者社区> 周梦康> 正文

彻底弄懂为什么不能把栈上分配的数组(字符串)作为返回值

简介: 彻底弄懂为什么不能把栈上分配的数组(字符串)作为返回值
+关注继续查看

背景

最近准备一个教程,案例的过程中准备了如下代码碎片,演示解析http scheme

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

char *parse_scheme(const char *url)
{
    char *p = strstr(url,"://");
    return strndup(url,p-url);
}

int main()
{
    const char *url = "http://static.mengkang.net/upload/image/2019/0907/1567834464450406.png";
    char *scheme = parse_scheme(url);
    printf("%s\n",scheme);
    free(scheme);
    return 0;
}

上面是通过strndup的方式,背后也依托了malloc,所以最后也需要free
有人在微信群私信parse_scheme能用char []来做返回值吗?我们知道栈上的数组也能用来存储字符串,那我们可以改写成下面这样吗?

char *parse_scheme(const char *url)
{
    char *p = strstr(url,"://");
    long l = p - url + 1;
    char scheme[l];
    strncpy(scheme, url, l-1);
    return scheme;
}

大多数人都知道不能这样写,因为返回的是栈上的地址,当从该函数返回之后,那段栈空间的操作权也释放了,当再次使用该地址的时候,值就是不确定的了。

那我们今天就一起探讨下出现这样情况的背后的真正原理。

基础预备

每个函数运行的时候因为需要内存来存放函数参数以及局部变量等,需要给每个函数分配一段连续的内存,这段内存就叫做函数的栈帧(Stack Frame)。
因为是一块连续的内存地址,所以叫帧;为什么叫要加一个呢?
想必大家都熟悉了函数调用栈,为什么叫函数调用栈呢?比如下面的表达式

array_values(explode(",",file_get_contents(...)));

函数的执行顺序是最内层的函数最先执行,然后依次返回执行外层的函数。所以函数的执行就是利用了栈的数据结构,所以就叫栈帧。

x86_64 cpu上的 rbp 寄存器存函数栈底地址,rsp 寄存器存函数栈顶地址。

实验

#include <stdio.h>

void foo(void)
{
    int i;
    printf("%d\n", i);
    i = 666;
}

int main(void)
{
    foo();
    foo();
    return 0;
}
$gcc -g 2.c

$./a.out
0
666

为什么第二次调用foo函数输出的结果都是上次函数调用的赋值呢?先看下反汇编之后的代码

000000000040052d <foo>:
#include <stdio.h>

void foo(void)
{
  40052d:    55                       push   %rbp
  40052e:    48 89 e5                 mov    %rsp,%rbp
  400531:    48 83 ec 10              sub    $0x10,%rsp
    int i;
    printf("%d\n", i);
  400535:    8b 45 fc                 mov    -0x4(%rbp),%eax
  400538:    89 c6                    mov    %eax,%esi
  40053a:    bf 00 06 40 00           mov    $0x400600,%edi
  40053f:    b8 00 00 00 00           mov    $0x0,%eax
  400544:    e8 c7 fe ff ff           callq  400410 <printf@plt>
    i = 666;
  400549:    c7 45 fc 9a 02 00 00     movl   $0x29a,-0x4(%rbp)
}
  400550:    c9                       leaveq
  400551:    c3                       retq

0000000000400552 <main>:

int main(void)
{
  400552:    55                       push   %rbp
  400553:    48 89 e5                 mov    %rsp,%rbp
    foo();
  400556:    e8 d2 ff ff ff           callq  40052d <foo>
    foo();
  40055b:    e8 cd ff ff ff           callq  40052d <foo>
    return 0;
  400560:    b8 00 00 00 00           mov    $0x0,%eax
}
  400565:    5d                       pop    %rbp
  400566:    c3                       retq
  400567:    66 0f 1f 84 00 00 00     nopw   0x0(%rax,%rax,1)
  40056e:    00 00

理论分析

第一次进入 foo函数前后
image.png

在进入foo函数之前,因为main里没有参数也没有局部变量,所以,main 的栈帧的长度就是0,rbprsp相等(0x7fffffffe2c0)。当执行

callq  40052d <foo>

会把main函数的在调用foo之后需要返回执行的下一行代码的地址压栈,因为是64位机器,地址8字节。
进入foo之后

push   %rbp

rbp的值压栈,因为也是存的地址,所以又占了8字节,所以当初始化foo函数的rbp的时候

mov    %rsp,%rbp

rsp已经在原来的基础上加了16字节,所以从0x7fffffffe2c0变成了0x7fffffffe2b0

sub    $0x10,%rsp

因为foo函数里面局部变量,编译的时候就预留了16字节,所以rsp变为了0x7fffffffe2a0
最后执行了

movl   $0x29a,-0x4(%rbp)

666放在了0x7fffffffe2ac,当第二次调用的时候,打印i的汇编代码如下

    printf("%d\n", i);
  400535:    8b 45 fc                 mov    -0x4(%rbp),%eax
  400538:    89 c6                    mov    %eax,%esi
  40053a:    bf 00 06 40 00           mov    $0x400600,%edi
  40053f:    b8 00 00 00 00           mov    $0x0,%eax
  400544:    e8 c7 fe ff ff           callq  400410 <printf@plt>

第二次进入 foo函数前后
image.png

因为上次-0x4(%rbp)存了666,而第二次调用foorbp的值又和第一次一样,所以是一个地址。所以666就被打印出来了。

回到主题

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

char *parse_scheme(const char *url)
{
    char *p = strstr(url,"://");
    long l = p - url + 1;
    char scheme[l];
    strncpy(scheme, url, l-1);
    printf("%s\n",scheme);
    return scheme;
}

int main()
{
    const char *url = "http://static.mengkang.net/upload/image/2019/0907/1567834464450406.png";
    char *scheme = parse_scheme(url);
    printf("%s\n",scheme);

    return 0;
}

image.png
调试信息如下,当从parse_scheme返回时,打印scheme的结果还是http,但是当我们调用printf之后,和上面样例中一样,parse_scheme出栈,printf入栈,则栈上内存就又替换了,所以打印出来的结果则不一定是http了。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
C#<数据结构>栈的应用——括号分配问题
C#<数据结构>栈的应用——括号分配问题
9 0
[c语言] 返回栈空间地址 问题
1.定义头文件加结构体变量 2.创建一棵树 3.初始化栈 4.头插法入栈 5.判断栈是否为空 6.出栈操作 7.先序遍历 8.中序遍历 9.后序遍历 10.主函数调用 11.运行结果:
27 0
C++ 数组 指针 引用类型的解释及使用
C++ 数组 指针 引用类型的解释及使用
58 0
C++ 指针详讲、指针与数组联系与区别
介绍指针概念之前,需要了解在计算机程序存储数据时必须跟踪的三基本属性:
61 0
数据结构(C++版)——栈的应用,利用栈的先进后出判断一个包含“(“和“)“ “[“和“]“ “<“和“>“ “{“和“}“的括号序列是否匹配
数据结构(C++版)——栈的应用,利用栈的先进后出判断一个包含“(“和“)“ “[“和“]“ “<“和“>“ “{“和“}“的括号序列是否匹配
87 0
数据结构(C语言版)实现链栈的创建,赋值随机数,进栈,出栈,取栈顶元素,输出
数据结构(C语言版)实现链栈的创建,赋值随机数,进栈,出栈,取栈顶元素,输出
153 0
数据结构(C++语言版)实现顺序栈的创建,初始化,赋值随机数,入栈,出栈,获取栈顶元素,输出
数据结构(C++语言版)实现顺序栈的创建,初始化,赋值随机数,入栈,出栈,获取栈顶元素,输出
168 0
c++实验2(1.重载的函数 2.const关键字 3.动态内存分配利用new运算分配内存空间,利用delete运算或程序运行结束释放内存。)
编写程序,定义2个重载函数add并在main函数中应用,功能。编写重载函数并验证,函数功能:对数组赋值。.编写程序,利用动态内存进行数据存储,实现功能:输入2个数据分别表示矩形的长和高,输出矩形的周长和面积。
68 0
[C语言] 初始函数 & 数组
(比如 ARM 指令 B、BL、BX、BLX 之类)然后才 跳转到目的指令处执行。这个时候所有的代码仅仅是按其将要执行的顺序排列而已。后来人 们发现这样写代码非常费劲,容易出错,也不方便。于是想出一个办法,把一些功能相对来 说能成为一个整体的代码放到一起打包,通过一些数据接口和外界通信。这就是函数的由来。 那函数能给我们带来什么好处呢?简单来说可以概括成以下几点:
101 0
+关注
周梦康
十年前从 LNMP 开始个人站长 mengkang.net 生涯。 分享各种线上故障复盘笔记,关注我,防止采坑。
文章
问答
视频
来源圈子
更多
PHP学习资料大全
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载