【动态内存管理助力程序优化与性能飞升】(下)

简介: 【动态内存管理助力程序优化与性能飞升】

【动态内存管理助力程序优化与性能飞升】(中):https://developer.aliyun.com/article/1424819


demo4:


#include<stdio.h>
#include<stdlib.h>
#include<string.h>
void Test(void)
{
  char* str = (char*)malloc(100);
  strcpy(str, "hello");
  free(str);
  if (str != NULL)
  {
    strcpy(str, "world");
    printf(str);
  }
}
int main()
{
  Test();
  return 0;
}


问题:


       在这段C代码中,首先使用 malloc 动态地分配了 100 字节的内存来存储字符串 "hello"。然后,立即使用 strcpy 将 "hello" 复制到分配的内存块中。接着,使用 free 释放了分配的内存。

然后,代码尝试检查指针 str 是否为 NULL。然而,这是一个错误的做法。因为在调用 free 之后,指针 str 指向内存地址虽然不会发生改变,但是进行指针进行任何操作都是不安全的,并且会导致未定义的行为。


修改:


#include <stdio.h>
#include <stdlib.h>
#include <string.h>
void Test(void)
{
    char* str = (char*)malloc(100);
    strcpy(str, "hello");
    free(str); // 释放内存后,str 成为了悬挂指针
    str = NULL;
    // 不要在释放内存后使用指针
    // 这里不再使用 str 指针
}
int main()
{
    Test();
    return 0;
}


5. C/C++程序的内存开辟



C/C++程序内存分配的几个区域:


  1. 栈区(stack):在执行函数时,函数内局部变量的存储单元都可以在栈上创建,函数执行结 束时这些存储单元自动被释放。栈内存分配运算内置于处理器的指令集中,效率很高,但是 分配的内存容量有限。 栈区主要存放运行函数而分配的局部变量、函数参数、返回数据、返 回地址等。
  2. 堆区(heap):一般由程序员分配释放, 若程序员不释放,程序结束时可能由OS(操作系统)回收 。分 配方式类似于链表。
  3. 数据段(静态区)(static):存放全局变量、静态数据。程序结束后由系统释放。


代码段:存放函数体(类成员函数和全局函数)的二进制代码。


有了这幅图,我们就可以更好的理解在《C语言初识》中讲的static关键字修饰局部变量的例子了。


       实际上普通的局部变量是在栈区分配空间的,栈区的特点是在上面创建的变量出了作用域就销毁。 但是被static修饰的变量存放在数据段(静态区),数据段的特点是在上面创建的变量,直到程序结束才销毁 所以生命周期变长。


6. 柔性数组


       也许你从来没有听说过柔性数组(flexible array)这个概念,但是它确实是存在的。 C99 中,结构中的最后一个元素允许是未知大小的数组,这就叫做『柔性数组』成员。

typedef struct st_type
{
    int i;
    int a[];//柔性数组成员
    //int a[0];//也可以写成这个
}type_a;


6.1 柔性数组的特点:


  • 结构中的柔性数组成员前面必须至少一个其他成员。
  • sizeof 返回的这种结构大小不包括柔性数组的内存。

  • 包含柔性数组成员的结构用malloc ()函数进行内存的动态分配,并且分配的内存应该大于结构的大小,以适应柔性数组的预期大小。
type_a* ps = (type_a*)malloc(sizeof(type_a) + 40);


6.2 柔性数组的使用


#include<stdio.h>
#include<stdlib.h>
typedef struct st_type
{
  int i;
  int a[0];//柔性数组成员
}type_a;
int main()
{
  type_a* ps = (type_a*)malloc(sizeof(type_a) + 40);
  if (!ps)
  {
    perror("malloc");
    return 1;
  }
  ps->i = 10;
  int i = 0;
  for (i = 0; i < ps->i; i++)
  {
    ps->a[i] = i;
  }
  //空间不够,realloc增容
  /*
    ps 是要调整的内存地址
    size 调整之后新大小
    返回值为调整之后的内存起始位置。
  */
  type_a* p = (type_a*)realloc(ps, sizeof(type_a) + 60);
  if (!p)
  {
    perror("realloc");
    return 1;
  }
  ps = p;
  ps->i = 15;
  for (i = 0; i < ps->i; i++)
  {
    printf("%d ", ps->a[i]);
  }
    free(ps);
  ps = NULL;
  return 0;
}


运行结果:



6.3 柔性数组的优势


上述的 type_a 结构也可以设计为指针类型:


#include<stdio.h>
#include<stdlib.h>
typedef struct st_type
{
  int i;
  int* a;
}type_a;
int main()
{
  type_a* ps = (type_a*)malloc(sizeof(type_a));//与柔性数组保持一致
  if (!ps)
  {
    perror("malloc");
    return 1;
  }
  ps->i = 10;
  ps->a = (int*)malloc(40);
  if (!ps->a)
  {
    perror("malloc");
    return 1;
  }
  int i = 0;
  for (i = 0; i < ps->i; i++)
  {
    ps->a[i] = i;
  }
  //空间不够,realloc增容
  /*
    ps 是要调整的内存地址
    size 调整之后新大小
    返回值为调整之后的内存起始位置。
  */
  int* p = (int*)realloc(ps->a, 60);
  if (!p)
  {
    perror("realloc");
    return 1;
  }
  ps->a = p;
  ps->i = 15;
  for (i = 0; i < ps->i; i++)
  {
    printf("%d ", ps->a[i]);
  }
  free(ps->a);
  ps->a = NULL;
  free(ps);
  ps = NULL;
  return 0;
}


上述 代码1 和 代码2 可以完成同样的功能,但是 方法1 的实现有两个好处:


第一个好处是:方便内存释放

 如果我们的代码是在一个给别人用的函数中,你在里面做了二次内存分配,并把整个结构体返回给用户。用户调用free可以释放结构体,但是用户并不知道这个结构体内的成员也需要free,所以你不能指望用户来发现这个事。所以,如果我们把结构体的内存以及其成员要的内存一次性分配好了,并返回给用户一个结构体指针,用户做一次free就可以把所有的内存也给释放掉。


第二个好处是:这样有利于访问速度.

       连续的内存有益于提高访问速度,也有益于减少内存碎片。(其实,我个人觉得也没多高了,反正你跑不了要用做偏移量的加法来寻址)


扩展阅读:C语言结构体里的成员数组和指针

相关文章
|
2月前
|
机器学习/深度学习 算法 PyTorch
125_训练加速:FlashAttention集成 - 推导注意力优化的独特内存节省
2025年,大型语言模型的训练面临着前所未有的挑战。随着模型参数量和序列长度的不断增加,传统注意力机制的内存瓶颈问题日益突出。FlashAttention作为一种突破性的注意力算法,通过创新的内存访问模式和计算优化,显著提升了训练效率和内存利用。
|
2月前
|
存储 机器学习/深度学习 PyTorch
119_LLM训练的高效内存管理与优化技术:从ZeRO到Flash Attention
大型语言模型(LLM)的训练面临着前所未有的计算和内存挑战。随着模型规模达到数百亿甚至数千亿参数,高效的内存管理成为训练成功的关键因素之一。2025年,LLM训练的内存优化技术已经取得了显著进展,从ZeRO优化器到Flash Attention等创新技术,为训练超大规模模型提供了可能。
|
5月前
|
缓存 固态存储 Windows
如何让内存发挥到最大效能?全面优化指南,提升电脑运行体验
电脑内存使用不合理会导致卡顿,本文教你如何优化内存性能。检查内存容量与主板支持上限,考虑升级或调整配置;关闭后台程序、管理浏览器标签、结束异常进程以释放内存;设置虚拟内存、调整视觉效果、定期重启提升效率;必要时增加内存条、选择高频内存、更换固态硬盘。避免盲目清理内存和依赖大内存忽视其他硬件瓶颈。只需合理设置,无需额外花钱,就能显著提升电脑速度。
|
8月前
|
缓存 并行计算 PyTorch
PyTorch CUDA内存管理优化:深度理解GPU资源分配与缓存机制
本文深入探讨了PyTorch中GPU内存管理的核心机制,特别是CUDA缓存分配器的作用与优化策略。文章分析了常见的“CUDA out of memory”问题及其成因,并通过实际案例(如Llama 1B模型训练)展示了内存分配模式。PyTorch的缓存分配器通过内存池化、延迟释放和碎片化优化等技术,显著提升了内存使用效率,减少了系统调用开销。此外,文章还介绍了高级优化方法,包括混合精度训练、梯度检查点技术及自定义内存分配器配置。这些策略有助于开发者在有限硬件资源下实现更高性能的深度学习模型训练与推理。
1678 0
|
5月前
|
存储 人工智能 自然语言处理
AI代理内存消耗过大?9种优化策略对比分析
在AI代理系统中,多代理协作虽能提升整体准确性,但真正决定性能的关键因素之一是**内存管理**。随着对话深度和长度的增加,内存消耗呈指数级增长,主要源于历史上下文、工具调用记录、数据库查询结果等组件的持续积累。本文深入探讨了从基础到高级的九种内存优化技术,涵盖顺序存储、滑动窗口、摘要型内存、基于检索的系统、内存增强变换器、分层优化、图形化记忆网络、压缩整合策略以及类操作系统内存管理。通过统一框架下的代码实现与性能评估,分析了每种技术的适用场景与局限性,为构建高效、可扩展的AI代理系统提供了系统性的优化路径和技术参考。
321 4
AI代理内存消耗过大?9种优化策略对比分析
|
5月前
|
存储 人工智能 API
AI代理性能提升实战:LangChain+LangGraph内存管理与上下文优化完整指南
在AI代理系统开发中,上下文工程成为提升系统性能的关键技术。本文探讨了从提示工程到上下文工程的转变,强调其通过为AI系统提供背景信息和工具支持,显著提升智能化程度和实用价值。文章系统分析了上下文工程的理论基础、核心策略(如写入、选择、压缩和隔离),并结合LangChain和LangGraph工具,展示了如何实现上下文工程技术以优化AI代理性能。通过Scratchpad机制、内存管理、RAG系统集成、多代理架构及沙盒环境等技术手段,开发者可以更高效地构建高性能、可扩展的AI系统。
658 0
AI代理性能提升实战:LangChain+LangGraph内存管理与上下文优化完整指南
|
6月前
|
缓存 监控 Cloud Native
Java Solon v3.2.0 高并发与低内存实战指南之解决方案优化
本文深入解析了Java Solon v3.2.0框架的实战应用,聚焦高并发与低内存消耗场景。通过响应式编程、云原生支持、内存优化等特性,结合API网关、数据库操作及分布式缓存实例,展示其在秒杀系统中的性能优势。文章还提供了Docker部署、监控方案及实际效果数据,助力开发者构建高效稳定的应用系统。代码示例详尽,适合希望提升系统性能的Java开发者参考。
373 4
Java Solon v3.2.0 高并发与低内存实战指南之解决方案优化
|
4月前
|
边缘计算 算法 Java
Java 绿色计算与性能优化:从内存管理到能耗降低的全方位优化策略与实践技巧
本文探讨了Java绿色计算与性能优化的技术方案和应用实例。文章从JVM调优(包括垃圾回收器选择、内存管理和并发优化)、代码优化(数据结构选择、对象创建和I/O操作优化)等方面提出优化策略,并结合电商平台、社交平台和智能工厂的实际案例,展示了通过Java新特性提升性能、降低能耗的显著效果。最终指出,综合运用这些优化方法不仅能提高系统性能,还能实现绿色计算目标,为企业节省成本并符合环保要求。
195 0
|
6月前
|
存储 自然语言处理 算法
基于内存高效算法的 LLM Token 优化:一个有效降低 API 成本的技术方案
本文探讨了在构建对话系统时如何通过一种内存高效算法降低大语言模型(LLM)的Token消耗和运营成本。传统方法中,随着对话深度增加,Token消耗呈指数级增长,导致成本上升。
566 7
基于内存高效算法的 LLM Token 优化:一个有效降低 API 成本的技术方案
|
7月前
|
缓存 编解码 Android开发
Android内存优化之图片优化
本文主要探讨Android开发中的图片优化问题,包括图片优化的重要性、OOM错误的成因及解决方法、Android支持的图片格式及其特点。同时介绍了图片储存优化的三种方式:尺寸优化、质量压缩和内存重用,并详细讲解了相关的实现方法与属性。此外,还分析了图片加载优化策略,如异步加载、缓存机制、懒加载等,并结合多级缓存流程提升性能。最后对比了几大主流图片加载框架(Universal ImageLoader、Picasso、Glide、Fresco)的特点与适用场景,重点推荐Fresco在处理大图、动图时的优异表现。这些内容为开发者提供了全面的图片优化解决方案。
314 1