1.科学计算的需求
工程仿真(结构力学、流体力学、电磁场)需要解大型偏微分方程组,网格规模可达数千万单元,计算量巨大。这类计算通常在超级计算机或高性能工作站上运行,需要:
极致性能(多核并行、向量化)
内存效率(稀疏矩阵压缩存储)
跨平台(Linux集群是主流)
可扩展性(MPI分布式)
C++结合MPI、OpenMP、CUDA成为科学计算领域的王者。Fortran仍是传统,但新项目越来越多选择C++。
参考:https://www.oqmyh.cn/category/hufu-chengfen.html
2.有限元库:deal.II与libMesh
deal.II:用C++编写的现代有限元库,广泛用于学术和工业。它利用了模板、元编程、C++11/14特性,提供高层次的抽象(三角剖分、有限元空间、雅可比矩阵)。用户编写C++程序调用其类,组装全局刚度矩阵,调用线性求解器(如PETSc、Trilinos)。
libMesh:另一个C++库,强调非结构化网格和自适应网格细化。它封装了MPI通信,支持分布式网格。
这些库内部大量使用std::vector、std::function,但性能关键循环使用原始指针和循环展开。
3.稀疏线性代数库与C++绑定
有限元需要求解稀疏线性系统Ax=b。C++项目通常调用C或Fortran写的高性能求解器:
PETSc:C语言,提供C++包装(PetscObject)。支持多种预处理器(BlockJacobi、多网格)。
Eigen:纯C++模板库,同时支持稠密和稀疏运算,对于中小规模问题很方便。
MKL/cuBLAS:Intel和NVIDIA的数学库,C++可直接调用。
将这些库集成到C++程序中,通过RAII管理指针(使用std::unique_ptr自定义删除器),保证资源安全。
4.并行策略:MPI+OpenMP
科学计算通常在集群上运行,MPI用于节点间通信,OpenMP用于节点内共享内存并行。C++与MPI结合方式:
使用MPI_Init,MPI_Comm_rank。
分布式数据结构(如PETSc的分布式向量)在每个进程只存储局部部分。
通过MPI_Allreduce进行全局归约(如计算残差)。
OpenMP并行化循环组装局部矩阵。
C++的std::atomic和std::mutex在MPI环境仍然可用,但通常避免锁,采用分区并行。
参考:https://www.oqmyh.cn/category/chanpin-pingce.html
5.案例:飞机机翼气动弹性模拟
某航空研究机构使用C++开发的solver模拟机翼在跨音速气流中的颤振。网格2000万单元,每个时间步求解非定常Navier-Stokes方程。技术栈:
网格划分:Pointwise输出CGNS格式,C++读取。
解算器:定制C++类,使用deal.II的有限元离散。
线性求解:PETSc+Hypre(代数多重网格)。通过C++封装,使用RAII管理矩阵上下文。
并行:MPI128进程(每个节点16核),OpenMP每进程2线程。总核心数256。
时间积分:双时间步长(隐式),每次迭代需要求解巨型稀疏系统。
模拟一个工况需要运行72小时,输出升力系数曲线。C++代码执行效率经测试比同等Fortran版本快10%,且更容易维护和扩展。
6.GPU加速(CUDAC++)
对于某些计算(如矩阵乘法、有限元单元运算),GPU能大幅加速。CUDAC++允许编写global核函数,从主机端启动。C++类可以封装设备内存分配和核函数调用,使用cudaMalloc、cudaMemcpy等。现代C++可编写cuda::unique_ptr实现自动内存管理。此外,使用Kokkos或RAJA这类可移植抽象库,一套代码能运行在CPU、GPU、KNL上。
7.总结
C++在科学计算中担负着“压路机”的角色:虽然写起来比Python啰嗦,但执行速度可以快两个数量级。对于需要大规模数值模拟的领域(航空航天、汽车、气象、生物力学),C++是不可或缺的工具。掌握C++科学计算编程,需要数学基础、并行计算知识以及耐心调试的能力,回报是能够解决真实世界最复杂的工程问题。
参考:https://www.oqmyh.cn