[Eigen中文文档] 在 BLAS/LAPACK 、英特尔® MKL 和 CUDA 中使用 Eigen-阿里云开发者社区

[Eigen中文文档] 在 BLAS/LAPACK 、英特尔® MKL 和 CUDA 中使用 Eigen

2023-09-02 176

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 自Eigen 3.3版本以及以后，任何F77兼容的BLAS或LAPACK库都可以用作稠密矩阵乘积和稠密矩阵分解的后端。例如，可以在OSX上使用Intel® MKL，Apple的Accelerate框架，OpenBLAS，Netlib LAPACK等。请务必查看此页面以进一步讨论关于使用Intel® MKL（也包括VML，PARDISO等）的具体用法。

文档总目录

在BLAS/LAPACK使用 Eigen

英文原文(Using BLAS/LAPACK from Eigen)

自Eigen 3.3版本以及以后，任何F77兼容的BLAS或LAPACK库都可以用作稠密矩阵乘积和稠密矩阵分解的后端。例如，可以在OSX上使用Intel® MKL，Apple的Accelerate框架，OpenBLAS，Netlib LAPACK等。

请务必查看此页面以进一步讨论关于使用Intel® MKL（也包括VML，PARDISO等）的具体用法。

为了使用外部BLAS和LAPACK库，您必须将自己的应用程序链接到相应的库及其依赖项。对于LAPACK，还必须链接到标准的Lapacke库，它用作Eigen的C++代码和LAPACK F77接口之间方便的中间层。然后，必须通过定义以下一个或多个宏（在包含任何Eigen头文件之前）来激活它们的使用：

注意：

对于Mac用户，为了使用与Accelerate框架一起提供的lapack版本，您还需要lapacke库。使用MacPorts很容易实现：
sudo port install lapack
然后使用以下链接标志：-framework Accelerate /opt/local/lib/lapack/liblapacke.dylib

宏	描述
EIGEN_USE_BLAS	启用外部BLAS级别2和3例程的使用（与任何F77 BLAS接口兼容）。
EIGEN_USE_LAPACKE	启用通过`Lapacke` C接口到`Lapack`的外部`Lapack`例程的使用（与任何F77 LAPACK接口兼容）。
EIGEN_USE_LAPACKE_STRICT	与`EIGEN_USE_LAPACKE`相同，但数字鲁棒性较低的算法被禁用。这目前仅涉及`JacobiSVD`，否则会被`gesvd`替换，后者比`Jacobi`旋转不太稳健。

在这种情况下，Eigen的一些算法会被隐式地替换为对BLAS或LAPACK例程的调用。这些替换仅适用于使用以下四种标准标量类型之一的动态或足够大的对象：float、double、complex<float>和complex<double>。对其他标量类型的操作或混合实数和复数的操作将继续使用内置的算法。

可以被替换的Eigen功能的广度如下表所示：

在这里插入图片描述

在这些例子中，m1和m2是密集矩阵，v1和v2是密集向量。

在英特尔® MKL使用 Eigen

英文原文(Using Intel® MKL from Eigen)

自Eigen 3.1版本及以后，用户可以使用Intel®Math Kernel Library（MKL）如果安装了Intel MKL 10.3（或更高版本）。

Intel MKL 提供了针对x86兼容架构高度优化的多线程数学例程。Intel MKL可在Linux、Mac和Windows上使用，适用于Intel64和IA32架构。

注意：

Intel® MKL是专有软件，用户需要购买或注册社区（免费）Intel MKL许可证来使用它。此外，用户产品的许可证必须允许链接到专有软件，但不包括任何未经修改的GPL版本。

通过Eigen使用Intel MKL很容易：

在包含任何Eigen的头文件之前定义EIGEN_USE_MKL_ALL宏。
将你的程序链接到MKL库（请参阅MKL链接指南）。
在64位系统上，你必须使用LP64接口（而不是ILP64接口）。

在这样做时，一些Eigen的算法会被替换为调用Intel MKL例程，而这种替换仅适用于具有以下四种标准标量类型之一的动态或足够大的对象：float，double，complex<float>和complex<double>。使用其他标量类型或混合实数和复数的操作仍将使用内置的算法。

此外，您可以选择定义以下一个或多个宏来决定哪些部分将被替换：

宏	描述
EIGEN_USE_BLAS	启用使用外部BLAS `Level 2`和`Level 3`例程。
EIGEN_USE_LAPACKE	启用使用Lapacke C接口到Lapack的外部Lapack例程。
EIGEN_USE_LAPACKE_STRICT	与`EIGEN_USE_LAPACKE`相同，但将禁用鲁棒性较低的算法。这仅涉及到`JacobiSVD`，否则将被`gesvd`替换，后者比`Jacobi`旋转算法鲁棒性更低。
EIGEN_USE_MKL_VML	启用Intel VML（向量操作）的使用。
EIGEN_USE_MKL_ALL	定义了`EIGEN_USE_BLAS`、`EIGEN_USE_LAPACKE`和`EIGEN_USE_MKL_VML`。

EIGEN_USE_BLAS和EIGEN_USE_LAPACKE*宏可以与EIGEN_USE_MKL结合使用，以显式告诉Eigen底层的BLAS/Lapack实现是Intel MKL。主要效果是启用MKL直接调用功能（MKL_DIRECT_CALL）。这可能有助于提高某些MKL BLAS（?GEMM、?GEMV、?TRSM、?AXPY和?DOT）和LAPACK（LU、Cholesky和QR）例程对非常小的矩阵的性能。可以通过定义EIGEN_MKL_NO_DIRECT_CALL来禁用MKL直接调用。

请注意，BLAS和LAPACKE后端可用于任何F77兼容的BLAS和LAPACK库。有关详细信息，请参见此页面。

最后，Intel MKL附带的PARDISO稀疏求解器可以通过PardisoSupport模块的PardisoLU、PardisoLLT和PardisoLDLT类来使用。

下表总结了EIGEN_USE_MKL_VML覆盖的函数列表：

在这里插入图片描述

在这些例子中，v1和v2是密集的向量。

链接

Intel MKL可以在这里购买和下载。
Intel MKL还捆绑在Intel Composer XE中。

在 CUDA 内核中使用 Eigen

英文原文(Using Eigen in CUDA kernels)

从CUDA 5.5和Eigen 3.3开始，可以在CUDA核函数内使用Eigen的矩阵、向量和数组（fixed size）。这在处理众多但小型问题时特别有用。默认情况下，当在由nvcc编译的.cu文件中包含Eigen头文件时，大多数Eigen的函数和方法都会被设备主机关键字前缀，使它们可从主机和设备代码中调用。这种支持可以通过在包含任何Eigen头文件之前定义EIGEN_NO_CUDA来禁用。这在仅在主机端使用Eigen的.cu文件使用时可能有用。但是，在两种情况下，主机的SIMD矢量化必须在.cu文件中禁用。因此，强烈建议将所有昂贵的主机计算从.cu文件恰当地移动到常规的.cpp文件中。

已知问题：

nvcc和MS Visual Studio不兼容（欢迎提交补丁）。
nvcc 5.5与gcc-4.7（或更高版本）使用标准库<limits>头文件有问题。为了解决这个问题，您可以在包含任何其他文件之前添加以下内容：

// workaround issue between gcc >= 4.7 and cuda 5.5
#if (defined __GNUC__) && (__GNUC__>4 || __GNUC_MINOR__>=7)
  #undef _GLIBCXX_ATOMIC_BUILTINS
  #undef _GLIBCXX_USE_INT128
#endif

在64位系统上，Eigen默认使用长整型作为索引和大小的类型。在CUDA设备上，默认使用32位整型是有意义的。但是，为了使主机和CUDA代码兼容，Eigen不能自动完成此操作。因此，用户需要在整个代码中（如果没有通过Eigen对象在主机和CUDA代码之间进行交互，则仅在CUDA代码中）定义EIGEN_DEFAULT_DENSE_INDEX_TYPE为int。

[Eigen中文文档] 在 BLAS/LAPACK 、英特尔® MKL 和 CUDA 中使用 Eigen

在BLAS/LAPACK使用 Eigen

在英特尔® MKL使用 Eigen

链接

在 CUDA 内核中使用 Eigen

热门文章

最新文章

相关电子书