PDB文件概说

简介:

文/玄魂

.PDB文件,全称为“程序数据库”文件。我们使用它(更确切的说是看到它被应用)大多数场景是调试应用程序。目前我们对.PDB文件的普遍认知是它存储了被编译文件的调试信息,作为符号文件存在。那么,它具体包含哪些内容呢?在调试过程中是怎样发挥作用的呢?我们有没有办法去操作这个文件呢?

1. PDB文件内容

.PDB文件的内部格式,微软并没有公开,现在仍然是一个秘密,但是它提供了相关的API用于调试器来从中获取信息。

一个非托管C++程序的PDB文件包含如下信息:

  • l Public, private,和static函数地址
  • l 全局变量的名称和地址
  • l 参数和局部变量的名称及它们在栈中的偏移量
  • l 类型定义,包括class, structure,和 data definitions
  • l FPO(Frame Pointer Omission,帧指针省略)数据
  • l 源文件名称和行号

说明:

从XP SP2起就不再启用FPO。

对于.NET PDB文件,只包含上面说到的两种信息:

  • l 源文件名称和行号
  • l 局部变量名称

.NET PDB文件包含如此少的信息,原因在于其他信息我们可以从元数据中获取,所以也就没有必要重复存储了。

2. PDB文件匹配

当你讲一个模块加载到当前进程的地址空间中,调试器根据两个信息去寻找找匹配的PDB文件。第一个信息很明了,根据模块的名称。比如你加载的模块为“Test.DLL”,那么调试器将会寻找Test.PDB文件。但是但是通过名称,是无法判断模块和PDB文件是否是完整匹配的,调试器通过第二个信息来判断——一个GUID值。这个GUID值同时存在于模块文件和PDB文件中,如果GUID值不匹配,那么我们是无法在源代码级别来调试程序的。

这个GUID值是编译器和链接器放到文件中的。目前我们没有办法来改变这个值,但是我们查看在编译生成的文件中的GUID值。这里我们使用的工具是DUMPBIN,使用它我们可以列举所有PE文件的信息。如果您安装了VS2008或者VS2010的话,可以直接从VS命令行启动该工具,如图1所示。

clip_image002

图1 启动DUMPBIN

DUMPBIN工具的命令行选项,您可以参阅相关的文档,这里我们使用它的/headers选项,看看会输出什么样的结果。

在使用dumpbin之前,我们首先创建一个控制台程序,内容如代码清单1所示。

代码清单1 示例程序

using System;

using System.Collections.Generic;

using System.Linq;

using System.Text;

namespace dumptest

{

class Program

    {

static void Main(string[] args)

        {

        }

    }

}

编译清单1的代码,obj目录中的文件如图2所示。

clip_image004

图2 obj目录中的文件

Bin目录下的文件内容如图3所示。

clip_image006

图3 Bin目录下的文件

准备工作做完之后,我们现在从命令行切换到bin目录下,执行“dumpbin /headers dumptest.exe”命令,结果如代码清单2所示。

代码清单2 dump查看headers结果

E:\test\c#\dumptest\dumptest\obj\x86\Debug>dumpbin /headers dumptest.exe

Microsoft (R) COFF/PE Dumper Version 10.00.30319.01

Copyright (C) Microsoft Corporation. All rights reserved.

Dump of file dumptest.exe

PE signature found

File Type: EXECUTABLE IMAGE

FILE HEADER VALUES

14C machine (x86)

3 number of sections

4E92A178 time date stamp Mon Oct 10 15:40:40 2011

0 file pointer to symbol table

0 number of symbols

E0 size of optional header

102 characteristics

Executable

32 bit word machine

OPTIONAL HEADER VALUES

10B magic # (PE32)

8.00 linker version

800 size of code

800 size of initialized data

0 size of uninitialized data

272E entry point (0040272E)

2000 base of code

4000 base of data

400000 image base (00400000 to 00407FFF)

2000 section alignment

200 file alignment

4.00 operating system version

0.00 image version

4.00 subsystem version

0 Win32 version

8000 size of image

200 size of headers

0 checksum

3 subsystem (Windows CUI)

8540 DLL characteristics

Dynamic base

NX compatible

No structured exception handler

Terminal Server Aware

100000 size of stack reserve

1000 size of stack commit

100000 size of heap reserve

1000 size of heap commit

0 loader flags

10 number of directories

0 [0] RVA [size] of Export Directory

26D4 [57] RVA [size] of Import Directory

4000 [588] RVA [size] of Resource Directory

0 [0] RVA [size] of Exception Directory

0 [0] RVA [size] of Certificates Directory

6000 [C] RVA [size] of Base Relocation Directory

2668 [1C] RVA [size] of Debug Directory

0 [0] RVA [size] of Architecture Directory

0 [0] RVA [size] of Global Pointer Directory

0 [0] RVA [size] of Thread Storage Directory

0 [0] RVA [size] of Load Configuration Directory

0 [0] RVA [size] of Bound Import Directory

2000 [8] RVA [size] of Import Address Table Directory

0 [0] RVA [size] of Delay Import Directory

2008 [48] RVA [size] of COM Descriptor Directory

0 [0] RVA [size] of Reserved Directory

SECTION HEADER #1

.text name

734 virtual size

2000 virtual address (00402000 to 00402733)

800 size of raw data

200 file pointer to raw data (00000200 to 000009FF)

0 file pointer to relocation table

0 file pointer to line numbers

0 number of relocations

0 number of line numbers

60000020 flags

Code

Execute Read

Debug Directories

Time Type Size RVA Pointer

-------- ------ -------- -------- --------

4E92A178 cv 50 00002684 884 Format: RSDS, {99F34C5E-5BC3-4043-AE11-D85F7990AF00}, 1, E:\test\c#\dumptest\dumptest\obj\x86\Debug\dumptest.pdb

SECTION HEADER #2

.rsrc name

588 virtual size

4000 virtual address (00404000 to 00404587)

600 size of raw data

A00 file pointer to raw data (00000A00 to 00000FFF)

0 file pointer to relocation table

0 file pointer to line numbers

0 number of relocations

0 number of line numbers

40000040 flags

Initialized Data

Read Only

SECTION HEADER #3

.reloc name

C virtual size

6000 virtual address (00406000 to 0040600B)

200 size of raw data

1000 file pointer to raw data (00001000 to 000011FF)

0 file pointer to relocation table

0 file pointer to line numbers

0 number of relocations

0 number of line numbers

42000040 flags

Initialized Data

Discardable

Read Only

Summary

2000 .reloc

2000 .rsrc

2000 .text

现在我们将目光集中在代码清单2中斜体加粗的部分,这里我们可以找到调试路径的信息,一个GUID值(99F34C5E-5BC3-4043-AE11-D85F7990AF00)和一个路径(E:\test\c#\dumptest\dumptest\obj\x86\Debug\dumptest.pdb)。现在我们已经清楚了调试器如何判断PDB文件是否匹配,下面我们再来看调试器是如何寻找PDB文件的。

3. PDB文件寻路

如果我们观察VS启动调试加载模块和符号文件的过程,会发现它通常会从可执行文件或者DLL文件的相同目录中加载符号文件。这正是调试器寻找PDB文件的第一选择。

如果在模块文件的相同目录下找不到匹配的PDB文件,会发生什么呢?我们在前文知道编译器在PE文件中硬编码了一个路径(比如:E:\test\c#\dumptest\dumptest\obj\x86\Debug\dumptest.pdb),这个路径就是调试器的第二个选择。对于对外发布的应用,很可能这两个路径下都找不到PDB文件。此时调试器会在本地的符号服务器缓存路径下寻找PDB文件。如果本地的符号服务器缓存路径下仍然找不到,它会调试器本身配置的符号服务器中寻找符号文件。图4是VS2010配置符号服务器和本地符号缓存路径的界面。

clip_image008

图4 VS2010配置符号存储

4. PDB与GAC

上面讲到的调试器寻找PDB文件的方式在大多数情况下都工作的很好,当我们遇到必须要讲编制之后的文件安装的GAC中的时候,情况开始变得有意思起来。当我们在本地编译并调试程序集的时候,即使程序集被安装到GAC中,调试器仍然能在编译目录下找到PDB文件,但是如果我们已经将Private Build的应用部署到其他机器上的时候,此时还想在被部署的机器上调试安装到GAC上的程序集,将会是一件很麻烦的事情。我们有两种方案来解决这个问题。

Private Build与Public Build的区别

private build, 用来表示在开发人员自己机器上生成的build;public build,表示在公用的build机器上生成的build。对于public build,需要symbol server存储所有的PDB,然后当用户报告错误的时候,debugger才可以自动地找到binay相应的PDB文件, visual studio 和 windbg都知道如何访问symbol server。在将PDB和binay存储到symbol server前,还需要对PDB运行进行source indexing, source indexing的作用是将PDB和source关联起来。

第一种方案是我们在GAC的目录中找到被安装的程序集,然后将PDB文件拷贝到该目录下。通常我们安装到GAC中的程序集会存在于类似这样的路径中:C:Windows\assembly\GAC_MSIL\Example\1.0.0.0__682bc775ff82796a,该示例目录中“Example”代表程序集的名称,“1.0.0.0”代表版本号,“682bc775ff82796a”代表程序集的Public Token。当你找到确切的目录,将PDB文件放到该目录下,调试器就可以加载符号文件了。

这里还有一种更好的方案,就是设置一个名为“DEVPATH”的系统环境变量。该环境变量设定一个磁盘目录作为其值,该目录将作为GAC的辅助目录存在,在GAC中查找程序集同样会搜索该目录。但是在这样的目录中程序集并不会执行版本检查,这是需要我们注意的地方。

使用DEVPATH,我们首先要选定一个目录,然后确保应用程序对它持有读、写权限。然后创建DEVPATH系统环境变量。当然这只是准备工作,我们还要告知.NET运行时,应用程序启用DEVPATH作为GAC的扩展目录。所以接下来我们在配置文件(APP.CONFIG,WEB.CONFIG,MACHINE.CONFIG)中添加如下配置:

<configuration> 
<runtime> 
<developmentMode developerInstallation="true"/> 
</runtime> 
</configuration>

在你打开了development模式后,如果DEVPATH没有定义或路径不存在的话会导致程序启动时异常"Invalid value for registry"。而且如果在machine.config中开启DEVPATH的使用会影响其他的所有的程序,所以要慎重使用machine.config。

5. PDB与源文件

现在我们再来讨论一个开发人员经常问到的问题:源文件的信息是如何在PDB文件中存储的?对于Public Build,PDB文件存储的是如何利用版本控制工具从代码缓存获取源码代码的命令。对于Private Build,很显然,符号文件存储的是源代码的完整路径。

理想状态下,对于Public Build而言源代码索引和符号被缓存到符号服务器的操作都会自动执行,我们无需考虑源代码和符号文件在哪存储的问题。事实上,很多开发团队并没有公用的符号服务器或者源代码索引服务。对于一个小型项目而言,每个开发人员都有足够的磁盘空间来存储源代码和符号文件,也许不会过多的考虑这个问题。但是也许会有这样的场景:将一个Private Build项目转移到另一台机器上有30M的源码需要放到C盘,但是此时C盘只有20M的剩余空间该怎么办?我们能修改PDB文件中源码的路径吗?

我们前面提到没有办法修改PDB文件,但是这里有一个取巧的方法可以尝试,所谓山不向我走来,我向山走去。这里有一个工具恰好可以派上用场,它就是subst.exe,它是Windows自带的命令行工具,可以从cmd窗口启动。

说明:

subst用于路径替换 ,将路径与驱动器号关联,就是把一个目录当作一个磁盘驱动器来看,不过不能格式化。运用一定技巧,subst命令还可以实现隐藏驱动器、特殊软件的安装、模拟光盘自动运行等功能。

用法格式

一、subst [盘符] [路径] 将指定的路径替代盘符,该路径将作为驱动器使用

二、subst /d 解除替代

三、不加任何参数键入 SUBST,可以显示当前虚拟驱动器的清单。

[例子]

C:\DOS>subst a: c:\temp 将c:\temp虚拟化成a盘

C:\>subst a: /d? 解除替代

 

想到解决上面问题的方法了吗?我们只需将本机源码的路径虚拟化成一个磁盘,例如M,之后无论你将代码部署到任何机器上,只需将被部署的路径虚拟成M就可以了,就不会出现符号文件和目标代码不匹配的情况了。

关于PDB文件的资料,目前在互联网上还是凤毛麟角,我这里只是抛砖引玉,欢迎大家共同交流。


本文转自悬魂博客园博客,原文链接:http://www.cnblogs.com/xuanhun/archive/2011/10/11/2207398.html,如需转载请自行联系原作者

相关文章
|
1月前
|
数据可视化 Linux iOS开发
Python脚本转EXE文件实战指南:从原理到操作全解析
本教程详解如何将Python脚本打包为EXE文件,涵盖PyInstaller、auto-py-to-exe和cx_Freeze三种工具,包含实战案例与常见问题解决方案,助你轻松发布独立运行的Python程序。
591 2
|
23天前
|
监控 机器人 编译器
如何将python代码打包成exe文件---PyInstaller打包之神
PyInstaller可将Python程序打包为独立可执行文件,无需用户安装Python环境。它自动分析代码依赖,整合解释器、库及资源,支持一键生成exe,方便分发。使用pip安装后,通过简单命令即可完成打包,适合各类项目部署。
|
8月前
|
机器学习/深度学习 存储 算法
解锁文件共享软件背后基于 Python 的二叉搜索树算法密码
文件共享软件在数字化时代扮演着连接全球用户、促进知识与数据交流的重要角色。二叉搜索树作为一种高效的数据结构,通过有序存储和快速检索文件,极大提升了文件共享平台的性能。它依据文件名或时间戳等关键属性排序,支持高效插入、删除和查找操作,显著优化用户体验。本文还展示了用Python实现的简单二叉搜索树代码,帮助理解其工作原理,并展望了该算法在分布式计算和机器学习领域的未来应用前景。
|
2月前
|
缓存 数据可视化 Linux
Python文件/目录比较实战:排除特定类型的实用技巧
本文通过四个实战案例,详解如何使用Python比较目录差异并灵活排除特定文件,涵盖基础比较、大文件处理、跨平台适配与可视化报告生成,助力开发者高效完成目录同步与数据校验任务。
113 0
|
3月前
|
编译器 Python
如何利用Python批量重命名PDF文件
本文介绍了如何使用Python提取PDF内容并用于文件重命名。通过安装Python环境、PyCharm编译器及Jupyter Notebook,结合tabula库实现PDF数据读取与处理,并提供代码示例与参考文献。
|
3月前
|
编译器 Python
如何利用Python批量重命名文件
本文介绍了如何使用Python和PyCharm对文件进行批量重命名,包括文件名前后互换、按特定字符调整顺序等实用技巧,并提供了完整代码示例。同时推荐了第三方工具Bulk Rename Utility,便于无需编程实现高效重命名。适用于需要处理大量文件命名的场景,提升工作效率。
|
3月前
|
安全 Linux 网络安全
Python极速搭建局域网文件共享服务器:一行命令实现HTTPS安全传输
本文介绍如何利用Python的http.server模块,通过一行命令快速搭建支持HTTPS的安全文件下载服务器,无需第三方工具,3分钟部署,保障局域网文件共享的隐私与安全。
718 0
|
3月前
|
数据管理 开发工具 索引
在Python中借助Everything工具实现高效文件搜索的方法
使用上述方法,你就能在Python中利用Everything的强大搜索能力实现快速的文件搜索,这对于需要在大量文件中进行快速查找的场景尤其有用。此外,利用Python脚本可以灵活地将这一功能集成到更复杂的应用程序中,增强了自动化处理和数据管理的能力。
252 0
|
4月前
|
编解码 Prometheus Java
当Python同时操作1000个文件时,为什么你的CPU只用了10%?
本文介绍如何构建一个高效的文件处理系统,解决单线程效率低、多线程易崩溃的矛盾。通过异步队列与多线程池结合,实现任务调度优化,提升I/O密集型操作的性能。
84 4
|
4月前
|
人工智能 索引 Python
[oeasy]python094_使用python控制音符列表_midi_文件制作
本文介绍了如何使用Python控制音符列表制作MIDI文件。首先回顾了列表下标索引(正数和负数)的用法,接着通过`mido`库实现MIDI文件生成。以《两只老虎》为例,详细解析了代码逻辑:定义音高映射、构建旋律列表、创建MIDI文件框架,并将音符插入音轨。还探讨了音符时值与八度扩展的实现方法。最终生成的MIDI文件可通过不同平台播放或编辑。总结中提到,此技术可用于随机生成符合调性的旋律,同时引发对列表其他实际应用的思考。
130 5

推荐镜像

更多