PDB文件概说

简介:

文/玄魂

.PDB文件,全称为“程序数据库”文件。我们使用它(更确切的说是看到它被应用)大多数场景是调试应用程序。目前我们对.PDB文件的普遍认知是它存储了被编译文件的调试信息,作为符号文件存在。那么,它具体包含哪些内容呢?在调试过程中是怎样发挥作用的呢?我们有没有办法去操作这个文件呢?

1. PDB文件内容

.PDB文件的内部格式,微软并没有公开,现在仍然是一个秘密,但是它提供了相关的API用于调试器来从中获取信息。

一个非托管C++程序的PDB文件包含如下信息:

  • l Public, private,和static函数地址
  • l 全局变量的名称和地址
  • l 参数和局部变量的名称及它们在栈中的偏移量
  • l 类型定义,包括class, structure,和 data definitions
  • l FPO(Frame Pointer Omission,帧指针省略)数据
  • l 源文件名称和行号

说明:

从XP SP2起就不再启用FPO。

对于.NET PDB文件,只包含上面说到的两种信息:

  • l 源文件名称和行号
  • l 局部变量名称

.NET PDB文件包含如此少的信息,原因在于其他信息我们可以从元数据中获取,所以也就没有必要重复存储了。

2. PDB文件匹配

当你讲一个模块加载到当前进程的地址空间中,调试器根据两个信息去寻找找匹配的PDB文件。第一个信息很明了,根据模块的名称。比如你加载的模块为“Test.DLL”,那么调试器将会寻找Test.PDB文件。但是但是通过名称,是无法判断模块和PDB文件是否是完整匹配的,调试器通过第二个信息来判断——一个GUID值。这个GUID值同时存在于模块文件和PDB文件中,如果GUID值不匹配,那么我们是无法在源代码级别来调试程序的。

这个GUID值是编译器和链接器放到文件中的。目前我们没有办法来改变这个值,但是我们查看在编译生成的文件中的GUID值。这里我们使用的工具是DUMPBIN,使用它我们可以列举所有PE文件的信息。如果您安装了VS2008或者VS2010的话,可以直接从VS命令行启动该工具,如图1所示。

clip_image002

图1 启动DUMPBIN

DUMPBIN工具的命令行选项,您可以参阅相关的文档,这里我们使用它的/headers选项,看看会输出什么样的结果。

在使用dumpbin之前,我们首先创建一个控制台程序,内容如代码清单1所示。

代码清单1 示例程序

using System;

using System.Collections.Generic;

using System.Linq;

using System.Text;

namespace dumptest

{

class Program

    {

static void Main(string[] args)

        {

        }

    }

}

编译清单1的代码,obj目录中的文件如图2所示。

clip_image004

图2 obj目录中的文件

Bin目录下的文件内容如图3所示。

clip_image006

图3 Bin目录下的文件

准备工作做完之后,我们现在从命令行切换到bin目录下,执行“dumpbin /headers dumptest.exe”命令,结果如代码清单2所示。

代码清单2 dump查看headers结果

E:\test\c#\dumptest\dumptest\obj\x86\Debug>dumpbin /headers dumptest.exe

Microsoft (R) COFF/PE Dumper Version 10.00.30319.01

Copyright (C) Microsoft Corporation. All rights reserved.

Dump of file dumptest.exe

PE signature found

File Type: EXECUTABLE IMAGE

FILE HEADER VALUES

14C machine (x86)

3 number of sections

4E92A178 time date stamp Mon Oct 10 15:40:40 2011

0 file pointer to symbol table

0 number of symbols

E0 size of optional header

102 characteristics

Executable

32 bit word machine

OPTIONAL HEADER VALUES

10B magic # (PE32)

8.00 linker version

800 size of code

800 size of initialized data

0 size of uninitialized data

272E entry point (0040272E)

2000 base of code

4000 base of data

400000 image base (00400000 to 00407FFF)

2000 section alignment

200 file alignment

4.00 operating system version

0.00 image version

4.00 subsystem version

0 Win32 version

8000 size of image

200 size of headers

0 checksum

3 subsystem (Windows CUI)

8540 DLL characteristics

Dynamic base

NX compatible

No structured exception handler

Terminal Server Aware

100000 size of stack reserve

1000 size of stack commit

100000 size of heap reserve

1000 size of heap commit

0 loader flags

10 number of directories

0 [0] RVA [size] of Export Directory

26D4 [57] RVA [size] of Import Directory

4000 [588] RVA [size] of Resource Directory

0 [0] RVA [size] of Exception Directory

0 [0] RVA [size] of Certificates Directory

6000 [C] RVA [size] of Base Relocation Directory

2668 [1C] RVA [size] of Debug Directory

0 [0] RVA [size] of Architecture Directory

0 [0] RVA [size] of Global Pointer Directory

0 [0] RVA [size] of Thread Storage Directory

0 [0] RVA [size] of Load Configuration Directory

0 [0] RVA [size] of Bound Import Directory

2000 [8] RVA [size] of Import Address Table Directory

0 [0] RVA [size] of Delay Import Directory

2008 [48] RVA [size] of COM Descriptor Directory

0 [0] RVA [size] of Reserved Directory

SECTION HEADER #1

.text name

734 virtual size

2000 virtual address (00402000 to 00402733)

800 size of raw data

200 file pointer to raw data (00000200 to 000009FF)

0 file pointer to relocation table

0 file pointer to line numbers

0 number of relocations

0 number of line numbers

60000020 flags

Code

Execute Read

Debug Directories

Time Type Size RVA Pointer

-------- ------ -------- -------- --------

4E92A178 cv 50 00002684 884 Format: RSDS, {99F34C5E-5BC3-4043-AE11-D85F7990AF00}, 1, E:\test\c#\dumptest\dumptest\obj\x86\Debug\dumptest.pdb

SECTION HEADER #2

.rsrc name

588 virtual size

4000 virtual address (00404000 to 00404587)

600 size of raw data

A00 file pointer to raw data (00000A00 to 00000FFF)

0 file pointer to relocation table

0 file pointer to line numbers

0 number of relocations

0 number of line numbers

40000040 flags

Initialized Data

Read Only

SECTION HEADER #3

.reloc name

C virtual size

6000 virtual address (00406000 to 0040600B)

200 size of raw data

1000 file pointer to raw data (00001000 to 000011FF)

0 file pointer to relocation table

0 file pointer to line numbers

0 number of relocations

0 number of line numbers

42000040 flags

Initialized Data

Discardable

Read Only

Summary

2000 .reloc

2000 .rsrc

2000 .text

现在我们将目光集中在代码清单2中斜体加粗的部分,这里我们可以找到调试路径的信息,一个GUID值(99F34C5E-5BC3-4043-AE11-D85F7990AF00)和一个路径(E:\test\c#\dumptest\dumptest\obj\x86\Debug\dumptest.pdb)。现在我们已经清楚了调试器如何判断PDB文件是否匹配,下面我们再来看调试器是如何寻找PDB文件的。

3. PDB文件寻路

如果我们观察VS启动调试加载模块和符号文件的过程,会发现它通常会从可执行文件或者DLL文件的相同目录中加载符号文件。这正是调试器寻找PDB文件的第一选择。

如果在模块文件的相同目录下找不到匹配的PDB文件,会发生什么呢?我们在前文知道编译器在PE文件中硬编码了一个路径(比如:E:\test\c#\dumptest\dumptest\obj\x86\Debug\dumptest.pdb),这个路径就是调试器的第二个选择。对于对外发布的应用,很可能这两个路径下都找不到PDB文件。此时调试器会在本地的符号服务器缓存路径下寻找PDB文件。如果本地的符号服务器缓存路径下仍然找不到,它会调试器本身配置的符号服务器中寻找符号文件。图4是VS2010配置符号服务器和本地符号缓存路径的界面。

clip_image008

图4 VS2010配置符号存储

4. PDB与GAC

上面讲到的调试器寻找PDB文件的方式在大多数情况下都工作的很好,当我们遇到必须要讲编制之后的文件安装的GAC中的时候,情况开始变得有意思起来。当我们在本地编译并调试程序集的时候,即使程序集被安装到GAC中,调试器仍然能在编译目录下找到PDB文件,但是如果我们已经将Private Build的应用部署到其他机器上的时候,此时还想在被部署的机器上调试安装到GAC上的程序集,将会是一件很麻烦的事情。我们有两种方案来解决这个问题。

Private Build与Public Build的区别

private build, 用来表示在开发人员自己机器上生成的build;public build,表示在公用的build机器上生成的build。对于public build,需要symbol server存储所有的PDB,然后当用户报告错误的时候,debugger才可以自动地找到binay相应的PDB文件, visual studio 和 windbg都知道如何访问symbol server。在将PDB和binay存储到symbol server前,还需要对PDB运行进行source indexing, source indexing的作用是将PDB和source关联起来。

第一种方案是我们在GAC的目录中找到被安装的程序集,然后将PDB文件拷贝到该目录下。通常我们安装到GAC中的程序集会存在于类似这样的路径中:C:Windows\assembly\GAC_MSIL\Example\1.0.0.0__682bc775ff82796a,该示例目录中“Example”代表程序集的名称,“1.0.0.0”代表版本号,“682bc775ff82796a”代表程序集的Public Token。当你找到确切的目录,将PDB文件放到该目录下,调试器就可以加载符号文件了。

这里还有一种更好的方案,就是设置一个名为“DEVPATH”的系统环境变量。该环境变量设定一个磁盘目录作为其值,该目录将作为GAC的辅助目录存在,在GAC中查找程序集同样会搜索该目录。但是在这样的目录中程序集并不会执行版本检查,这是需要我们注意的地方。

使用DEVPATH,我们首先要选定一个目录,然后确保应用程序对它持有读、写权限。然后创建DEVPATH系统环境变量。当然这只是准备工作,我们还要告知.NET运行时,应用程序启用DEVPATH作为GAC的扩展目录。所以接下来我们在配置文件(APP.CONFIG,WEB.CONFIG,MACHINE.CONFIG)中添加如下配置:

<configuration> 
<runtime> 
<developmentMode developerInstallation="true"/> 
</runtime> 
</configuration>

在你打开了development模式后,如果DEVPATH没有定义或路径不存在的话会导致程序启动时异常"Invalid value for registry"。而且如果在machine.config中开启DEVPATH的使用会影响其他的所有的程序,所以要慎重使用machine.config。

5. PDB与源文件

现在我们再来讨论一个开发人员经常问到的问题:源文件的信息是如何在PDB文件中存储的?对于Public Build,PDB文件存储的是如何利用版本控制工具从代码缓存获取源码代码的命令。对于Private Build,很显然,符号文件存储的是源代码的完整路径。

理想状态下,对于Public Build而言源代码索引和符号被缓存到符号服务器的操作都会自动执行,我们无需考虑源代码和符号文件在哪存储的问题。事实上,很多开发团队并没有公用的符号服务器或者源代码索引服务。对于一个小型项目而言,每个开发人员都有足够的磁盘空间来存储源代码和符号文件,也许不会过多的考虑这个问题。但是也许会有这样的场景:将一个Private Build项目转移到另一台机器上有30M的源码需要放到C盘,但是此时C盘只有20M的剩余空间该怎么办?我们能修改PDB文件中源码的路径吗?

我们前面提到没有办法修改PDB文件,但是这里有一个取巧的方法可以尝试,所谓山不向我走来,我向山走去。这里有一个工具恰好可以派上用场,它就是subst.exe,它是Windows自带的命令行工具,可以从cmd窗口启动。

说明:

subst用于路径替换 ,将路径与驱动器号关联,就是把一个目录当作一个磁盘驱动器来看,不过不能格式化。运用一定技巧,subst命令还可以实现隐藏驱动器、特殊软件的安装、模拟光盘自动运行等功能。

用法格式

一、subst [盘符] [路径] 将指定的路径替代盘符,该路径将作为驱动器使用

二、subst /d 解除替代

三、不加任何参数键入 SUBST,可以显示当前虚拟驱动器的清单。

[例子]

C:\DOS>subst a: c:\temp 将c:\temp虚拟化成a盘

C:\>subst a: /d? 解除替代

 

想到解决上面问题的方法了吗?我们只需将本机源码的路径虚拟化成一个磁盘,例如M,之后无论你将代码部署到任何机器上,只需将被部署的路径虚拟成M就可以了,就不会出现符号文件和目标代码不匹配的情况了。

关于PDB文件的资料,目前在互联网上还是凤毛麟角,我这里只是抛砖引玉,欢迎大家共同交流。


本文转自悬魂博客园博客,原文链接:http://www.cnblogs.com/xuanhun/archive/2011/10/11/2207398.html,如需转载请自行联系原作者

相关文章
|
2月前
|
自然语言处理 数据处理 Python
python操作和解析ppt文件 | python小知识
本文将带你从零开始,了解PPT解析的工具、工作原理以及常用的基本操作,并提供具体的代码示例和必要的说明【10月更文挑战第4天】
362 60
|
2月前
|
安全 Linux 数据安全/隐私保护
python知识点100篇系列(15)-加密python源代码为pyd文件
【10月更文挑战第5天】为了保护Python源码不被查看,可将其编译成二进制文件(Windows下为.pyd,Linux下为.so)。以Python3.8为例,通过Cython工具,先写好Python代码并加入`# cython: language_level=3`指令,安装easycython库后,使用`easycython *.py`命令编译源文件,最终生成.pyd文件供直接导入使用。
python知识点100篇系列(15)-加密python源代码为pyd文件
|
23天前
|
开发者 Python
Python中__init__.py文件的作用
`__init__.py`文件在Python包管理中扮演着重要角色,通过标识目录为包、初始化包、控制导入行为、支持递归包结构以及定义包的命名空间,`__init__.py`文件为组织和管理Python代码提供了强大支持。理解并正确使用 `__init__.py`文件,可以帮助开发者更好地组织代码,提高代码的可维护性和可读性。
24 2
|
2月前
|
Linux 区块链 Python
Python实用记录(十三):python脚本打包exe文件并运行
这篇文章介绍了如何使用PyInstaller将Python脚本打包成可执行文件(exe),并提供了详细的步骤和注意事项。
68 1
Python实用记录(十三):python脚本打包exe文件并运行
|
2月前
|
Python
Python PDB命令介绍
【10月更文挑战第15天】 使用PDB的方式有两种,其中一种是在脚本中添加代码,不觉得这种方式比print好在哪里,所以这种方式此文不表。这里我们只学习PDB的命令行使用方式
46 4
|
2月前
|
Java Python
> python知识点100篇系列(19)-使用python下载文件的几种方式
【10月更文挑战第7天】本文介绍了使用Python下载文件的五种方法,包括使用requests、wget、线程池、urllib3和asyncio模块。每种方法适用于不同的场景,如单文件下载、多文件并发下载等,提供了丰富的选择。
|
2月前
|
数据安全/隐私保护 流计算 开发者
python知识点100篇系列(18)-解析m3u8文件的下载视频
【10月更文挑战第6天】m3u8是苹果公司推出的一种视频播放标准,采用UTF-8编码,主要用于记录视频的网络地址。HLS(Http Live Streaming)是苹果公司提出的一种基于HTTP的流媒体传输协议,通过m3u8索引文件按序访问ts文件,实现音视频播放。本文介绍了如何通过浏览器找到m3u8文件,解析m3u8文件获取ts文件地址,下载ts文件并解密(如有必要),最后使用ffmpeg合并ts文件为mp4文件。
|
2月前
|
JSON 数据格式 Python
Python实用记录(十四):python统计某个单词在TXT/JSON文件中出现的次数
这篇文章介绍了一个Python脚本,用于统计TXT或JSON文件中特定单词的出现次数。它包含两个函数,分别处理文本和JSON文件,并通过命令行参数接收文件路径、目标单词和文件格式。文章还提供了代码逻辑的解释和示例用法。
46 0
Python实用记录(十四):python统计某个单词在TXT/JSON文件中出现的次数
|
2月前
|
Python
Python对PDF文件页面的旋转和切割
Python对PDF文件页面的旋转和切割
|
2月前
|
计算机视觉 Python
Python操作PDF文件
Python操作PDF文件