分享 MSDN 下载工具(Word/PDF)

简介:

给大伙分享一个最近出炉的 MSDN 到 Word/PDF 转换器。我已经用它转换了 WPF、VSPackage、WWF 等 MSDN 章节为 PDF。

  • 介绍
  • 下载
  • 使用要求
  • 使用方法
  • 结语

 

介绍


现在的 MSDN 已经做得非常好了,章节非常清晰,从入门到精通各个层次都有。我常常会把 MSDN 当作一个系统的学习书籍来看。有时候,特别想把 MSDN 下载下来,转换为 PDF,放到平板电脑上看。

最近急于研究 VS-Package 的使用,所以花了一整个晚上写了这个转换器。

软件功能描述:

用于从 MSDN 网站上下载指定章节下的所有文章,读取内容中的文本及图片等。读取完成后,转换为 Word 文件,并生成相应的目录。(有了 word 文件,Word 2010 就可以把它导出为 pdf 等其它格式了。)

软件截图

MSDNConverter1[1]

 

 

下载


下载地址:

online_icon[1]1.5 版下载地址 (支持中文版本的 MSDN 下载)。
online_icon[1]1.4 版下载地址 (修复带版本号的地址直接报错的问题)。
online_icon[1]1.3 版下载地址 。

 

使用要求


使用本软件,需要安装 .NET4.0 以及 Office 软件。由于我使用的是 office 2010,较低的版本我没有尝试过。

 

使用方法


例如,我期望转换 MSDN 中 online_icon[2]《Windows Workflow Fundation》 中的所有内容到 PDF。

步骤
  1. 打开你要下载的 MSDN 页面,查看该页面的标识。如下图,其中标识为 dd489441。

    MSDNConverter0[1]

  2. 编辑配置文件

    打开 MSDNConverter.exe.config,编辑以下配置: 
    <configuration>  
        <appSettings>  
            <add key="RootId" value="dd489441"/>  
            <add key="ExcludeSubIdList" value="dd483375,dd489447"/>  
        </appSettings>  
    </configuration>

  3. 把页面的标识“RootId”设置为上面的 dd489441。

    有时候,你不想下载某一些子章节,例如大量类型的 API 说明。你可以把这些不想下载的子章节标识,都加入到 “ExcludeSubIdList” 配置中,以逗号分隔即可。

  4. 运行软件即可

    MSDNConverter1[2]

    点击回车,开始全自动运行……

    先下载整本书的目录结构……

    MSDNConverter2[1]

    目录下载完毕后,会开始下载每一篇文章的文本内容:

    MSDNConverter3[1]

    文本下载完毕,会开始下载所有的图片:

    MSDNConverter4[1]

    文本和图片,会下载到程序对应文件夹下缓存着。防止中途中断不再重复下载。

    待文本和图片下载完成后,程序会打开 Word,开始把内容输出到 Word 文档中。在转换过程中,打开 Word 只是方便查看,不要去人为编辑 Word 文档,否则会影响转换。

    MSDNConverter5[1]

  5. 输出完成

    转换完成后,程序为整个文档生成了目录和导航。这时,保存为 Word、或者 PDF 即可。:)

    MSDNConverter6[1]

  6. 输出

    MSDNConverter7

 

结语


目前软件是 1.3 版本,还有一些问题没有解决。例如没识别表格、列表、许多样式等。这两天比较懒,反正能看了,以后有时间再加吧。

Enjoy it. :)

目录
相关文章
|
4月前
|
数据采集 Web App开发 JavaScript
Puppeteer自动化:使用JavaScript定制PDF下载
在现代Web开发中,自动化工具如Puppeteer可显著提升效率并减少重复工作。Puppeteer是一款强大的Node.js库,能够控制无头Chrome或Chromium浏览器,适用于网页快照生成、数据抓取及自动化测试等任务。本文通过示例展示了如何使用Puppeteer自动化生成定制化的PDF文件,并介绍了如何通过配置代理IP、设置user-agent和cookie等技术增强自动化过程的灵活性与稳定性。具体步骤包括安装Puppeteer、配置代理IP、设置user-agent和cookie等,最终生成符合需求的PDF文件。此技术可应用于报表生成、发票打印等多种场景。
224 6
Puppeteer自动化:使用JavaScript定制PDF下载
|
18天前
|
机器学习/深度学习 人工智能 文字识别
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,支持PDF、DOCX、图片等多种格式文件,能够零样本识别复杂布局文档,输出Markdown格式结果。
82 4
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
|
1月前
|
人工智能 文字识别 自然语言处理
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
Vision Parse 是一款开源的 PDF 转 Markdown 工具,基于视觉语言模型,能够智能识别和提取 PDF 中的文本和表格,并保持原有格式和结构。
122 19
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
|
2月前
|
人工智能 文字识别 数据挖掘
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
MarkItDown 是微软开源的多功能文档转换工具,支持将 PDF、PPT、Word、Excel、图像、音频等多种格式的文件转换为 Markdown 格式,具备 OCR 文字识别、语音转文字和元数据提取等功能。
275 9
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
|
2月前
|
XML C# 数据格式
一个.NET开源、免费、功能强大的 PDF 处理工具
一个.NET开源、免费、功能强大的 PDF 处理工具
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
Documind:开源 AI 文档处理工具,将 PDF 转换为图像提取结构化数据
Documind 是一款利用 AI 技术从 PDF 中提取结构化数据的先进文档处理工具,支持灵活的本地或云端部署。
137 8
Documind:开源 AI 文档处理工具,将 PDF 转换为图像提取结构化数据
|
3月前
|
前端开发 API
前端界面生成PDF并导出下载
【10月更文挑战第21天】利用合适的第三方库,你可以在前端轻松实现界面生成 PDF 并导出下载的功能,为用户提供更方便的文档分享和保存方式。你还可以根据具体的需求进一步优化和定制生成的 PDF 文件,以满足不同的业务场景要求。
|
4月前
|
Java Apache Maven
将word文档转换成pdf文件方法
在Java中,将Word文档转换为PDF文件可采用多种方法:1) 使用Apache POI和iText库,适合处理基本转换需求;2) Aspose.Words for Java,提供更高级的功能和性能;3) 利用LibreOffice命令行工具,适用于需要开源解决方案的场景。每种方法都有其适用范围,可根据具体需求选择。
|
4月前
|
Java Apache Maven
Java将word文档转换成pdf文件的方法?
【10月更文挑战第13天】Java将word文档转换成pdf文件的方法?
1131 1
|
4月前
|
Java BI API
spring boot 整合 itextpdf 导出 PDF,写入大文本,写入HTML代码,分析当下导出PDF的几个工具
这篇文章介绍了如何在Spring Boot项目中整合iTextPDF库来导出PDF文件,包括写入大文本和HTML代码,并分析了几种常用的Java PDF导出工具。
870 0
spring boot 整合 itextpdf 导出 PDF,写入大文本,写入HTML代码,分析当下导出PDF的几个工具