自制 Word、Excel 批转 PDF 工具

简介: 原文:自制 Word、Excel 批转 PDF 工具目前做金融业的项目,该公司每天会产生很多 Word、Excel 文档,需要大量地转换为 PDF,除了自己保存外,也要给金融主管机构作为备份。由于文档数量很多,希望有工具能在下班前、作完设置后,放着让机器自动、大量地批转;除此之外,亦希望有特殊的功能,例如给主管机构的 Excel 文档,能仅选择其中某几个 sheet (工作表) 转成 PDF。
原文: 自制 Word、Excel 批转 PDF 工具

目前做金融业的项目,该公司每天会产生很多 Word、Excel 文档,需要大量地转换为 PDF,除了自己保存外,也要给金融主管机构作为备份。由于文档数量很多,希望有工具能在下班前、作完设置后,放着让机器自动、大量地批转;除此之外,亦希望有特殊的功能,例如给主管机构的 Excel 文档,能仅选择其中某几个 sheet (工作表) 转成 PDF。 我找了网络上许多 PDF 转换工具,没有完全符合上述需求的,只好自己用 .NET / VSTO 写一个。

开发环境:
(1) VS 2008 / Windows Form / VB.NET / VSTO
(2) Office 2007 或 Office 2010 或更高版本 (需要引用新版 Office 里的 COM 组件)
(3) 2007 Microsoft Office 加载项:Microsoft Save as PDF 或 XPS (可将 Office 2007 或更高版本的文件,导出成 PDF 或 XPS 文件)

执行环境:
(1) .NET Framework
(2) Office 2007 或 Office 2010 或更高版本 (旧版的 Office XP / Office 2003 不行)
(3) 2007 Microsoft Office 加载项:Microsoft Save as PDF 或 XPS (可将 Office 2007 或更高版本的文件,导出成 PDF 或 XPS 文件)

特性:
(1) 支持中文文件名 (免费的 PDFCreator 从 1.2.x 版后即不支持)、中文目录、中文命名的 sheet。
(2) 可选择 Excel 的某一个或某几个 sheet,整合转换成「单一个」PDF (Adobe Acrobat Standard 亦无此功能,要很贵的 Adobe Acrobat Professional 才有)。
(3) 可选择 Excel 的某一个或某几个 sheet,「各自」转换成一个 PDF (我在网络上未找到具备此功能的软件)。
(4) 批转的速度很快,大量批转时亦不曾发生程序崩溃,或占据 Word、Excel 文件资源不释放的情形。
(5) 可处理 Excel 里,整个 sheet 内容全为空白的不正常情形。

-------------------------------------------------
本帖的示例下载点:
http://files.cnblogs.com/WizardWu/120930.zip
附源码。若需要简体中文介面的网友,请自行用 VS 开启项目后,改写及编译。
---------------------------------------------------

执行画面


图 1 直接双击 .exe 执行


图 2 分为两大功能


功能一 - 大批文件转换


图 3 功能一,批转多个目录里的 Word、Excel 文档 - 转换前


图 4 功能一,批转多个目录里的 Word、Excel 文档 - 转换后 

 

关键代码 (大批文件转换)
'''   <summary>
'''  Word 轉 PDF
'''   </summary>
'''   <param name="PathAndFileName"> 路徑名\檔名.副檔名 </param>
Public  Sub ConvertWordToPDF( ByVal PathAndFileName  As  String)
     Dim mstrResultFormPath  As  String = PathAndFileName
     Dim strPDFFileName  As  String = Path.ChangeExtension(mstrResultFormPath,  " .pdf ")
     Dim docApp  As  Object =  CreateObject( " Word.Application ")
     Dim docDoc  As  Object = docApp.Documents.Open(mstrResultFormPath)
     Try
         ' ExportFormat: 指定要以 PDF 還是 XPS 格式儲存文件
        docDoc.ExportAsFixedFormat(OutputFileName:=strPDFFileName, ExportFormat:= 17)
     Catch ex  As Exception
         Throw  New Exception( " 轉換 Word 檔  " & PathAndFileName &  "  時發生錯誤,錯誤為: " & ex.Message)
     Finally
        docApp.Documents.Close()
        docApp.Quit()
     End  Try
End Sub


'''   <summary>
'''  Excel 轉 PDF (可有空白 sheet)
'''   </summary>
'''   <param name="PathAndFileName"> 路徑名\檔名.副檔名 </param>
Public  Sub ConvertExcelToPDF( ByVal PathAndFileName  As  String)
     ' Dim ws As Excel.Worksheet

     Dim mstrResultFormPath  As  String = PathAndFileName   ' 例:d:\excelTestPDF.xls
     Dim strPDFFileName  As  String = Path.ChangeExtension(mstrResultFormPath,  " .pdf ")
     Dim xlsApp  As  Object =  CreateObject( " Excel.Application ")
     Dim xlsWBook  As  Object = xlsApp.Workbooks.Open(mstrResultFormPath)
     Try
        xlsWBook.ExportAsFixedFormat(Type:= 0, Filename:=strPDFFileName, IgnorePrintAreas:= False, OpenAfterPublish:= False, IncludeDocProperties:= True, Quality:=Excel.XlFixedFormatQuality.xlQualityStandard)
     Catch ex  As Exception
         Throw  New Exception( " 轉換 Excel 檔  " & PathAndFileName &  "  時發生錯誤,錯誤為: " & ex.Message)
     Finally
        xlsApp.Workbooks.Close()
        xlsApp.Quit()
     End  Try
End Sub

 


功能二 - Excel 特定 sheet 转换


图 5 功能二,可选择 Excel 的某一个或某几个 sheet,整合转换成「单一个」PDF

 

关键代码 (Excel 的某一个或某几个 sheet,整合转换成「单一个」PDF)
' 勾選的 sheet 轉成單一個 PDF 檔 (若選到空白的 sheet,不會出錯,但不會印出來)
Public  Sub ConvertCheckedSheetToOnePDF( ByVal PathAndFileName  As  StringByVal listChecked  As List( Of  String),  ByVal listUnChecked  As List( Of  String))
     Dim oExcel  As  New Excel.Application
     Dim oBooks  As Excel.Workbooks, oBook  As Excel.Workbook
     Dim oSheets  As Excel.Sheets
     ' Dim oSheet As Excel.Worksheet
     Dim sTemplate  As  String, sFileName  As  String

     ' Excel 檔路徑
    sTemplate = PathAndFileName
     ' 捉路徑+檔名(不含副檔名)
    sFileName = PathAndFileName.Substring( 0, PathAndFileName.LastIndexOf( " . "))

    oExcel.Visible =  False
    oExcel.DisplayAlerts =  False

    oBooks = oExcel.Workbooks
    oBooks.Open(sTemplate)
    oBook = oBooks.Item( 1)
    oSheets = oBook.Worksheets

     ' 將沒勾選的 Worksheet,從 Workbook 裡移除
     If  Not listUnChecked  Is  Nothing  Then
         If listUnChecked.Count >  0  Then
             Dim sheetDelete  As Excel.Worksheet =  Nothing     ' 暫存用

             For  Each s_unC  In listUnChecked
                 ' oBook.Sheets(s_unC).Delete()   '這種寫法,會引發: 無效的索引 (發生例外狀況於 HRESULT: 0x8002000B (DISP_E_BADINDEX」

                sheetDelete = oBook.Sheets(s_unC)    ' 依 sheet 的中文名稱,作為移除的依據
                 If  Not sheetDelete  Is  Nothing  Then
                    sheetDelete.Delete()
                 End  If

                sheetDelete =  Nothing
             Next
         End  If
     End  If

    oBook.ExportAsFixedFormat(Type:=Excel.XlFixedFormatType.xlTypePDF, Filename:=sFileName &  " .pdf ", Quality:=Excel.XlFixedFormatQuality.xlQualityStandard, IncludeDocProperties:= True, IgnorePrintAreas:= False, OpenAfterPublish:= False)

 

 


图 6 功能二,可选择 Excel 的某一个或某几个 sheet,各自转换成一个 PDF

 

关键代码 (Excel 的某一个或某几个 sheet,「各自」转换成一个 PDF)
' 勾選的 sheet 各轉成一個 PDF 檔 (若選到空白的 sheet,該 sheet 的轉換會失敗)
Public  Sub ConvertCheckedSheetToMultiplePDF( ByVal PathAndFileName  As  StringByVal listChecked  As List( Of  String))
     Dim oExcel  As  New Excel.Application
     Dim oBooks  As Excel.Workbooks, oBook  As Excel.Workbook
     Dim oSheets  As Excel.Sheets
     Dim oSheet  As Excel.Worksheet
     Dim sTemplate  As  String, sFileName  As  String

     '  Excel 檔路徑
    sTemplate = PathAndFileName
     ' 捉路徑+檔名(不含副檔名)
    sFileName = PathAndFileName.Substring( 0, PathAndFileName.LastIndexOf( " . "))

    oExcel.Visible =  False
    oExcel.DisplayAlerts =  False

    oBooks = oExcel.Workbooks
    oBooks.Open(sTemplate)
    oBook = oBooks.Item( 1)
    oSheets = oBook.Worksheets

     For i  As  Integer =  0  To listChecked.Count -  1
        ProgressBar1.PerformStep()   ' 進度列

         ' ss &= listChecked(i) & vbCrLf
        oSheet =  CType(oSheets.Item(listChecked(i)), Excel.Worksheet)
         ' ss &= oSheet.Name & vbCrLf
        oSheet.ExportAsFixedFormat(Excel.XlFixedFormatType.xlTypePDF, IncludeDocProperties:= True, OpenAfterPublish:= False, Quality:=Excel.XlFixedFormatQuality.xlQualityStandard, _
                                  Filename:=sFileName &  " _ " & oSheet.Name &  " .pdf ")
     Next

 

 

组件引用


图 7 Office 2007 开发环境。项目需要手动引用三个组件

如上图 7,VS 里需要自行引用 Microsoft Office.Tools.Excel、Microsoft Office.Tools.Word 两个 .NET 组件,以及 Microsoft Excel Object Library 这个 Office 里的 COM 组件。 但需注意,在开发环境中若安装的是 Office 2007,则可引用的 Microsoft Excel Object Library 版本为 1.5 版 (11.0) 或 1.6 版 (12.0),此时编译的程序,可拿至安装 Office 2007 及 Office 2010 的用户机器上执行;但若如下图 8,在开发环境中安装的是 Office 2010,则可引用的 Microsoft Excel Object Library 版本为 1.7 版 (14.0),此时编译的程序,就只能拿至安装 Office 2010 的用户机器上执行,若拿至安装 Office 2007 的用户机器上会无法执行。


图 8 Office 2010 开发环境。项目需要手动引用三个组件


结论

此种转换功能,亦可写成 ASP.NET 网页介面,但不建议。因转化动作极耗系统资源,若大量批转容易造成 IIS 死机,且 IIS_WPG、Network Service 群组默认的权限不足,需要另外处理权限、安全性的设置。




参考文章:


Word 及 Excel 的 Workbook.ExportAsFixedFormat Method
http://msdn.microsoft.com/zh-cn/library/microsoft.office.tools.excel.workbook.exportasfixedformat.aspx
http://msdn.microsoft.com/zh-cn/library/microsoft.office.tools.word.document.exportasfixedformat.aspx
http://msdn.microsoft.com/en-us/library/office/bb238907%28v=office.12%29.aspx

如何给excel新增工作表 C# (Worksheet 操作大全)
http://topic.csdn.net/u/20080623/14/d47504a2-086b-4449-bffb-4f9ae6b62eb4.html

ASP.NET 產生 PDF 或 XPS 檔 (繁体中文)
http://teacher.syset.com/viewtopic.mspx?t=3911

ASP.NET 產生 PDF 或 XPS 檔 (繁体中文)
http://www.dotblogs.com.tw/rainmaker/archive/2010/01/25/13275.aspx

Merge Workbook With Another Workbook using VSTO
http://social.msdn.microsoft.com/forums/en-US/vsto/thread/85a3dac8-b32a-443a-8601-4e95935fe368

Printing multiple worksheets as seperate PDF files
http://www.mrexcel.com/forum/excel-questions/646486-printing-multiple-worksheets-seperate-pdf-files.html
http://en.allexperts.com/q/Excel-1059/2010/4/converting-worksheets-workbook-separate.htm

ASP.NET调用COM Word转Pdf之我见
http://www.haogongju.net/art/1055828

Print To PDF Using Microsoft's PDF/XPS Add-in
http://www.excelguru.ca/content.php?170-Print-To-PDF-Using-Microsoft-s-PDF-XPS-Add-in
http://www.excelguru.ca/content.php?161

How do I export multiple sheets/charts to a single PDF, but not the entire workbook ? (此做法有缺陷)
http://social.msdn.microsoft.com/Forums/pl-PL/exceldev/thread/7b16b912-5356-4c3c-b517-6f1c91d26d72

VSTO 入门 (Visual Studio Tools for Office)
http://msdn.microsoft.com/zh-cn/library/23cw517s%28v=vs.80%29.aspx 



参考书籍:

Visual Studio Tools for Office 2007
http://www.silverlightchina.net/html/download/books/2010/1008/2473.html 



相关文章:

利用Office Save as PDF or XPS 实现Office批传PDF
http://www.cnblogs.com/mecity/archive/2011/06/23/2087973.html

Convert Word-Documents to PDF on an ASP.NET Server
http://www.codeproject.com/Articles/38592/Convert-Word-Documents-to-PDF-on-an-ASP-NET-Server

Excel VBA - WorkSheet新增、複製、刪除(不出現提示視窗)
http://tgw1029.blogspot.tw/2010/01/excel-vba-worksheet.html
http://msdn.microsoft.com/en-us/library/microsoft.office.tools.excel.worksheet.copy%28VS.80%29.aspx


  

 

目录
相关文章
|
23天前
|
人工智能 Python
读取excel工具:openpyxl | AI应用开发
`openpyxl` 是一个 Python 库,专门用于读写 Excel 2010 xlsx/xlsm/xltx/xltm 文件。它是处理 Excel 文件的强大工具,可以让你在不需要安装 Excel 软件的情况下,对 Excel 文件进行创建、修改、读取和写入操作【10月更文挑战第3天】
53 0
|
6天前
|
数据处理
在Excel中,通配符是一种强大的工具
【10月更文挑战第23天】在Excel中,通配符是一种强大的工具
12 4
|
16天前
|
Java Apache Maven
将word文档转换成pdf文件方法
在Java中,将Word文档转换为PDF文件可采用多种方法:1) 使用Apache POI和iText库,适合处理基本转换需求;2) Aspose.Words for Java,提供更高级的功能和性能;3) 利用LibreOffice命令行工具,适用于需要开源解决方案的场景。每种方法都有其适用范围,可根据具体需求选择。
|
16天前
|
Java Apache Maven
Java将word文档转换成pdf文件的方法?
【10月更文挑战第13天】Java将word文档转换成pdf文件的方法?
48 1
|
21天前
|
Java BI API
spring boot 整合 itextpdf 导出 PDF,写入大文本,写入HTML代码,分析当下导出PDF的几个工具
这篇文章介绍了如何在Spring Boot项目中整合iTextPDF库来导出PDF文件,包括写入大文本和HTML代码,并分析了几种常用的Java PDF导出工具。
203 0
spring boot 整合 itextpdf 导出 PDF,写入大文本,写入HTML代码,分析当下导出PDF的几个工具
|
28天前
|
JSON 数据格式
LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索
LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索
52 2
|
3月前
|
C# 开发者 Windows
WPF遇上Office:一场关于Word与Excel自动化操作的技术盛宴,从环境搭建到代码实战,看WPF如何玩转文档处理的那些事儿
【8月更文挑战第31天】Windows Presentation Foundation (WPF) 是 .NET Framework 的重要组件,以其强大的图形界面和灵活的数据绑定功能著称。本文通过具体示例代码,介绍如何在 WPF 应用中实现 Word 和 Excel 文档的自动化操作,包括文档的读取、编辑和保存等。首先创建 WPF 项目并设计用户界面,然后在 `MainWindow.xaml.cs` 中编写逻辑代码,利用 `Microsoft.Office.Interop` 命名空间实现 Office 文档的自动化处理。文章还提供了注意事项,帮助开发者避免常见问题。
212 0
|
3月前
|
Python
还不会免费将PDF转为Word?你可以试试这3种工具!
还不会免费将PDF转为Word?你可以试试这3种工具!
|
24天前
|
数据采集 存储 JavaScript
自动化数据处理:使用Selenium与Excel打造的数据爬取管道
本文介绍了一种使用Selenium和Excel结合代理IP技术从WIPO品牌数据库(branddb.wipo.int)自动化爬取专利信息的方法。通过Selenium模拟用户操作,处理JavaScript动态加载页面,利用代理IP避免IP封禁,确保数据爬取稳定性和隐私性。爬取的数据将存储在Excel中,便于后续分析。此外,文章还详细介绍了Selenium的基本设置、代理IP配置及使用技巧,并探讨了未来可能采用的更多防反爬策略,以提升爬虫效率和稳定性。
|
3月前
|
关系型数据库 MySQL Shell
不通过navicat工具怎么把查询数据导出到excel表中
不通过navicat工具怎么把查询数据导出到excel表中
41 0