PDFToText with ITextSharp--Extract text from PDF in C# (100% .NET)(推荐)

简介:
using  System;
using  System.IO;
using  iTextSharp.text.pdf;

namespace  PdfToText
{
    
/// <summary>
    
/// Parses a PDF file and extracts the text from it.
    
/// </summary>

    public class PDFParser 
    
{
        
/// BT = Beginning of a text object operator 
        
/// ET = End of a text object operator
        
/// Td move to the start of next line
        
///  5 Ts = superscript
        
/// -5 Ts = subscript


        
Fields

        
ExtractText

        
ExtractTextFromPDFBytes

        
CheckToken
    }

}


usage:
using  System;
using  System.Text;
using  System.IO;

namespace  PdfToText
{
    
/// <summary>
    
/// The main entry point to the program.
    
/// </summary>

    class Program
    
{
        
static void Main(string[] args)
        
{
            
try
            
{
                
if (args.Length < 1)
                
{
                    DisplayUsage();
                    
return;
                }


                
string file = args[0];
                
if (!File.Exists(file))
                
{
                    file 
= Path.GetFullPath(file);
                    
if (!File.Exists(file))
                    
{
                        Console.WriteLine(
"Please give in the path to the PDF file.");
                    }

                }


                PDFParser pdfParser 
= new PDFParser();
                pdfParser.ExtractText(file, Path.GetFileNameWithoutExtension(file)
+".txt");
            }

            
catch (Exception exc)
            
{
                Console.WriteLine(exc);
            }

        }


        
static void DisplayUsage()
        
{
            Console.WriteLine();
            Console.WriteLine(
"Usage:\tpdftotext FILE");
            Console.WriteLine();
            Console.WriteLine(
"\tFILE\t the path to the PDF file, it may be relative or absolute.");
            Console.WriteLine();
        }

    }

}


问题,不支持中文,没有布局,仅仅是把每页的所以文字抽取出来,如果想真正实现PDFtoTxt,仍然有好多路要走,但毕竟是个好的开始。

from http://www.codeproject.com/useritems/PDFToText.asp
 

本文转自 RubyPdf 的中文博客博客园博客,原文链接: http://www.cnblogs.com/hardrock/archive/2006/06/16/427112.html /,如需转载请自行联系原作者
相关文章
|
14天前
|
Java 物联网 C#
C#/.NET/.NET Core学习路线集合,学习不迷路!
C#/.NET/.NET Core学习路线集合,学习不迷路!
|
2月前
|
开发框架 .NET C#
C#|.net core 基础 - 删除字符串最后一个字符的七大类N种实现方式
【10月更文挑战第9天】在 C#/.NET Core 中,有多种方法可以删除字符串的最后一个字符,包括使用 `Substring` 方法、`Remove` 方法、`ToCharArray` 与 `Array.Copy`、`StringBuilder`、正则表达式、循环遍历字符数组以及使用 LINQ 的 `SkipLast` 方法。
|
17天前
|
Java 物联网 编译器
C#一分钟浅谈:.NET Core 与 .NET 5 区别
本文对比了 .NET Core 和 .NET 5,从历史背景、主要区别、常见问题及易错点等方面进行了详细分析。.NET Core 侧重跨平台支持和高性能,而 .NET 5 在此基础上统一了 .NET 生态系统,增加了更多新特性和优化。开发者可根据具体需求选择合适的版本。
41 7
|
14天前
|
人工智能 开发框架 前端开发
C#/.NET/.NET Core技术前沿周刊 | 第 12 期(2024年11.01-11.10)
C#/.NET/.NET Core技术前沿周刊 | 第 12 期(2024年11.01-11.10)
|
14天前
|
开发框架 网络协议 .NET
C#/.NET/.NET Core优秀项目和框架2024年10月简报
C#/.NET/.NET Core优秀项目和框架2024年10月简报
|
13天前
|
人工智能 开发框架 安全
C#/.NET/.NET Core技术前沿周刊 | 第 13 期(2024年11.11-11.17)
C#/.NET/.NET Core技术前沿周刊 | 第 13 期(2024年11.11-11.17)
|
14天前
|
网络协议 Unix Linux
精选2款C#/.NET开源且功能强大的网络通信框架
精选2款C#/.NET开源且功能强大的网络通信框架
|
14天前
|
程序员 C# 图形学
全面的C#/.NET自学入门指南
全面的C#/.NET自学入门指南
|
2月前
|
JSON C# 开发者
C#语言新特性深度剖析:提升你的.NET开发效率
【10月更文挑战第15天】C#语言凭借其强大的功能和易用性深受开发者喜爱。随着.NET平台的演进,C#不断引入新特性,如C# 7.0的模式匹配和C# 8.0的异步流,显著提升了开发效率和代码可维护性。本文将深入探讨这些新特性,助力开发者在.NET开发中更高效地利用它们。
36 1
|
2月前
|
存储 消息中间件 NoSQL
Redis 入门 - C#.NET Core客户端库六种选择
Redis 入门 - C#.NET Core客户端库六种选择
62 8