PDFToText with ITextSharp--Extract text from PDF in C# (100% .NET)(推荐)

简介:
using  System;
using  System.IO;
using  iTextSharp.text.pdf;

namespace  PdfToText
{
    
/// <summary>
    
/// Parses a PDF file and extracts the text from it.
    
/// </summary>

    public class PDFParser 
    
{
        
/// BT = Beginning of a text object operator 
        
/// ET = End of a text object operator
        
/// Td move to the start of next line
        
///  5 Ts = superscript
        
/// -5 Ts = subscript


        
Fields

        
ExtractText

        
ExtractTextFromPDFBytes

        
CheckToken
    }

}


usage:
using  System;
using  System.Text;
using  System.IO;

namespace  PdfToText
{
    
/// <summary>
    
/// The main entry point to the program.
    
/// </summary>

    class Program
    
{
        
static void Main(string[] args)
        
{
            
try
            
{
                
if (args.Length < 1)
                
{
                    DisplayUsage();
                    
return;
                }


                
string file = args[0];
                
if (!File.Exists(file))
                
{
                    file 
= Path.GetFullPath(file);
                    
if (!File.Exists(file))
                    
{
                        Console.WriteLine(
"Please give in the path to the PDF file.");
                    }

                }


                PDFParser pdfParser 
= new PDFParser();
                pdfParser.ExtractText(file, Path.GetFileNameWithoutExtension(file)
+".txt");
            }

            
catch (Exception exc)
            
{
                Console.WriteLine(exc);
            }

        }


        
static void DisplayUsage()
        
{
            Console.WriteLine();
            Console.WriteLine(
"Usage:\tpdftotext FILE");
            Console.WriteLine();
            Console.WriteLine(
"\tFILE\t the path to the PDF file, it may be relative or absolute.");
            Console.WriteLine();
        }

    }

}


问题,不支持中文,没有布局,仅仅是把每页的所以文字抽取出来,如果想真正实现PDFtoTxt,仍然有好多路要走,但毕竟是个好的开始。

from http://www.codeproject.com/useritems/PDFToText.asp
 

本文转自 RubyPdf 的中文博客博客园博客,原文链接: http://www.cnblogs.com/hardrock/archive/2006/06/16/427112.html /,如需转载请自行联系原作者
相关文章
|
Java 物联网 C#
C#/.NET/.NET Core学习路线集合,学习不迷路!
C#/.NET/.NET Core学习路线集合,学习不迷路!
473 0
|
7月前
|
SQL 小程序 API
如何运用C#.NET技术快速开发一套掌上医院系统?
本方案基于C#.NET技术快速构建掌上医院系统,结合模块化开发理念与医院信息化需求。核心功能涵盖用户端的预约挂号、在线问诊、报告查询等,以及管理端的排班管理和数据统计。采用.NET Core Web API与uni-app实现前后端分离,支持跨平台小程序开发。数据库选用SQL Server 2012,并通过读写分离与索引优化提升性能。部署方案包括Windows Server与负载均衡设计,确保高可用性。同时针对API差异、数据库老化及高并发等问题制定应对措施,保障系统稳定运行。推荐使用Postman、Redgate等工具辅助开发,提升效率与质量。
290 0
|
11月前
|
开发框架 搜索推荐 算法
一个包含了 50+ C#/.NET编程技巧实战练习教程
一个包含了 50+ C#/.NET编程技巧实战练习教程
337 18
|
11月前
|
缓存 算法 安全
精选10款C#/.NET开发必备类库(含使用教程),工作效率提升利器!
精选10款C#/.NET开发必备类库(含使用教程),工作效率提升利器!
361 12
|
11月前
|
开发框架 人工智能 .NET
C#/.NET/.NET Core拾遗补漏合集(24年12月更新)
C#/.NET/.NET Core拾遗补漏合集(24年12月更新)
175 6
|
11月前
|
开发框架 算法 .NET
C#/.NET/.NET Core技术前沿周刊 | 第 15 期(2024年11.25-11.30)
C#/.NET/.NET Core技术前沿周刊 | 第 15 期(2024年11.25-11.30)
180 6
|
11月前
|
开发框架 Cloud Native .NET
C#/.NET/.NET Core技术前沿周刊 | 第 16 期(2024年12.01-12.08)
C#/.NET/.NET Core技术前沿周刊 | 第 16 期(2024年12.01-12.08)
180 6
|
11月前
|
开发框架 监控 .NET
C#进阶-ASP.NET WebForms调用ASMX的WebService接口
通过本文的介绍,希望您能深入理解并掌握ASP.NET WebForms中调用ASMX WebService接口的方法和技巧,并在实际项目中灵活运用这些技术,提高开发效率和应用性能。
705 5
|
11月前
|
算法 Java 测试技术
Benchmark.NET:让 C# 测试程序性能变得既酷又简单
Benchmark.NET是一款专为 .NET 平台设计的性能基准测试框架,它可以帮助你测量代码的执行时间、内存使用情况等性能指标。它就像是你代码的 "健身教练",帮助你找到瓶颈,优化性能,让你的应用跑得更快、更稳!希望这个小教程能让你在追求高性能的路上越走越远,享受编程带来的无限乐趣!
547 13
|
Java 物联网 编译器
C#一分钟浅谈:.NET Core 与 .NET 5 区别
本文对比了 .NET Core 和 .NET 5,从历史背景、主要区别、常见问题及易错点等方面进行了详细分析。.NET Core 侧重跨平台支持和高性能,而 .NET 5 在此基础上统一了 .NET 生态系统,增加了更多新特性和优化。开发者可根据具体需求选择合适的版本。
466 7

热门文章

最新文章

下一篇
oss云网关配置