文档备案控制台

开发者社区云计算文章正文

使用流式下载从阿里OSS获取PDF文件时，确保正确处理输入流的读取。

2023-10-09 586

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

对象存储 OSS，OSS 加速器 50 GB 1个月

简介： 使用流式下载从阿里OSS获取PDF文件时，确保正确处理输入流的读取。

根据您提供的代码和错误信息，问题可能出在输入流的读取上。当使用流式下载从阿里OSS获取PDF文件时，确保正确处理输入流的读取。

以下是一种可能的解决方案：
GetObjectRequest getObjectRequest = new GetObjectRequest(bucketName, key);
// 获取OSSObject实例
OssObject ossObject = client.getObject(getObjectRequest);
// 获取输入流
InputStream inputStream = ossObject.getObjectContent();

try {
// 将输入流保存为临时文件
File tempFile = File.createTempFile("temp", ".pdf");
FileOutputStream outputStream = new FileOutputStream(tempFile);
byte[] buffer = new byte[1024];
int bytesRead;
while ((bytesRead = inputStream.read(buffer)) != -1) {
outputStream.write(buffer, 0, bytesRead);
}
outputStream.close();

// 使用PDFBox读取临时文件
PDDocument load = PDDocument.load(tempFile);
// 后续操作...

} catch (IOException e) {
e.printStackTrace();
} finally {
// 关闭输入流
inputStream.close();
}述代码将输入流保存为临时文件，然后使用PDFBox读取该临时文件。这样可以避免直接在输入流上进行操作时出现的错误。

请注意，由于临时文件可能会占用磁盘空间，并且需要手动删除，请根据您的具体需求和环境进行调整。

希望以上解决方案对您有帮助，如果还有其他问题，请随时提问！

文章标签：

对象存储

对象存储

关键词：

PDF文件

对象存储文件

下载PDF

PDF下载

下载对象存储文件

相关实践学习

对象存储OSS快速上手——如何使用ossbrowser

本实验是对象存储OSS入门级实验。通过本实验，用户可学会如何用对象OSS的插件，进行简单的数据存、查、删等操作。

sunrr

目录

相关文章

一个幽默的程序员

|

存储 JSON API

如何将 Swagger 文档导出为 PDF 文件

你会发现自己可能需要将 Swagger 文档导出为 PDF 或文件，以便于共享和存档。在这篇博文中，我们将指导你完成将 Swagger 文档导出为 PDF 格式的过程。

一个幽默的程序员

1365 0 0

老乡别走

|

11月前

|

C#

【PDF提取内容改名】批量提取PDF指定区域内容重命名PDF文件，PDF自动提取内容命名的方案和详细步骤

本工具可批量提取PDF中的合同编号、日期、发票号等关键信息，支持PDF自定义区域提取并自动重命名文件，适用于合同管理、发票处理、文档归档和数据录入场景。基于iTextSharp库实现，提供完整代码示例与百度、腾讯网盘下载链接，助力高效处理PDF文档。

老乡别走

1464 40 40

34789737

|

人工智能文字识别自然语言处理

熊猫 OCR 识别软件下载，支持截图 OCR、PDF 识别、多语言翻译的免费全能工具，熊猫OCR识别

本文介绍了几款实用的图文识别软件，包括熊猫OCR、Umi-OCR和天若OCR_本地版。熊猫OCR功能强大，支持多窗口操作、AI找图找色、OCR识别等；Umi-OCR免费且高效，具备截图OCR、批量处理等功能；天若OCR界面简洁，适合快速文字识别。文章还提供了下载链接及软件特点、界面展示等内容，便于用户根据需求选择合适的工具。

34789737

1492 36 37

鱼的爱情看不出泪水

|

11月前

|

编译器 Python

如何利用Python批量重命名PDF文件

本文介绍了如何使用Python提取PDF内容并用于文件重命名。通过安装Python环境、PyCharm编译器及Jupyter Notebook，结合tabula库实现PDF数据读取与处理，并提供代码示例与参考文献。

鱼的爱情看不出泪水

451 1 1

Undoom

|

人工智能算法安全

使用CodeBuddy实现批量转换PPT、Excel、Word为PDF文件工具

通过 CodeBuddy 实现本地批量转换工具，让复杂的文档处理需求转化为 “需求描述→代码生成→一键运行” 的极简流程，真正实现 “技术为效率服务” 的目标。感兴趣的快来体验下把

Undoom

911 10 10

啦啦啦191

|

存储安全算法

Java 集合面试题 PDF 下载及高频考点解析

本文围绕Java集合面试题展开，详细解析了集合框架的基本概念、常见集合类的特点与应用场景。内容涵盖`ArrayList`与`LinkedList`的区别、`HashSet`与`TreeSet`的对比、`HashMap`与`ConcurrentHashMap`的线程安全性分析等。通过技术方案与应用实例，帮助读者深入理解集合类的特性和使用场景，提升解决实际开发问题的能力。文末附带资源链接，供进一步学习参考。

啦啦啦191

322 4 4

小白学大数据

|

数据采集存储 API

Python爬虫结合API接口批量获取PDF文件

Python爬虫结合API接口批量获取PDF文件

小白学大数据

1038 0 0

蚝油菜花

|

人工智能编解码文字识别

OCRmyPDF：16.5K Star！快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具

OCRmyPDF 是一款开源命令行工具，专为将扫描的 PDF 文件转换为可搜索、可复制的文档。支持多语言、图像优化和多核处理。

蚝油菜花

1555 17 17

OCRmyPDF：16.5K Star！快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具

蚝油菜花

|

机器学习/深度学习人工智能文字识别

Zerox：AI驱动的万能OCR工具，精准识别复杂布局并输出Markdown格式，支持PDF、DOCX、图片等多种文件格式

Zerox 是一款开源的本地化高精度OCR工具，基于GPT-4o-mini模型，支持PDF、DOCX、图片等多种格式文件，能够零样本识别复杂布局文档，输出Markdown格式结果。

蚝油菜花

1790 4 4

Zerox：AI驱动的万能OCR工具，精准识别复杂布局并输出Markdown格式，支持PDF、DOCX、图片等多种文件格式

老乡别走

|

文字识别 Serverless 开发工具

【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名

学校和教育机构常需处理成绩单、报名表等PDF文件。通过OCR技术，可自动提取学生信息并录入Excel，便于统计分析和存档管理。本文介绍使用阿里云服务实现批量OCR识别、内容提取、重命名及导出表格的完整步骤，包括开通相关服务、编写代码、部署函数计算和设置自动化触发器等。提供Python示例代码和详细操作指南，帮助用户高效处理PDF文件。链接： - 百度网盘：[链接](https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866) - 腾讯网盘：[链接](https://share.weiyun.com/a77jklXK)

老乡别走

2672 5 5

热门文章

最新文章

撒花！《神经网络与深度学习》中文教程正式开源！全书 pdf、ppt 和代码一同放出

Java操作wkhtmltopdf实现Html转PDF

【2016阿里安全峰会】电子取证：静静聆听那些真相【附PDF下载】

AI工程师必读的10本ML读物（附PDF下载）

20行Python代码教你批量将PDF文件转为Word格式

PDF文档打印问题

wkhtmltopdf工具将网站转换成pdf或图片

java 使用itextpdf分割pdf文件，pdf分页

Vue 结合html2canvas和jsPDF实现html页面转pdf

csdn 《程序员》杂志2011年第4期.pdf 下载链接。

阿里云渠道商：OSS与传统存储系统的差异在哪里？

阿里云对象存储OSS收费标准：存储费、流量价格及不同计费模式全解析

金融保险行业客户配置OSS公共读引发数据泄漏风险

10分钟零代码，0元立即部署OpenAI开源模型 GPT-OSS

如何使用CDN加速访问OSS存储的图片资源？

如何创建、修改和删除OSS加速器？

什么是OSS加速器？

如何用阿里云OSS对图片和视频进行数据处理？

如何利用阿里云OSS进行图片和视频处理？

阿里云国际站OSS与自建存储的区别

相关课程

更多

对象存储OSS的云上可观测能力最佳实践

基于FC+NAS部署SD服务，并从OSS模型库下载模型文件

相关电子书

更多

对象存储实战指南-试读

OpenAnolis 龙蜥操作系统开源社区技术创新白皮书

使用CNFS搭建弹性Web服务

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！