OSS数据处理最佳实践--文档预览

本文涉及的产品
对象存储 OSS,20GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
阿里云盘企业版 CDE,企业版用户数5人 500GB空间
简介: 阿里云存储开放的数据湖体系引入众多计算引擎。通过阿里云智能媒体管理产品,对象存储OSS面向视频处理应用,图像处理应用,文档处理应用开放了接入能力。这里帮助大家快速讲解如果实现OSS上offcie文档预览。

前言

当前整个企业级数据管理市场面临着数字化转型,如何更好的管理数据、挖掘非结构化数据(专业文档、视频、图像等)的价值是当前企业需要解决的问题。

阿里云存储开放的数据湖体系引入众多计算引擎。通过阿里云智能媒体管理产品,对象存储OSS面向视频处理应用,图像处理应用,文档处理应用开放了接入能力。目前通过智能媒体管理支持图像识别、人脸检测、视频截帧、图片处理、文档预览、文本检索等多项数据处理能力,为上层应用提供强有力的支持。

框架介绍

menu_saveimg_savepath20190212105023

阿里云OSS为在云上的数据打通了一个处理与使用的快速通道。通过简单的 RESTful 接口,可以在任何时间、任何地点、任何互联网设备上对存储在OSS中的数据进行分析处理。

数据处理包含以下两种:

  • 阿里云OSS原生处理服务
    阿里云OSS原生处理服务包括图片处理和视频截帧,其中图片处理包括图片的缩略、剪裁、参数调节等, OSS原生处理服务无需开通,默认集成在OSS中,创建完Bucket后即可使用。产生的数据处理费用直接在OSS上结算。
  • 智能媒体管理服务
    阿里云OSS与智能媒体管理(IMM)深度结合,支持文档预览、文档格式转换、人脸识别、图片分析、二维码识别等丰富的数据分析处理操作。

操作示例:当操作用于即时处理返回结果时,可以采用GET方式触发。参数在QueryString中传递。如:http://image-demo.oss-cn-hangzhou.aliyuncs.com/example.jpg?x-oss-process=image/circle,r_100 (该请求是Public请求,无需签名。部分操作必须通过进行签名后才能进行操作。)

文档预览实践

这里实现OSS上面的文档预览来快速帮助大家体验整个流程。当前的文档预览支持主要的office系列格式。

步骤1:开通相关产品

实现文档预览主要依赖于外部的智能媒体管理,将其作为插件接入到OSS进行使用。

  • 开通对象存储OSS:点击这里
  • 开通智能媒体管理:点击这里
  • 开通智能媒体管理后,进入管理控制台,会弹窗提示授权 IMM 访问 OSS 的相关权限。这里点击同意;
    154762710433934_zh_CN_source

步骤2:创建 或进入OSS Bucket

在北京、杭州、上海、深圳区域选择已有Bucket(智能媒体管理处理插件功能仅上述区域支持)。
如果还没有Bucket,创建标准存储类型即可:

menu_saveimg_savepath20190212112210

步骤3:绑定智能媒体管理

menu_saveimg_savepath20190212112457

进入 智能媒体 管理栏,如果是初次使用,可以点击 批量创建 按钮,勾选 文档预览 选择框。即绑定完成。
通过 批量创建 会帮助默认创建一个智能媒体管理项目,然后与该Bucket绑定。如果需要绑定现有的项目,或者解绑,可以点击绑定后的 设置 进行选择调整。

步骤4:实践使用

方式一:控制台直接查看

menu_saveimg_savepath20190212114344

进入控制台 文件管理 栏,点击任何office系列文档即能立即在线预览。

方式二:SDK方式调用

154754499133931_zh_CN

  1. 客户端向服务端发起预览请求,并提供要预览的文件。
  2. 服务端根据请求文件进行 URL 签名,将签名完成的 URL 提供给客户端。
  3. 客户端拿到签名后直接访问 OSS 查看文件。

服务端签名生成预览URL的代码如下:

# 创建存储空间实例,所有文件相关的方法都需要通过存储空间实例来调用。
bucket = oss2.Bucket(oss2.Auth(access_key_id, access_key_secret), endpoint, bucket_name)
# 文档预览,获取signURL。
process = 'imm/previewdoc,copy_1'
params = {}
params.update({bucket.PROCESS: process})
url = bucket.sign_url("GET", objectKey, 3600, params=params)
#打印结果
print url

更多数据处理能力

更多数据处理,点击查看

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
目录
相关文章
|
JavaScript 对象存储
在阿里云OpenAPI 为什么oss 图片链接, 在浏览器访问直接下载了,不是预览呢?
在阿里云OpenAPI 为什么oss 图片链接, 在浏览器访问直接下载了,不是预览呢?
1349 1
|
21天前
|
分布式计算 DataWorks 数据处理
"DataWorks高级技巧揭秘:手把手教你如何在PyODPS节点中将模型一键写入OSS,实现数据处理的完美闭环!"
【10月更文挑战第23天】DataWorks是企业级的云数据开发管理平台,支持强大的数据处理和分析功能。通过PyODPS节点,用户可以编写Python代码执行ODPS任务。本文介绍了如何在DataWorks中训练模型并将其保存到OSS的详细步骤和示例代码,包括初始化ODPS和OSS服务、读取数据、训练模型、保存模型到OSS等关键步骤。
55 3
|
2月前
|
负载均衡 Java 对象存储
负载均衡策略:Spring Cloud与Netflix OSS的最佳实践
负载均衡策略:Spring Cloud与Netflix OSS的最佳实践
49 2
|
2月前
|
编解码 对象存储 云计算
对象存储 OSS 文档体验有奖评测活动来啦,一起来完成场景体验吧
诚邀对象存储OSS用户参与文档体验评测!活动时间:8月20日至9月25日。完成3 个场景的体验评测并提供真实评分、问题说明/改进建议及体验视频,即可获得200元现金奖励。详情及流程请见活动页面与钉群通知。名额有限,速来参加!
128 4
|
4月前
|
存储 JSON 自然语言处理
OSS数据源一站式RAG最佳实践
本文介绍了如何使用OpenSearch LLM智能问答版通过OSS数据源一站式构建RAG系统。
7161 11
|
6月前
|
存储 对象存储 C++
在 VS Code 中使用 OSS 进行 Markdown 文档编写
阿里云OSS对象存储服务是理想的存储解决方案,专门用于承载大量非结构化数据。在VSCode中编写Markdown文档时,手动上传图片至OSS并获取相应链接的过程通常复杂且耗时。为此,Aliyun OSS Uploader插件应运而生,以简化和优化此流程。它不仅能够自动将图片上传到OSS并生成可供插入的链接,还能在您需要时通过撤回链接,删除已上传的图片,极大地提升了效率和便捷性。
|
6月前
|
Java API 对象存储
对象存储OSS产品常见问题之使用Spring Cloud Alibaba情况下文档添加水印如何解决
对象存储OSS是基于互联网的数据存储服务模式,让用户可以安全、可靠地存储大量非结构化数据,如图片、音频、视频、文档等任意类型文件,并通过简单的基于HTTP/HTTPS协议的RESTful API接口进行访问和管理。本帖梳理了用户在实际使用中可能遇到的各种常见问题,涵盖了基础操作、性能优化、安全设置、费用管理、数据备份与恢复、跨区域同步、API接口调用等多个方面。
100 2
|
6月前
|
存储 Cloud Native Serverless
云原生最佳实践系列 7:基于 OSS Object FC 实现非结构化文件实时处理
阿里云OSS对象存储方案利用函数计算FC,在不同终端请求时实时处理OSS中的原图,减少衍生图存储,降低成本。
|
6月前
|
分布式计算 DataWorks 搜索推荐
DataWorks操作报错合集之DataWorks我做简单的用户画像,根据文档的例子,连接 OSS 时遇到连接问题,如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
6月前
|
存储 运维 监控
运维编排最佳实践:将运维编排任务执行记录投递到OSS/SLS
运维编排服务(Operation Orchestration Service),简称OOS,是全面、免费的云上自动化运维平台,提供运维任务的管理和执行。典型使用场景包括:事件驱动运维,批量操作运维,定时运维任务,跨地域运维等,OOS为重要运维场景提供审批,通知等功能。OOS帮您实现标准化运维任务,从...
运维编排最佳实践:将运维编排任务执行记录投递到OSS/SLS

相关产品

  • 对象存储