函数计算帮助修改OSS文件前缀

本文涉及的产品
对象存储 OSS,20GB 3个月
函数计算FC,每月15万CU 3个月
对象存储 OSS,恶意文件检测 1000次 1年
简介: ## 背景 在从七牛云迁移数据到阿里云OSS的时候,有遇到客户的文件名前缀是以`/`开始的,例如`/abc/123.jpg`。这样的文件名在OSS上面是非法的,所以如果直接使用在线迁移服务是无法迁移成功。一般建议的方案是添加一个前缀,例如变成`new/abc/123.jpg`,这样可以解决迁移不了的问题。但是这样会引发另外一个问题,就是导致用户的文件路径变更。对于用户来说,可能涉及到改代码,

背景

在从七牛云迁移数据到阿里云OSS的时候,有遇到客户的文件名前缀是以/开始的,例如/abc/123.jpg。这样的文件名在OSS上面是非法的,所以如果直接使用在线迁移服务是无法迁移成功。一般建议的方案是添加一个前缀,例如变成new/abc/123.jpg,这样可以解决迁移不了的问题。但是这样会引发另外一个问题,就是导致用户的文件路径变更。对于用户来说,可能涉及到改代码,是一个额外的迁移成本。本文提供一个间接的方案,利用函数计算的能力,当文件被复制到OSS后,自动修改文件的名称,达到无缝迁移。

原理

arch.png

利用在线迁移服务将七牛的数据迁移到OSS,注意OSS这边要加上前缀tmp
利用函数计算,当发现指定Bucket有新建文件并且文件名以tmp开始的话,触发函数计算功能。
函数负责将文件名的tmp去掉。这里利用了OSS的copy和delete操作。
整个过程在同一个Bucket中发生。

执行步骤

关于在线迁移服务的部分,参考官网手册,这里不再作详细论述。下面直接从函数计算的配置入手。

一. 进入函数计算业务,选择新建函数。
新建函数.jpg

二. 配置函数,填入服务/函数等名字,运行环境选择python3,其他按照默认。
配置函数.jpg

三. 建立好之后会跳转到在线编辑页面。
IDE.jpg

把下面的代码复制到编辑框里面,完整覆盖原来的代码并保存。

import logging
import oss2
import json

def handler(event, context):
  logger = logging.getLogger()
  logger.info('start of the function')

  creds = context.credentials
  #获取当前的ak和as
  auth=oss2.StsAuth(
         creds.access_key_id,
         creds.access_key_secret,
         creds.security_token)

  #获取旧的路径名
  evt = json.loads(event)
  evt = evt['events'][0]
  object_name = evt['oss']['object']['key']
  logging.info('path is ' + object_name)
  if object_name.startswith('tmp') == False :
    #不是tmp开头的不处理
    return
  #去除掉tmp/
  if object_name.startswith('tmp/') :
    new_object_name = object_name[4:]
  else :
    new_object_name = object_name[3:] 

  #获取到事件触发的bucket
  bucket_name = evt['oss']['bucket']['name']
  endpoint = 'oss-' +  evt['region'] + '.aliyuncs.com'
  bucket = oss2.Bucket(auth, endpoint, bucket_name)
  logging.info('bucket name is ' + bucket_name)

  #复制文件之后再删除原文件
  bucket.copy_object(bucket_name, object_name, new_object_name)
  bucket.delete_object(object_name)
  
  return

四. 创建一个触发器。选择对象存储触发器,触发器名称自行创建。Bucket列表注意选择准备要上传文件的那个Bucket。触发事件选择 oss:ObjectCreated:PostObjectoss:ObjectCreated:PutObject。触发规则前缀那里,一定要输入tmp如果没有加入这个前缀,可能会引起额外的调用
trigger.jpg

五. 配置好触发器之后,还需要做一个权限设置,否则即使任务触发成功,也会因为没有权限,函数无法将文件复制成功。回到主界面,选择服务配置,然后修改
进入角色配置.jpg

往下到权限配置,这里需要创建一个新的角色。这里需要选择把 AliyunOSSFullAccessAliyunLogFullAccess 添加进去。

赋予角色.jpg

role.jpg

六. 权限配置好之后,整个配置就完成了。如果需要做多个Bucket的迁移,只需要重复第4步,在同一个函数上面多建立几个触发器,监测不同的Bucket即可。

验证方式

通过网页的方式上传文件到到tmp/目录下面的文件,该文件会被移动到根目录。
通过网页的方式上传文件到根目录,如果名字是以tmp开始的,会被去掉tmp几个字符。

由于引入了函数计算,所以迁移任务最后会报失败。这只是因为迁移服务要比对的文件都被我们重命名了,所以产生这样的报告,只要确保迁移的文件数量一致即可

故障排查

如果网页方式上传无效,没有触发任何效果,可能是权限配置没有设置正确,返回第五步检查一下。
如果网页方式上传生效,但是在线迁移没有触发效果,可能是触发器中,触发事件配置不正确,返回第四步检查一下。

相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
目录
相关文章
|
4月前
|
消息中间件 存储 Serverless
函数计算产品使用问题之怎么访问网络附加存储(NAS)存储模型文件
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
4月前
|
JavaScript Serverless 数据安全/隐私保护
函数计算产品使用问题之怎么动态设置.npmrc文件以配置私有仓库访问
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
3月前
|
消息中间件 弹性计算 关系型数据库
体验函数计算:高效处理多媒体文件的真实感受与实战总结
该方案在引导和文档方面做得较为详尽,仅在事件驱动机制部分略显简略。部署和代码示例实用,但需注意内存配置以避免超时。使用体验方面,函数计算表现出色,尤其在高并发场景下,显著提升了应用稳定性和成本效益。云产品如OSS、MNS等与函数计算配合流畅,ECS和RDS表现稳健。总体而言,这套方案弹性好、成本低,特别适合应对高并发或流量不确定的场景,值得推荐。
75 24
|
4月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之上传素材文件不在同一地域的OSS,怎么上传多张图片
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
48 1
|
4月前
|
存储 运维 Serverless
函数计算产品使用问题之OSS触发器是否可以只设置文件前缀
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
5月前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
1月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
4月前
|
存储 机器学习/深度学习 弹性计算
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
|
5月前
|
消息中间件 分布式计算 DataWorks
DataWorks产品使用合集之如何使用Python和阿里云SDK读取OSS中的文件
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。