阿里云基因公共数据集使用说明文档

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 基因常用参考注释文件、大型科研项目数据、以及最新测序平台标准等有价值的数据文件,分散且体量庞大,不利于传播和使用。以云的方式,我们建立集中开放的共享环境,免除数据重复下载和拷贝,同时借助阿里云的计算规模和产品技术,用户可以立刻开始分析研究工作。2019新型冠状病毒毒株数据已经上线,欢迎大家使用。

使用说明文档

在申请数据集权限之前请先登录阿里云账号,并申请加入BIO-IT计划,点击申请

ED323AF6-8F6C-438f-B8EC-5A70274B51E0.png

快速开始
浏览目前提供数据集列表,查看具体项目信息,并申请权限。在收到审批通过邮件后,就可以开始使用了。您可以在具体项目详情页面提供的文件浏览器中,查看数据集文件。

数据存储说明
阿里云基因公共数据集使用对象存储OSS产品作为底层存储,数据文件按照源站目录结构进行梳理和组织,并提供必要的索引文件和元数据文件来进行说明。如果有准确性问题,欢迎帮助我们反馈改进

项目数据同时存储在阿里云一个或者多个数据中心,以保证用户的就近访问。项目存储信息包括该数据集支持的可用区域(Region),存储桶(Bucket)和访问域名(Endpoint)。用户可以根据实际情况选择合适的存储访问域名。

存储信息
TB14qk3qAL0gK0jSZFxXXXWHVXa-692-548.png

注意:在存储信息支持以外的区域,或者通过外网访问域名下载数据时,标识有“请求者”付费的项目,用户会产生流量费用。

基因公共数据集计划为所有项目提供免费存储,数据文件由数据提供方或者管理者进行上传,更新和维护。

使用限制

访问权限
所有项目数据默认不对外开放,用户按照步骤加入Bio-IT计划后,才可以申请指定项目权限。对于非完全公开的项目,可能还需要提供额外的资料,用于数据所有者的单独审批。所有的在线申请阿里云会在2-3个工作日内处理,您也可以通过ali-genomics@alibabacloud.com联系我们。

地域限制
项目数据存储具有地域性。用户在不同的地点和环境下访问数据,将会存在访问速度,访问费用上的差异。 在阿里云环境内,如华北2(北京),通过ECS等阿里云计算产品来访问同一区域的项目数据,可使用内网的访问域名(oss-cn-beijing-internal.aliyuncs.com), 能够高速下载数据,并且不产生任何费用。 如果用户需要通过外网访问域名(oss-cn-beijing.aliyuncs.com),在项目不支持的区域或者环境下下载数据文件,速度将主要取决您的网络带宽。在存储信息中标有"请求者付费”标签时,产生的"下载流量费用",将由您使用的阿里云账号承担。

数据可用性限制
根据更新策略,基因公共数据集文件可能会不定期进行更新和维护。在经过阿里云和数据提供方共同讨论后,数据集项目也可能会对外停止服务。用户被要求使用前,加入阿里云Bio-IT计划,并提供正确的联系方式。在发生影响原有数据可用性的事件前,该项目的已有用户将会收到提前通知。

具体使用方法
除网页浏览外,用户可以使用任何支持对象存储OSS的访问工具或者计算服务来使用基因公共数据集文件

1.准备工作
用户账号AK信息,你可以登录阿里云控制台,查看或者创建AK信息
1.png

申请需要的数据集权限,并已经审批通过
2.png

查看数据集的存储信息,了解数据集支持的区域,存储桶,访问域名和请求者付费等信息。
3.png

注意:请充分了解数据集的地域限制,根据你使用的阿里云产品或服务,选择正确的存储桶和访问域名。

2.使用OSS工具访问数据
OSS Browser客户端
下载并安装OSS Browser, 填入AK信息,并且选择正确的Region,和Preset OSS Path, 点击Login后,查看和下载数据
11.png

**注意:标注有请求者付费的项目,需要勾选“请求者付费”的选项。
**

Ossutil命令行工具
根据您的操作系统选择对应版本的软件下载并配置ossutil, 以linux系统(64位)为例

$./ossutil64 config
$./ossutil64 ls -e oss-cn-beijing.aliyuncs.com -d oss://gatk-test-data/
$./ossutil64 cp -e oss-cn-beijing.aliyuncs.com -r oss://gatk-test-data/wgs_ubam/NA12878_20k/ ./
注意:标注有请求者付费的项目,需要提供加上 --payer=requester , 用于表示您需要为数据的外网下载流量付费。

$./ossutil64 cp -e oss-cn-beijing.aliyuncs.com --payer=requester -r oss://gatk-test-data/wgs_ubam/NA12878_20k/ ./

开发SDK
你可以选择指定开发语言的SDK,并且参考网站提供的样例代码来访问数据文件。

3.使用阿里云计算服务访问数据
阿里云的计算产品,都可以直接支持OSS访问,例如批量计算,EMR作业中,用户指定基因数据集文件作为作业输入即可。以GATK4的WDL流程所需的input.json为例,用户可以指定Broad参考基因组文件,和GATK测试数据集中的比对参考序列和Demo的WGS fastq数据文件的OSS URL作为输入。
{
“reference”: “oss://broad-references/hg38/v0/Homo_sapiens_assembly38.fasta”
“fq1”: “oss://gatk-test-data/wgs_fastq/NA12878_20k/H06HDADXX130110.2.ATCACGAT.20k_reads_1.fastq”
“fq2”: “oss://gatk-test-data/wgs_fastq/NA12878_20k/H06HDADXX130110.2.ATCACGAT.20k_reads_2.fastq”
}

服务条款
阿里云“按原样”提供数据集,对此不作任何明示或暗示的保证。对于使用该等数据集仍需获得其他权利人的许可或同意的,您应自行获取授权或同意。对于因使用数据集而导致的任何直接或间接损害, 不承担任何责任。

阿里云无法保证任意数据集项目的连续可用性。因数据提供方要求、监管政策变化、项目终止等多种因素的影响,可能无法继续提供服务。用户在加入申请项目使用权限时,知晓并同意这一说明。在单个数据集项目无法继续时,根据登记时提供的邮箱地址,用户将会收到正式通知,在15天的关闭期内,数据集文件可以继续访问。完全关闭后,将不再继续提供服务。

常见问题
Q:公共数据集数据来源?没有我需要的数据

A:阿里云基因行业公共数据集提供的项目,包括了阿里云托管的公开项目数据集,和数据提供方管理和维护的项目数据集。如果没有包含您认为有价值的数据项目,请反馈给我们。我们可以根据用户需求,可能在后续更新中引入。对于拥有项目数据的机构,阿里云提供必要的支持来满足双方的合作。

Q:**使用公共数据集的收费么?
**
A:基因公共数据集是由阿里云提供数据存储,并且免费提供给阿里云用户进行访问。当计算或者应用服务,和数据集存储信息中的区域一致,用户使用内网地址来访问数据文件,不会产生任何费用。但是需要注意的是,标识有“请求者付费”的数据集项目,用户在通过公网下载数据时,需要支付数据流量费用。

编者按:非常欢迎大家使用公共数据集,欢迎大家互相沟通交流。

任何问题,请直接扫码咨询:
二维码是.jpg

目录
相关文章
|
机器学习/深度学习 存储 数据采集
阿里云医学知识工程Metamed KE - 知识驱动智能应用
本文从医疗健康领域的知识需求、医疗知识工程、知识工程技术图谱建设、医学知识使用场景及案例四个维度来介绍阿里云医学知识工程Metamed KE 。
阿里云医学知识工程Metamed KE - 知识驱动智能应用
|
对象存储 Java 弹性计算
|
机器学习/深度学习 人工智能 安全
超长序列,超快预测!深势科技联手阿里云,AI蛋白质预测再下一城
强强联合,突破 AI 蛋白质预测模型推理性能瓶颈,支持最高 6.6k 长氨基酸序列蛋白质的预测计算,达到目前已知最优推理效果。
超长序列,超快预测!深势科技联手阿里云,AI蛋白质预测再下一城
|
弹性计算 负载均衡 容灾
阿里云服务器IP_弹性公网EIP详细介绍
阿里云弹性公网EIP是什么意思?EIP是可以独立持有的公网IP地址,EIP可以和阿里云专有网络VPC类型的云服务器ECS、NAT网关、ENI网卡、私网负载均衡SLB等绑定,通过EIP可以让你的实例在公网提供服务。
523 0
|
测试技术
Loadrunner 脚本录制-通过代理录制脚本
Loadrunner 脚本录制-通过代理录制脚本
440 0
|
存储 数据挖掘 Shell
GATK 软件分析流程
GATK 软件分析流程由阿里云和 Broad Institute 合作提供。Broad Institute 提供的 GATK 流程最佳实践用 工作流定义语言(WDL) 编写,通过批量计算集成的 Cromwell 工作流引擎解析执行。用户将为作业运行时实际消耗的计算和存储资源付费,不需要支付资源之外的附加费用。 Broad Institute GATK 网站和论坛为 GATK 工具和 WDL 提供了更完整的背景信息,文档和支持。 如果需要执行用 WDL 编写的通用工作流程,请参考 cromwell 工作流引擎和 WDL 支持的 APP 。
2251 0
GATK 软件分析流程
|
SQL XML 缓存
java中jsp详解!!!
JSP(Java Server Pages)是一种动态网页技术标准,允许在HTML页面中嵌入Java代码,实现网页逻辑与设计分离。JSP本质上是Servlet的简化,支持跨平台运行。JSP通过内置对象(如request、response、session等)和指令(如page、include、taglib)提供强大的功能,同时利用EL表达式和JSTL标签库简化页面开发。JSP的核心优势在于快速开发和维护Web应用。
678 0
硬件与固件的区别
硬件与固件的区别
939 0
|
人工智能 供应链 安全
万字讲透:军工企业数字化转型转什么,如何做?
随着国防现代化目标的提出,军工行业景气度加速上升,企业纷纷扩产以满足新型装备加速列装的需求。航天科工集团的航天云网和中国电科的“数字电科”等项目展示了数字化转型的成效,如缩短研发周期、提高生产效率和降低成本。数字化转型对军工企业至关重要,能提升生产关系、增强竞争力,并实现生产制造和供应链的智能化。然而,转型面临挑战,包括传统认知边界、商业模式创新、技术合作共享、人才短缺和观念体制障碍。企业需制定数字化战略规划,重构组织与流程,加强网络安全,并确保人才和技术保障。案例显示,低代码平台如织信Informat可助力企业实现国产化、灵活的战略部署和数字化转型。