阿里云基因公共数据集使用说明文档

2020-02-12 2121

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

对象存储 OSS，OSS 加速器 50 GB 1个月

简介： 基因常用参考注释文件、大型科研项目数据、以及最新测序平台标准等有价值的数据文件，分散且体量庞大，不利于传播和使用。以云的方式，我们建立集中开放的共享环境，免除数据重复下载和拷贝，同时借助阿里云的计算规模和产品技术，用户可以立刻开始分析研究工作。2019新型冠状病毒毒株数据已经上线，欢迎大家使用。

使用说明文档

在申请数据集权限之前请先登录阿里云账号，并申请加入BIO-IT计划，点击申请

快速开始
浏览目前提供数据集列表，查看具体项目信息，并申请权限。在收到审批通过邮件后，就可以开始使用了。您可以在具体项目详情页面提供的文件浏览器中，查看数据集文件。

数据存储说明
阿里云基因公共数据集使用对象存储OSS产品作为底层存储，数据文件按照源站目录结构进行梳理和组织，并提供必要的索引文件和元数据文件来进行说明。如果有准确性问题，欢迎帮助我们反馈改进。

项目数据同时存储在阿里云一个或者多个数据中心，以保证用户的就近访问。项目存储信息包括该数据集支持的可用区域（Region），存储桶（Bucket）和访问域名（Endpoint）。用户可以根据实际情况选择合适的存储访问域名。

存储信息

注意：在存储信息支持以外的区域，或者通过外网访问域名下载数据时，标识有“请求者”付费的项目，用户会产生流量费用。

基因公共数据集计划为所有项目提供免费存储，数据文件由数据提供方或者管理者进行上传，更新和维护。

使用限制

访问权限
所有项目数据默认不对外开放，用户按照步骤加入Bio-IT计划后，才可以申请指定项目权限。对于非完全公开的项目，可能还需要提供额外的资料，用于数据所有者的单独审批。所有的在线申请阿里云会在2-3个工作日内处理，您也可以通过ali-genomics@alibabacloud.com联系我们。

地域限制
项目数据存储具有地域性。用户在不同的地点和环境下访问数据，将会存在访问速度，访问费用上的差异。在阿里云环境内，如华北2（北京），通过ECS等阿里云计算产品来访问同一区域的项目数据，可使用内网的访问域名(oss-cn-beijing-internal.aliyuncs.com), 能够高速下载数据，并且不产生任何费用。如果用户需要通过外网访问域名(oss-cn-beijing.aliyuncs.com)，在项目不支持的区域或者环境下下载数据文件，速度将主要取决您的网络带宽。在存储信息中标有"请求者付费”标签时，产生的"下载流量费用"，将由您使用的阿里云账号承担。

数据可用性限制
根据更新策略，基因公共数据集文件可能会不定期进行更新和维护。在经过阿里云和数据提供方共同讨论后，数据集项目也可能会对外停止服务。用户被要求使用前，加入阿里云Bio-IT计划，并提供正确的联系方式。在发生影响原有数据可用性的事件前，该项目的已有用户将会收到提前通知。

具体使用方法
除网页浏览外，用户可以使用任何支持对象存储OSS的访问工具或者计算服务来使用基因公共数据集文件

1.准备工作
用户账号AK信息，你可以登录阿里云控制台，查看或者创建AK信息

申请需要的数据集权限，并已经审批通过

查看数据集的存储信息，了解数据集支持的区域，存储桶，访问域名和请求者付费等信息。

注意：请充分了解数据集的地域限制，根据你使用的阿里云产品或服务，选择正确的存储桶和访问域名。

2.使用OSS工具访问数据
OSS Browser客户端
下载并安装OSS Browser, 填入AK信息，并且选择正确的Region，和Preset OSS Path, 点击Login后，查看和下载数据

**注意：标注有请求者付费的项目，需要勾选“请求者付费”的选项。
**

Ossutil命令行工具
根据您的操作系统选择对应版本的软件下载并配置ossutil, 以linux系统（64位）为例

$./ossutil64 config
$./ossutil64 ls -e oss-cn-beijing.aliyuncs.com -d oss://gatk-test-data/
$./ossutil64 cp -e oss-cn-beijing.aliyuncs.com -r oss://gatk-test-data/wgs_ubam/NA12878_20k/ ./
注意：标注有请求者付费的项目，需要提供加上 --payer=requester , 用于表示您需要为数据的外网下载流量付费。

$./ossutil64 cp -e oss-cn-beijing.aliyuncs.com --payer=requester -r oss://gatk-test-data/wgs_ubam/NA12878_20k/ ./

开发SDK
你可以选择指定开发语言的SDK，并且参考网站提供的样例代码来访问数据文件。

3.使用阿里云计算服务访问数据
阿里云的计算产品，都可以直接支持OSS访问，例如批量计算，EMR作业中，用户指定基因数据集文件作为作业输入即可。以GATK4的WDL流程所需的input.json为例，用户可以指定Broad参考基因组文件，和GATK测试数据集中的比对参考序列和Demo的WGS fastq数据文件的OSS URL作为输入。
{
“reference”: “oss://broad-references/hg38/v0/Homo_sapiens_assembly38.fasta”
“fq1”: “oss://gatk-test-data/wgs_fastq/NA12878_20k/H06HDADXX130110.2.ATCACGAT.20k_reads_1.fastq”
“fq2”: “oss://gatk-test-data/wgs_fastq/NA12878_20k/H06HDADXX130110.2.ATCACGAT.20k_reads_2.fastq”
}

服务条款
阿里云“按原样”提供数据集，对此不作任何明示或暗示的保证。对于使用该等数据集仍需获得其他权利人的许可或同意的，您应自行获取授权或同意。对于因使用数据集而导致的任何直接或间接损害，不承担任何责任。

阿里云无法保证任意数据集项目的连续可用性。因数据提供方要求、监管政策变化、项目终止等多种因素的影响，可能无法继续提供服务。用户在加入申请项目使用权限时，知晓并同意这一说明。在单个数据集项目无法继续时，根据登记时提供的邮箱地址，用户将会收到正式通知，在15天的关闭期内，数据集文件可以继续访问。完全关闭后，将不再继续提供服务。

常见问题
Q：公共数据集数据来源？没有我需要的数据

A：阿里云基因行业公共数据集提供的项目，包括了阿里云托管的公开项目数据集，和数据提供方管理和维护的项目数据集。如果没有包含您认为有价值的数据项目，请反馈给我们。我们可以根据用户需求，可能在后续更新中引入。对于拥有项目数据的机构，阿里云提供必要的支持来满足双方的合作。

Q：**使用公共数据集的收费么？
**
A：基因公共数据集是由阿里云提供数据存储，并且免费提供给阿里云用户进行访问。当计算或者应用服务，和数据集存储信息中的区域一致，用户使用内网地址来访问数据文件，不会产生任何费用。但是需要注意的是，标识有“请求者付费”的数据集项目，用户在通过公网下载数据时，需要支付数据流量费用。

编者按：非常欢迎大家使用公共数据集，欢迎大家互相沟通交流。

任何问题，请直接扫码咨询：
二维码是.jpg

阿里云基因公共数据集使用说明文档

阿里云基因组学

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

阿里云基因公共数据集使用说明文档

阿里云基因组学

热门文章

最新文章

相关电子书