阿里云基因公共数据集使用说明文档

本文涉及的产品
对象存储 OSS,标准 - 本地冗余存储 20GB 3个月
对象存储OSS,敏感数据保护2.0 200GB 1年
对象存储 OSS,标准 - 同城冗余存储 20GB 3个月
简介: 基因常用参考注释文件、大型科研项目数据、以及最新测序平台标准等有价值的数据文件,分散且体量庞大,不利于传播和使用。以云的方式,我们建立集中开放的共享环境,免除数据重复下载和拷贝,同时借助阿里云的计算规模和产品技术,用户可以立刻开始分析研究工作。2019新型冠状病毒毒株数据已经上线,欢迎大家使用。

使用说明文档

在申请数据集权限之前请先登录阿里云账号,并申请加入BIO-IT计划,点击申请

ED323AF6-8F6C-438f-B8EC-5A70274B51E0.png

快速开始
浏览目前提供数据集列表,查看具体项目信息,并申请权限。在收到审批通过邮件后,就可以开始使用了。您可以在具体项目详情页面提供的文件浏览器中,查看数据集文件。

数据存储说明
阿里云基因公共数据集使用对象存储OSS产品作为底层存储,数据文件按照源站目录结构进行梳理和组织,并提供必要的索引文件和元数据文件来进行说明。如果有准确性问题,欢迎帮助我们反馈改进

项目数据同时存储在阿里云一个或者多个数据中心,以保证用户的就近访问。项目存储信息包括该数据集支持的可用区域(Region),存储桶(Bucket)和访问域名(Endpoint)。用户可以根据实际情况选择合适的存储访问域名。

存储信息
TB14qk3qAL0gK0jSZFxXXXWHVXa-692-548.png

注意:在存储信息支持以外的区域,或者通过外网访问域名下载数据时,标识有“请求者”付费的项目,用户会产生流量费用。

基因公共数据集计划为所有项目提供免费存储,数据文件由数据提供方或者管理者进行上传,更新和维护。

使用限制

访问权限
所有项目数据默认不对外开放,用户按照步骤加入Bio-IT计划后,才可以申请指定项目权限。对于非完全公开的项目,可能还需要提供额外的资料,用于数据所有者的单独审批。所有的在线申请阿里云会在2-3个工作日内处理,您也可以通过ali-genomics@alibabacloud.com联系我们。

地域限制
项目数据存储具有地域性。用户在不同的地点和环境下访问数据,将会存在访问速度,访问费用上的差异。 在阿里云环境内,如华北2(北京),通过ECS等阿里云计算产品来访问同一区域的项目数据,可使用内网的访问域名(oss-cn-beijing-internal.aliyuncs.com), 能够高速下载数据,并且不产生任何费用。 如果用户需要通过外网访问域名(oss-cn-beijing.aliyuncs.com),在项目不支持的区域或者环境下下载数据文件,速度将主要取决您的网络带宽。在存储信息中标有"请求者付费”标签时,产生的"下载流量费用",将由您使用的阿里云账号承担。

数据可用性限制
根据更新策略,基因公共数据集文件可能会不定期进行更新和维护。在经过阿里云和数据提供方共同讨论后,数据集项目也可能会对外停止服务。用户被要求使用前,加入阿里云Bio-IT计划,并提供正确的联系方式。在发生影响原有数据可用性的事件前,该项目的已有用户将会收到提前通知。

具体使用方法
除网页浏览外,用户可以使用任何支持对象存储OSS的访问工具或者计算服务来使用基因公共数据集文件

1.准备工作
用户账号AK信息,你可以登录阿里云控制台,查看或者创建AK信息
1.png

申请需要的数据集权限,并已经审批通过
2.png

查看数据集的存储信息,了解数据集支持的区域,存储桶,访问域名和请求者付费等信息。
3.png

注意:请充分了解数据集的地域限制,根据你使用的阿里云产品或服务,选择正确的存储桶和访问域名。

2.使用OSS工具访问数据
OSS Browser客户端
下载并安装OSS Browser, 填入AK信息,并且选择正确的Region,和Preset OSS Path, 点击Login后,查看和下载数据
11.png

**注意:标注有请求者付费的项目,需要勾选“请求者付费”的选项。
**

Ossutil命令行工具
根据您的操作系统选择对应版本的软件下载并配置ossutil, 以linux系统(64位)为例

$./ossutil64 config
$./ossutil64 ls -e oss-cn-beijing.aliyuncs.com -d oss://gatk-test-data/
$./ossutil64 cp -e oss-cn-beijing.aliyuncs.com -r oss://gatk-test-data/wgs_ubam/NA12878_20k/ ./
注意:标注有请求者付费的项目,需要提供加上 --payer=requester , 用于表示您需要为数据的外网下载流量付费。

$./ossutil64 cp -e oss-cn-beijing.aliyuncs.com --payer=requester -r oss://gatk-test-data/wgs_ubam/NA12878_20k/ ./

开发SDK
你可以选择指定开发语言的SDK,并且参考网站提供的样例代码来访问数据文件。

3.使用阿里云计算服务访问数据
阿里云的计算产品,都可以直接支持OSS访问,例如批量计算,EMR作业中,用户指定基因数据集文件作为作业输入即可。以GATK4的WDL流程所需的input.json为例,用户可以指定Broad参考基因组文件,和GATK测试数据集中的比对参考序列和Demo的WGS fastq数据文件的OSS URL作为输入。
{
“reference”: “oss://broad-references/hg38/v0/Homo_sapiens_assembly38.fasta”
“fq1”: “oss://gatk-test-data/wgs_fastq/NA12878_20k/H06HDADXX130110.2.ATCACGAT.20k_reads_1.fastq”
“fq2”: “oss://gatk-test-data/wgs_fastq/NA12878_20k/H06HDADXX130110.2.ATCACGAT.20k_reads_2.fastq”
}

服务条款
阿里云“按原样”提供数据集,对此不作任何明示或暗示的保证。对于使用该等数据集仍需获得其他权利人的许可或同意的,您应自行获取授权或同意。对于因使用数据集而导致的任何直接或间接损害, 不承担任何责任。

阿里云无法保证任意数据集项目的连续可用性。因数据提供方要求、监管政策变化、项目终止等多种因素的影响,可能无法继续提供服务。用户在加入申请项目使用权限时,知晓并同意这一说明。在单个数据集项目无法继续时,根据登记时提供的邮箱地址,用户将会收到正式通知,在15天的关闭期内,数据集文件可以继续访问。完全关闭后,将不再继续提供服务。

常见问题
Q:公共数据集数据来源?没有我需要的数据

A:阿里云基因行业公共数据集提供的项目,包括了阿里云托管的公开项目数据集,和数据提供方管理和维护的项目数据集。如果没有包含您认为有价值的数据项目,请反馈给我们。我们可以根据用户需求,可能在后续更新中引入。对于拥有项目数据的机构,阿里云提供必要的支持来满足双方的合作。

Q:**使用公共数据集的收费么?
**
A:基因公共数据集是由阿里云提供数据存储,并且免费提供给阿里云用户进行访问。当计算或者应用服务,和数据集存储信息中的区域一致,用户使用内网地址来访问数据文件,不会产生任何费用。但是需要注意的是,标识有“请求者付费”的数据集项目,用户在通过公网下载数据时,需要支付数据流量费用。

编者按:非常欢迎大家使用公共数据集,欢迎大家互相沟通交流。

任何问题,请直接扫码咨询:
二维码是.jpg

目录
相关文章
一劳永逸的方法解决:LNK1168无法打开 xxx.exe 进行写入 报错问题
一劳永逸的方法解决:LNK1168无法打开 xxx.exe 进行写入 报错问题
2064 2
|
4月前
|
Apache 开发工具 数据格式
OpenAI 重返开源!gpt-oss系列社区推理、微调实战教程到!
时隔N年,OpenAI开放模型权重啦!欢迎使用gpt-oss 系列,专为强大的推理、代理任务和多用途开发场景设计。
1217 0
|
存储 SQL 关系型数据库
MySQL 大表拆分
【9月更文挑战第13天】在 MySQL 中,为解决大数据量导致的性能问题,常采用表拆分策略,主要包括水平拆分和垂直拆分。水平拆分按规则将大表拆成多个小表,如范围划分(按时间或 ID)和哈希划分(按字段哈希值)。垂直拆分则按字段相关性拆分,减少表宽度。拆分需注意数据迁移、应用改造、索引优化及分布式事务处理等问题。实施前应充分评估和测试。
1091 8
|
10月前
|
人工智能 Cloud Native 虚拟化
小白学网络系列之---从物理网络到云网络
本文由阿里云技术服务部枫桥撰写,围绕物理网络和云网络的基础知识展开,强调网络在云计算中的重要性。文章首先介绍了OSI模型下的物理层、数据链路层、网络层、传输层和应用层,解释了各层的功能与作用。接着探讨了云网络的必要性及其核心技术,如VPC(虚拟私有网络)、Overlay和Underlay网络,并阐述了它们之间的协作关系。最后,文章分析了AI大模型浪潮下云网络的演进方向,包括高速RDMA网络架构、高性能集合通信库ACCL和高性能数据主动加载加速软件KSpeed等技术的应用,展示了云网络在支持大规模分布式AI训练中的关键作用。通过本文,读者可以深入了解从物理网络到云网络的技术演进及其未来发展趋势。
704 15
|
存储 机器学习/深度学习 数据采集
物联网 GE-PREDIX
GE-Predix 是通用电气(GE)推出的一个工业互联网平台,旨在通过连接机器、数据与人,实现工业资产的智能管理和优化。该平台支持从设备监控到预测性维护等多种应用,助力企业提升运营效率和创新能力。
1040 3
|
运维 资源调度 定位技术
【技术大图】手把手教你搭建生信分析高性能计算平台
生物医药行业产生PB级海量数据,需专业生信分析平台支持。本技术地图涵盖平台搭建全流程:从架构设计、关键技术解析,到标准化分析流程介绍及部署优化策略,助力IT团队高效构建生信算力平台。立即下载完整版!
518 1
|
人工智能 供应链 监控
人力资源数智化正当时,何以引领企业跨越人才管理新高度?
人力资源数智化正当时,何以引领企业跨越人才管理新高度?
713 0
人力资源数智化正当时,何以引领企业跨越人才管理新高度?
|
人工智能 大数据 网络虚拟化
引领开放 阿里云持续推动开源生态发展
阿里云基础设施网络承办了“SONiC技术与应用分论坛“暨”第二届SONiC社区中国区分论坛“,携手国内外行业精英,分享了围绕SONiC的实践和创新
|
存储 域名解析 缓存
【域名解析DNS专栏】DNS解析中的分布式哈希表(DHT)应用
【5月更文挑战第29天】为解决DNS性能瓶颈和单点故障问题,分布式哈希表(DHT)技术被引入DNS解析,以实现分布式存储和检索,提高可扩展性和鲁棒性。DHT应用于DNS解析,包括负载均衡与数据分发、缓存优化和安全性增强。示例代码展示了DHT基本概念,但实际应用更复杂,需考虑更多因素。
447 2
|
存储 TensorFlow API
深度学习系统设计(二)(5)
深度学习系统设计(二)
288 1