利用云服务器完成一个简单基因家族分析

简介: 利用linux完成简单基因家族分析

前提:本人来自中国科学院大学,目前研一在读,利用云服务器学习linux系统,掌握生物信息学并且完成简单的基因家族分析,通过阿里云的官网了解到“飞天加速计划·高校学生在家实践”活动,了解了命令行的作用及linux系统的强大。

part1.云服务器的使用技巧

云服务器的使用十分简单便捷,随时随地都能打开电脑登录linux进行工作,甚至在手机上都能完成。也可以避免在电脑上装载虚拟机所带来的负荷。阿里云的云服务器使用起来相当方便快捷,只需更改密码,不需要其他多余的操作。在MAC电脑中利用终端ssh连接即可使用,非常的方便。这对我学习linux系统提供了极大的帮助,短短的两周完成几个生信小projects还是非常的有成就感。

part2.未来展望

随着后基因组时代的到来,处理各类基因组也成为了生物学科不可或缺的必要操作,生物信息也是一门大数据的整合学科,结合了计算机和生物知识,采集、处理数据时也离不开服务器的使用,帮助我们更快的分析数据,阿里云服务器解决了安装虚拟机复杂困难的问题,为广大学子提供了一个优秀学习平台。

part3.利用云服务器完成一个简单基因家族分析

基因家族的基因在物种之间都是比较保守的,通过基因家族分析可以得到某物种特有的基因家族,这些基因可能与该物种的某种特性有关,本文利用云服务器完成大豆、芝麻、拟南芥的基因家族分析。

1.linux生物学软件准备:conda、blast、seqtk

在官网中下载linux版本的anaconda后配置镜像源

vi .condarc配置镜像源
#利用conda下载blast和seqtk
conda install blast
conda install seqtk

2.完成一个简单基因家族分析

step1.通过文献网上下载拟南芥FAD4基因作为query.fasta,拟南芥、芝麻、大豆要比对的基因序列*.fasta

less atha.fasta  #/查找拟南芥基因名将相关FAD4基因提取出来作为query.fasta
cat atha.fasta gmax.fasta sind.fasta >all.fasta#将三个文件内容合并,一起与三个基因组进行比较

step2.blsat文库的构建

makeblastdb -dbtype prot -in all.fasta -out all

利用blsat进行局部比对

blastp -query query.fasta -db all -out blast.out -evalue 1e-10

step3.得到比对的结果blast.out,利用grep命令和awk命令从比对的结果中提取序列id

grep -v '#' blast.out|awk '$3>50&&$11<1e-30{print $2}'|sort|uniq>protein_ids.txt

step4.利用seqtk提取蛋白序列

seqtk subseq all.fasta protein_ids.txt>result.fasta

step5.将比对的结果从云服务拖到本地中,使用mega文件构建进化树

1.jpg

以上完成了一个简单基因家族的分析,可以在进化树中看到这几个基因与拟南芥的FAD4基因有着亲缘关系。





相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情:&nbsp;https://www.aliyun.com/product/ecs
相关文章
|
存储 监控 Java
【深度挖掘Java性能调优】「底层技术原理体系」深入探索Java服务器性能监控Metrics框架的实现原理分析(Counter篇)
【深度挖掘Java性能调优】「底层技术原理体系」深入探索Java服务器性能监控Metrics框架的实现原理分析(Counter篇)
412 0
|
8月前
|
存储 弹性计算 缓存
阿里云服务器ECS经济型、通用算力、计算型、通用和内存型选购指南及使用场景分析
本文详细解析阿里云ECS服务器的经济型、通用算力型、计算型、通用型和内存型实例的区别及适用场景,涵盖性能特点、配置比例与实际应用,助你根据业务需求精准选型,提升资源利用率并降低成本。
545 3
|
6月前
|
存储 弹性计算 运维
阿里云服务器全解析:ECS是什么、应用场景、租用流程及优缺点分析
阿里云ECS(Elastic Compute Service)是阿里云提供的高性能、高可用的云计算服务,支持弹性扩展、多样化实例类型和多种计费模式。适用于网站搭建、数据处理、运维测试等多种场景,具备分钟级交付、安全可靠、成本低、易运维等优势,是企业及开发者上云的理想选择。
918 5
|
10月前
|
存储 人工智能 项目管理
2025年GitHub平台上的十大开源MCP服务器汇总分析
本文深入解析了GitHub上十个代表性MCP(Model Context Protocol)服务器项目,探讨其在连接AI与现实世界中的关键作用。这些服务器实现了AI模型与应用程序、数据库、云存储、项目管理等工具的无缝交互,扩展了AI的应用边界。文中涵盖Airbnb、Supabase、AWS-S3、Kubernetes等领域的MCP实现方案,展示了AI在旅行规划、数据处理、云存储、容器编排等场景中的深度应用。未来,MCP技术将向标准化、安全性及行业定制化方向发展,为AI系统集成提供更强大的支持。
2307 2
2025年GitHub平台上的十大开源MCP服务器汇总分析
|
监控 算法 Java
【深度挖掘Java性能调优】「底层技术原理体系」深入探索Java服务器性能监控Metrics框架的实现原理分析(Gauge和Histogram篇)
【深度挖掘Java性能调优】「底层技术原理体系」深入探索Java服务器性能监控Metrics框架的实现原理分析(Gauge和Histogram篇)
316 0
|
监控 关系型数据库 MySQL
|
机器学习/深度学习 弹性计算 缓存
阿里云服务器经济型e实例与通用算力型u1实例对比分析与选择指南
在阿里云服务器的实例规格中,经济型e实例和通用算力型u1实例是很多个人和普通企业级用户常见的选择,经济型e实例与通用算力型u1实例的主要区别在于性能、应用场景及价格策略。本文将详细对比这两种实例的性能、应用场景及价格策略,以供参考。
|
人工智能 运维 Kubernetes
87cloud案例分析:阿里云国际服务器如何支持在线教育
87cloud案例分析:阿里云国际服务器如何支持在线教育
|
弹性计算 安全 Linux
阿里云国际版ECS云服务器ping不通的原因分析
阿里云国际版ECS云服务器ping不通的原因分析
|
存储 安全 算法
服务器数据恢复—Raid磁盘阵列的安全性分析及常见故障
出于尽可能避免数据灾难的设计初衷,RAID解决了3个问题:容量问题、IO性能问题、存储安全(冗余)问题。从数据恢复的角度讨论RAID的存储安全问题。 常见的起到存储安全作用的RAID方案有RAID1、RAID5及其变形。基本设计思路是相似的:当部分数据异常时,可通过特定算法将数据还原出来。以RAID5为例:如果要记录两个数字,可以通过再多记录这两个数字的和来达到记录冗余性的目的。例如记录3和5,同时再记录这2个数字的和8。在不记得到底是几和5的情况下,只需要用8-5就可以算出这个丢失的数字了,其余情况依此类推。