Fastq BAM VCF

简介: Fastq BAM VCF

生信分析的旅程大致是,接收fastq,获得bam,然后vcf

微信截图_20230606144045.pngFASTQ文件是什么?通常人们会拿着DNA的碎纸片,由碎纸片扫描的图片文件,转化成文本文件就是FASTQ

微信截图_20230606144112.png产生这些小拼图文件之后,这些拼图与盒子上的参考图会有不同吗? 当然会啦,这张图片毕竟只是个参考啦 人与人之间存在许多差异,这些差异解释了为什么有的人容易得某种癌症,有的人对一些药物有反应,而另一些人没有反应 找寻差异的过程也使生信分析变得更加有趣


BAM文件是什么?

把FASTQ文件比对到参考基因组之后,我们得到SAM或者BAM。BAM就是SAM的二进制文件。SAM是纯文本文件,十分巨大。为解决空间爆满的问题,BWA的开发者设计了一种高效的压缩算法,压缩得到的BAM文件大小差不多只有原来的1/6

BAM文件分为两个部分:头文件(header)和比对结果(record,有时也叫alignment section) 头文件:每一行都用 @ 符号开头,里面主要包含了版本信息,序列比对的参考序列信息 比对结果:BAM的核心,包含以下几个内容

微信截图_20230606144140.png

VCF文件分为两个部分,第一部分是说明文件,每行均以两个## 符号开头,第二部分是突变信息

微信截图_20230606144211.png这样我们就可以解释倒数第四行的内容: 20:17330 是一个新发现的由T到A的变异,但质量值较低(QUAL=3),根据说明文件的第十三行,质量值小于10,被标成了 q10 ,在后续分析中可以被过滤掉 其它行代表什么信息,大家感兴趣的话也可以试着翻译翻译

FASTQ记录原始序列和测序质量,BAM记录序列比对信息,VCF记录变异信息

相关文章
|
5月前
|
人工智能 分布式计算 运维
阿里云携手 MiniMax 构建云原生数仓最佳实践:大模型时代的 Data + AI 数据处理平台
MiniMax 是全球领先的通用人工智能公司,致力于推动AGI发展。依托自研多模态大模型,服务超200国1.57亿用户及5万企业客户。携手阿里云构建云原生数仓与Data+AI平台,实现数据高效处理、成本大幅降低,支撑全球业务高速迭代与AI创新落地。
1068 107
|
开发框架 .NET API
RESTful API 设计与实现:C# 开发者的一分钟入门
【10月更文挑战第5天】本文从零开始,介绍了如何使用 C# 和 ASP.NET Core 设计并实现一个简单的 RESTful API。首先解释了 RESTful API 的概念及其核心原则,然后详细说明了设计 RESTful API 的关键步骤,包括资源识别、URI 设计、HTTP 方法选择、状态码使用和错误处理。最后,通过一个用户管理 API 的示例,演示了如何创建项目、定义模型、实现控制器及运行测试,帮助读者掌握 RESTful API 的开发技巧。
761 7
|
人工智能 自然语言处理 API
UI-TARS:字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型
UI-TARS 是字节跳动推出的新一代原生图形用户界面(GUI)代理模型,支持跨平台自动化交互,具备强大的感知、推理、行动和记忆能力,能够通过自然语言指令完成复杂任务。
3580 16
UI-TARS:字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型
|
存储 弹性计算 固态存储
阿里云服务器4核32G配置多少钱?我们应该如何选择?
阿里云服务器4核32G配置有多达十几种实例规格可选,不同实例规格的收费标准不一样,本文介绍了4核32G配置可选实例规格和最新收费标准及活动价格,可供大家了解阿里云服务器4核32G配置多少钱以及选择建议。
阿里云服务器4核32G配置多少钱?我们应该如何选择?
|
Rust Python
Python 解析 toml 配置文件
Python 解析 toml 配置文件
677 1
|
机器学习/深度学习 算法 数据可视化
Fisher模型在统计学和机器学习领域通常指的是Fisher线性判别分析(Fisher's Linear Discriminant Analysis,简称LDA)
Fisher模型在统计学和机器学习领域通常指的是Fisher线性判别分析(Fisher's Linear Discriminant Analysis,简称LDA)
cocos 2.4*项目实战笔记及源码分享 —— 飞机大战小游戏
cocos 2.4*项目实战笔记及源码分享 —— 飞机大战小游戏
622 0
|
iOS开发 容器
重识Flutter 在不同的滑动列表场景,请选择合适的Slivers - part2
在Flutter中,碰到复杂的、不同的滑动业务场景,若是选择了一个合适的Slivers组件,那么我认为问题会变得简单!
重识Flutter 在不同的滑动列表场景,请选择合适的Slivers - part2
|
机器学习/深度学习 数据采集 数据可视化
机器学习实战 | 逻辑回归应用之“Kaggle房价预测”
基于kaggle网站所提供的爱荷华州埃姆斯的住宅数据信息,预测每间房屋的销售价格,数据的标签SalePrice是连续性数据,因此可以判定这是一个回归问题。
机器学习实战 | 逻辑回归应用之“Kaggle房价预测”
|
存储 运维 Kubernetes
Docker搭建分布式图数据库nebula
被老大按着完成nebula分布式容器化部署。
Docker搭建分布式图数据库nebula