### 简介
从Python生态系统中发现现代的新一代测序文库,分析大量生物数据
主要特点
- 使用最重要的Python库和应用程序执行复杂的生物信息学分析
- 实施新一代测序,宏基因组学,自动化分析,群体遗传学等
- 探索生物信息学数据分析的各种统计和机器学习技术
生物信息学是一个活跃的研究领域,它使用一系列简单到高级的计算来从生物数据中提取有价值的信息。
本书涵盖了新一代测序,基因组学,宏基因组学,群体遗传学,系统发育学和蛋白质组学。您将学习现代编程技术来分析大量的生物数据。借助实际示例,您可以使用各种Python工具和库转换,分析和可视化数据集。
本书将帮助您更好地理解使用Galaxy服务器,这是最广泛使用的生物信息学基于Web的管道系统。此更新版还包括先进的下一代测序过滤技术。您还将在高性能计算框架(如Dask和Spark)下使用统计方法探索SNP发现等主题。
在本书的最后,您将能够使用和实现现代编程技术和框架,以应对不断增长的生物信息学数据。
参考资料
你会学到什么
- 了解如何处理大型下一代测序(NGS)数据集
- 使用FASTQ,BAM和VCF格式处理基因组数据集
- 学习进行序列比较和系统发育重建
- 使用蛋白质数据进行复杂分析
- 使用Python与Galaxy服务器进行交互
- 在Dask和Spark中使用高性能计算技术
使用Cytoscape可视化蛋白质数据集交互
使用PCA和决策树,两种机器学习技术,与生物数据集
面向读者
本书适用于数据数据科学家科学家,生物信息学生物信息学分析师,研究人员和Python开发人员,他们希望使用基于配方的方法解决中到高级的生物和生物信息学问题。期望使用Python编程语言的工作知识。
目录
- Python和周边软件生态学
- 下一代测序
- 与基因组合作
- 人口遗传学
- 人口遗传学模拟
- 系统发育
- 使用蛋白质数据库
- 生物信息学管道
- Python for Big Genomics数据集
- 生物信息学的其他主题
- 生物信息学中的机器学习