生命之圈:生物数据可视化的美丽新方法

简介:

Martin Krzywinski在加拿大的迈克尔·史密斯基因组中心做系统管理员时,他并没有打算成为21世纪的生物学数据可视化的先驱。事实上,他甚至没有生物学的背景,虽然他已经完成了物理学和数学的研究生课程。但那是上世纪90年代末,他能够操控一台电脑。


Krzywinski建立了该中心的第一个信息系统,加强了其安全性,设计并优化了键盘布局,基本把极客能做的事情都做了。与此同时,他开始帮助研究人员做他们的项目,逐渐了解了他们的数据和数据的潜力。剩下的就是创造历史了。


急速下降的DNA测序价格以及细胞复杂性的日益增加很快释放了基因数据的洪流。但是,收集数据的工具已经远远超过了那些描绘数据的工具。Krzywinski说:“我很沮丧,阅读了大量的科学论文却不理解他们在说什么。我只是希望它们能够变得更简单,我没办法做什么使生物学更加简单,但我开始嘱咐人们做出更清晰的图(来描绘生物学)。”


为了做到这一点, Krzywinski开发了Circos ,一个开源的可视化工具用来以圆形排列表格数据。这是一个简单的想法,但具有革命性的意义:它已经数千次被用于可视化,并成为了我们当下信息丰富性的独特审美代名词。





从右上角顺时针看,人类、黑猩猩、老鼠、斑马鱼的基因排列成一个圆圈,每一个颜色方格对应一对染色体颜色。线条相连类似DNA序列,只是在视觉上强调,我们与其它物种共享多少基因。(图:Martin Krzywinski/EMBO



这是英国图书馆正在进行的项目,从马到鸭嘴兽,对比16个不同物种与我们基因的不同。在每个小格中,一个圆圈代表与一个人类染色体之间的对比结果,人类的基因沿着圆的下半部分排列,而给定物种的整个基因组则位于圆的上半部分。(图:Martin Krzywinski



1848913日,一次爆炸使得一根铁棒穿进了铁路建筑工头Phineas Gage的头骨。令人难以置信的是,Gage活下来了,但他的个性和气质发生了巨大的变化,这使他成为早年的行为神经解剖学教科书的案例。在这幅图像中,研究人员为那根铁棒如何扰乱人脑的特定系统建立模型,排列在Circos图的圆周上,它们之间的联系用连线表示。(图:Van Horn /PNAS



对于这幅图像,Krzywinski试图以一种新的方式来思考基因组,转换它们的特征(即重复内容的数量)为方向矢量。他说:“现在,这些基因组都有意想不到的形状,这只是纯路径算法。有的图是圆形,有的图看似像大陆或国家的形状。我只是认为这是用一种令人吸引的方式来看基因组,而不只是给出一个序列。”(图:Martin Krzywinski




对于信息设计者,π值是非常具有魅力的。Krzywinski为了绘制这两幅图,用颜色对数组编码,左图中,显示的是π值的前3422位;右图中,显示的是π值的前123,201位,它们以阿基米德螺旋状排列。(图:Martin Krzywinski




乱糟糟的毛球:像这样的可视化帮助激发了Krzywinski的工作灵感。通常所说的毛线团,被用于将网络间的相互作用可视化。在正确的场景中,它们非常有用,但是当网络变得庞大而复杂时,它们没有辜负它们的绰号。Krzywinski说:许多毛球看起来是随机的,而且许多时候,它们的结构会迷惑我们而让我们陷入思考我们知道某些实际上不知道的东西。例如,上面的毛球来自于人类蛋白质的相互作用图,暗示了实际上并不存在的架构。研究人员写到:“明显地,黄色的节点带是图布局算法的一个伪影。。该算法并没有解释红和蓝边缘明显的分离,但是人的裸眼能识别。(图:Rual /Nature



Krzywinski最新的可视化工具是Hive Plot,在Hive Plot中网络节点被分配给有属性定义的轴,比如:连通性、密度、中心度。正是如此排列,结构特征变得明显,上图中,处于上方的是现在的E. coli(左)和Linux(右),对比处于下方的原来版本的结构特征要明显很多。Krzywinski说过,设计hive plots或者任何可视化的关键是要了解需要强调什么参数。虽然一些信息学家仍然相信,只要有足够的数据,就能按照规则简单地呈现原始数据。他说:“我不相信那个,你需要策划和解释。结果不会就这样出现。(图:Martin Krzywinski



在这里,研究人员比较三株拟南芥(一种经常被用来研究植物遗传模式的植物)和它们共同的祖先。每一株的基因组被放置在一个轴上;如果它们来自同一祖先序列,这两个区域就派生相连。(图:Mandáková /植物细胞)



Circos不仅用于比较基因组,也用于描绘它们,比如Gloeobacterviolaceus,一种最原始的光合细菌品种之一的直系后裔。虽然这张图无疑对科学家比对一个门外汉富含更多的意义,它仍然是一个引人注目的图:相比于十年前基因组的可视化,是意义深远的,并且明显更加丰富的。图:Saw/ PLoS One



并非所有的Krzywinski的工作都涉及到数据可视化。这些小鼠胚胎血管图像是去年一期美国国家科学院院刊的封面图片,它来自多个微观横截面图像的合成,它们的颜色根据哈勃太空望远镜的照片和《星际迷航》进行了调整。Krzywinski说:“现在可以说已经完成了我的一个人生目标了,使生物学看起来像天体物理学”。(图: Krzywinski / PNAS


原文发布时间为:2015-09-22

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
6月前
|
人工智能 Cloud Native PyTorch
《PyTorch 携手 Unity:基于云原生架构化解 AI 游戏系统显存危机》
本文聚焦云原生架构下AI驱动型游戏智能体系统的开发实践,详述遭遇的间歇性显存耗尽危机。该问题如隐匿幽灵,致系统不稳、用户体验骤降。为破局,跨领域精英组建攻坚小组,经日志审计、性能剖析及模拟重现,锁定AI推理临时数据管理不善与引擎资源加载失衡为根源。通过强化数据管理、优化资源策略、完善架构规划等举措,成功化解危机。此次经历揭示了隐性依赖、边界条件测试及跨学科思维的重要性,为同类系统开发提供了宝贵的经验借鉴。
131 3
|
人工智能 边缘计算 监控
边缘AI计算技术应用-实训解决方案
《边缘AI计算技术应用-实训解决方案》提供完整的实训体系,面向高校和科研机构的AI人才培养需求。方案包括云原生AI平台、百度AIBOX边缘计算硬件,以及8门计算机视觉实训课程与2门大模型课程。AI平台支持大规模分布式训练、超参数搜索、标注及自动化数据管理等功能,显著提升AI训练与推理效率。硬件涵盖多规格AIBOX服务器,支持多种推理算法及灵活部署。课程涵盖从计算机视觉基础到大模型微调的完整路径,通过真实商业项目实操,帮助学员掌握前沿AI技术和产业应用。
705 2
|
弹性计算 测试技术 持续交付
Docker技术这些应用场景,你知道吗?
Docker技术这些应用场景,你知道吗?
m 序列(最长线性反馈移位寄存器序列)详解
m 序列(最长线性反馈移位寄存器序列)详解
1124 0
|
存储 缓存 自然语言处理
ES 8.0:历时三年的 Elasticsearch 8.x 大更新给我们带来了什么?
ES 8.0:历时三年的 Elasticsearch 8.x 大更新给我们带来了什么?
ES 8.0:历时三年的 Elasticsearch 8.x 大更新给我们带来了什么?
|
人工智能 安全 物联网
2022云栖精选—“双碳”目标下的新型电力系统及其数字化转型
摘要:本文整理自工业控制系统产业联盟理事长、国家电网公司国家电力调度控制中心原副主任辛耀中,在云栖大会的分享。本篇内容主要分为三个部分: 1. 新型电力系统背景情况 2. 智能电网和安全防护 3. 电力行业数字化转型
2022云栖精选—“双碳”目标下的新型电力系统及其数字化转型
|
7天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
10950 83
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
7天前
|
人工智能 IDE API
2026年国内 Codex 安装教程和使用教程:GPT-5.4 完整指南
Codex已进化为AI编程智能体,不仅能补全代码,更能理解项目、自动重构、执行任务。本文详解国内安装、GPT-5.4接入、cc-switch中转配置及实战开发流程,助你从零掌握“描述需求→AI实现”的新一代工程范式。(239字)
4190 129

热门文章

最新文章