结合优选算法 利用可视化进行高级数据分析的五个步骤

简介:


【导语】在大多数科学研究中,大量的实验数据的统计分析工作通常由计算和统计方面的技术专家完成。 遗憾的是,这些专家不是相应领域研究的专家,这可能导致分析中的缺陷。 如果,研究人员本人能够轻松使用工具和方法来处理和分析数据,那么肯定会获得丰富研究成果。


◆ ◆ 

问题


许多科学家都面临着共同的挑战,特别是那些分子生物学领域科学家,他们的实验产生了大量的数据。对于如此海量的数据,人们需要软件工具来有效地解释其数据。


如今,面临日益增长的大数据,计算机软件仍大多侧重于数据处理,通过面向技术专家的用户界面,以标准的统计方法来呈现数据结果。 因此,科学家/研究者很难深入解释这些数据,大量的数据分析工作只能由专业的生物信息学家和生物统计学家来执行。 然而,这个模式并不尽如人意,因为通常情况下,科学家才是最了解该研究领域的人。

 


◆ ◆ 

解决方案


结合优选算法,可视化方法可以在某种程度上应对这些挑战,并可使更多使用者去探索和分析数据。可视化技术,给大家提供了一种快速识别重要结构和模式的积极有效的方法,而且反馈信息也很易于理解。 从团体化的视角来看,这也是一种很重要的方法,因为它使更多的科学家能够分析和讨论实验数据和结果,进而推动创新。


当使用可视化来识别数据中新的子组数据和模式时,我们建议使用五步法来确保可重复的显著的结果。 此分析步骤的是出于多方面的考虑, 最基本的意图是尝试在数据中识别全新的组或模式, 另一方面是为了探索数据,并且仅检测预期的模式,这是一种质量控制的好办法。 通过应用这个五步法,科学家就可以研究大量复杂的数据集,而不必成为统计专家。 该方法在下面更详细地描述,但是一些基本概念需在此交代清楚, 它可应用于任何类型的生命科学行业数据,可以是高维度数据和样本数据,例如 RNA-seq,基因表达阵列,蛋白质组学,DNA甲基化,代谢组学等等。


第一步:降低数据维度

首先,高维数据需要被降阶到较低的维度,使得其可以进行3D绘制。 为此,我们建议使用主成分分析(Principal Component Analysis, PCA)的方法。另外,还需要用数据染色工具来增强信息,并用过滤器等工具来筛选数据集的部分。



在五步法的起始阶段,研究人员会对活动数据集中存在的最强信号进行检测和去除。 一旦识别了该信号就可以去除它,以便查看是否存在其他模糊但仍然可辨认的信号。移除一个强信号,通常会导致活动样本和或变量(特征)的减少。


第二步:评估信噪比

该过程的第二步是通过使用PCA、投影分数和随机化来评估数据中的信噪比。 投影分数会显示检测的信号或模板的视觉强度。



第三步:方差滤波去除噪声

第三步是通过方差滤波去除“噪声”。 如果研究人员可以在其活动数据集中看到显著的信噪比,那么他们应该尝试去除一些最可能贡献噪声的活跃变量。 为了识别所需的方差过滤量,用户可以使用由PCA可视化和投影得分的方法来获得方差过滤量。 通过测试多个不同的方差设置,可以更容易找到清晰的模式。


第四步:统计测试



第四步,统计测试是可选的执行步骤,可以应用于五步过程的任何/所有其他阶段,也就是说,可以在初始分析期间执行,或者当某个步骤重复的时候执行,或者在步骤结束时执行,或者不做也可以。 被测数据组可以是预定义的,或者是在迭代过程中确定下来的。 (建议对第二个数据集去验证发现的数据结构和数组)


第五步:搜索子组或群集

最后一步,使用图形来细化子组或群集的搜索。 例如,在网络或图形中连接样本,使其可以搬升至更高的维度(即,大于三个维度,可以用3D PCA图来表示),因为在样本图中创建的图形是基于所有活动变量的空间距离,所以它可以使用户对数据结构有更深入的了解。


重复这五个步骤,直到无法再找出新的数据结构。

原文发布时间为:2016-11-16

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
机器学习/深度学习 人工智能 边缘计算
边缘智能:边缘计算和人工智能的深度融合
边缘智能:边缘计算和人工智能的深度融合
1284 0
|
机器学习/深度学习 传感器 自然语言处理
一文尽览 | 轨迹预测二十年发展全面回顾!(基于物理/机器学习/深度学习/强化学习)(上)
为了在动态环境中安全驾驶,自动驾驶车辆应该能够预测附近交通参与者的未来状态,尤其是周围车辆,类似于人类驾驶员的预测驾驶能力。这就是为什么研究人员致力于轨迹预测领域并提出不同的方法。本文旨在对过去二十年中提出的自动驾驶轨迹预测方法进行全面和比较性的回顾!!!它从问题公式和算法分类开始。然后,详细介绍和分析了基于物理、经典机器学习、深度学习和强化学习的流行方法。最后,论文评估了每种方法的性能,并概述了潜在的研究方向。
一文尽览 | 轨迹预测二十年发展全面回顾!(基于物理/机器学习/深度学习/强化学习)(上)
|
移动开发 安全 JavaScript
XSS绕过安全狗方法【持续更新】
XSS绕过安全狗方法【持续更新】
607 0
|
分布式计算 资源调度 Hadoop
使用Mapreduce案例编写用于统计文本中单词出现的次数的案例、mapreduce本地运行等,Combiner使用及其相关的知识,流量统计案例和流量总和以及流量排序案例,自定义Partitioner
工程结构: 在整个案例过程中,代码如下: WordCountMapper的代码如下: package cn.toto.bigdata.mr.wc;   import java.io.IOException;   import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable;
2538 0
|
2天前
|
搜索推荐 编译器 Linux
一个可用于企业开发及通用跨平台的Makefile文件
一款适用于企业级开发的通用跨平台Makefile,支持C/C++混合编译、多目标输出(可执行文件、静态/动态库)、Release/Debug版本管理。配置简洁,仅需修改带`MF_CONFIGURE_`前缀的变量,支持脚本化配置与子Makefile管理,具备完善日志、错误提示和跨平台兼容性,附详细文档与示例,便于学习与集成。
265 116
|
17天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
11天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
655 220