硬件平台、软件环境和算法模型的一站式支持,可以让各学科的研究都能从数据科学的发展获益。
开放
今天是北得克萨斯大学(University of North Texas, UNT)科研信息技术服务中心(Research IT Services)的开放日(Open House)。
昨天丁老师告诉了我们这个消息。于是今天上午,我们实验室的几个小伙伴,就过来参观学习了。
在工作人员的带领下,我们参观了高性能计算机房。那里面真是壮观。
磁盘阵列都在高速运转。拉开抽屉,里面整整齐齐数十个6TB的硬盘。用户的数据可以同时在上面读取。
走近机架,CPU和GPU们制造的热风铺面而来;旁边就是冷却管线。从一排排服务器中间穿梭,真有冰火两重天的感受。
因为噪声很大,讲解人员不得不提高音量。他告诉我们,因为要保证冷却、供电等设施的持续正常运转,整个建筑的结构都是独特的。单单是买来设备之后做布线,就是一个十足的技术活儿。
10点钟,我们在535房间,听了科研信息技术服务中心4名工作人员联合做的报告。报告的内容,极大地改变了我对服务中心功能的印象。
原本以为,他们不过就是网络管理员。为学校里面的师生,提供基础设施。设置用户账号,预装软件,然后解决一些需要重启电脑之类的问题而已。就像英剧《IT》里面这帮家伙一样。
然而,Richard 用一个案例,说明了他的工作,令我感觉到了震撼。
案例
案例来自于一个研究生,叫做 Sheela ,学生物的。
她自己的 LinkedIn 页面,有不少内容没有更新。当初她给自己的预计,是 2017 年底毕业。
事实上,她不仅没有按照预期时间毕业,而且差点儿就没法毕业了。
她的研究方向是生育。希望对比4种不同的治疗方法,在不同条件下对生育的促进影响。
我是外行,不知道这里面数据采集究竟需要多高的成本。但是 Richard 告诉我们,很贵。
Sheela 用了好几年的时间,终于采集到了 104 个样本,每个样本包括 29 个特征变量。
然后,她就试图采用回归和方差分析(Analysis of variance,ANOVA)的手段,来构造模型。结果发现——一点儿显著关系都没有!这几年白干了。
欲哭无泪啊。
是不是就此放弃毕业呢?
Sheela 跑来服务中心,找到 Richard 所在的数据科学与分析(Data Science and Analysis)部门求援。
Richard 发现,由于数据量小,可能的相互作用和潜在模型数量却很多,因此传统方法不适合这个研究的数据分析。
而 Richard 的爱好,恰好就是玩儿各种新鲜的统计工具。
于是,他很快帮助 Sheela 设定了新的分析思路:基于决策树的监督学习+遗传算法,然后采用 BIC 做模型选择。
Sheela 一听就懵了:这说的都是什么?……
没错,这就是具体研究领域人员面临的现实问题——追踪本领域前沿,已经让他们投入了全部精力。他们没有余力,在研究方法和工具上时刻刷新自己的知识和技能。
但是, Richard 说,数据科学与分析(Data Science and Analysis)部门就是在这种情况下,体现自身价值的。
我们参观了 Richard 的办公室。里面就如同一座小型图书馆,摆满了各种书籍和资料。他平时乐此不疲地追踪数据科学进展,因此对于他来说,新的数据分析思路,其实无非对应着 3.5 个 R 软件包(其中有一个软件包,可视化模块独立,所以他认为算半个)而已。
不过,如果你拿普通的电脑试图做这种数据分析,依然是很困难的。 Richard 的电脑是一台配置不错的 Macbook Pro ,16GB的内存,6核CPU。但是为了帮 Sheela 跑这个分析,连续运转了25个小时,依然看不见尽头。
这时候,高性能计算设备的作用就来了。 Richard 旋即把任务扔到了服务器集群上面,同时使用超过200个核心……就是这样,依然跑了10多个小时,才完成。
出来的结果,让 Sheela 欣喜不已。这是 ROC 曲线图:
那 0.5 个软件包,还顺便把决策树的可视化做了。
在这张图里面,4种不同疗法,在不同的条件下,对应的效果差别,一目了然。
Sheela 不仅顺利毕业,而且还把论文发在了一份很好的期刊上面。
这是个皆大欢喜的结局。
功能
Richard 是这样描述部门使命的:
可以看到,数据科学与分析部门,从软件、硬件、算法和模型构造,全方位为有需要的师生提供支持。
不仅帮助学生搞定毕业论文,他们还和教授们合作,共同申请科研项目经费。
他们还利用教程的方式,把数据科学的基础知识与技能分享给大家。
这种分享,是超越学校范围的,每个人都可以获取。你可以访问这个链接,看看他们精心制作的 R 语言教程。
每一段教程里面,都不仅给出了完整的代码,可以拷贝粘贴直接用,而且还有详细的注释,甚至是附带数据的下载链接。
师生们可以根据自己的需求,找到相应的教程,直接应用到自己的研究问题和数据上面。
数据科学与分析部门还会经常提供培训讲座。例如明天,就会有利用服务集群做机器学习和深度学习的教学演示。我听了很兴奋。
Richard 的同事 Jon 介绍说,他们不仅有 R 语言教程,还有 SPSS 和 SAS,甚至是 Latex 的教程。这些教程会经常更新,并且不断补充新的应用场景。
我很兴奋地询问,有没有 Python 教程?
Jon 面露难色,告诉我说“不好意思,我们属于 R 阵营”。
小结
一上午的参观学习,让我们收获良多。令我们印象最深刻的,并不只是那些硬件基础设施,而是这种数据科学对科研的真正有效推动。
数据科学是专业领域,并非每个人都需要成为数据科学家。门槛的降低,可以让更多人应用数据科学提供的便捷工具,来推进自己的科研,尤其是其中的数据分析环节。
更可宝贵的,是这种一站式咨询与合作方式,不仅可以帮助有困难的师生解决燃眉之急,更有助于形成良性互动循环,使得科研项目做大做强。就像下图中展现的一样。
如果你对 Python 与数据科学感兴趣,不妨阅读我的系列教程索引贴《如何高效入门数据科学?》,里面还有更多的有趣问题及解法。