数据科学如何助力科研?

简介: 硬件平台、软件环境和算法模型的一站式支持,可以让各学科的研究都能从数据科学的发展获益。开放今天是北得克萨斯大学(University of North Texas, UNT)科研信息技术服务中心(Research IT Services)的开放日(Open House)。
img_1f07fffa6aae9d5656718b1e4b370534.jpe

硬件平台、软件环境和算法模型的一站式支持,可以让各学科的研究都能从数据科学的发展获益。

开放

今天是北得克萨斯大学(University of North Texas, UNT)科研信息技术服务中心(Research IT Services)的开放日(Open House)。

img_4dd8c5fad4df8d1895a0374e777f3e84.jpe

昨天丁老师告诉了我们这个消息。于是今天上午,我们实验室的几个小伙伴,就过来参观学习了。

在工作人员的带领下,我们参观了高性能计算机房。那里面真是壮观。

img_018c9da50c7205995f94306f399f5e57.jpe

磁盘阵列都在高速运转。拉开抽屉,里面整整齐齐数十个6TB的硬盘。用户的数据可以同时在上面读取。

走近机架,CPU和GPU们制造的热风铺面而来;旁边就是冷却管线。从一排排服务器中间穿梭,真有冰火两重天的感受。

因为噪声很大,讲解人员不得不提高音量。他告诉我们,因为要保证冷却、供电等设施的持续正常运转,整个建筑的结构都是独特的。单单是买来设备之后做布线,就是一个十足的技术活儿。

10点钟,我们在535房间,听了科研信息技术服务中心4名工作人员联合做的报告。报告的内容,极大地改变了我对服务中心功能的印象。

原本以为,他们不过就是网络管理员。为学校里面的师生,提供基础设施。设置用户账号,预装软件,然后解决一些需要重启电脑之类的问题而已。就像英剧《IT》里面这帮家伙一样。

img_737f44e1c4c8ec8519f7d708403aa880.jpe

然而,Richard 用一个案例,说明了他的工作,令我感觉到了震撼。

案例

img_c68007804eb509e3dadde0f149683be8.jpe

案例来自于一个研究生,叫做 Sheela ,学生物的。

她自己的 LinkedIn 页面,有不少内容没有更新。当初她给自己的预计,是 2017 年底毕业。

img_55427ddb4b09c21bff97cfde6e1c4239.jpe

事实上,她不仅没有按照预期时间毕业,而且差点儿就没法毕业了。

她的研究方向是生育。希望对比4种不同的治疗方法,在不同条件下对生育的促进影响。

我是外行,不知道这里面数据采集究竟需要多高的成本。但是 Richard 告诉我们,很贵。

Sheela 用了好几年的时间,终于采集到了 104 个样本,每个样本包括 29 个特征变量。

然后,她就试图采用回归和方差分析(Analysis of variance,ANOVA)的手段,来构造模型。结果发现——一点儿显著关系都没有!这几年白干了。

欲哭无泪啊。

是不是就此放弃毕业呢?

Sheela 跑来服务中心,找到 Richard 所在的数据科学与分析(Data Science and Analysis)部门求援。

Richard 发现,由于数据量小,可能的相互作用和潜在模型数量却很多,因此传统方法不适合这个研究的数据分析。

而 Richard 的爱好,恰好就是玩儿各种新鲜的统计工具。

于是,他很快帮助 Sheela 设定了新的分析思路:基于决策树的监督学习+遗传算法,然后采用 BIC 做模型选择。

Sheela 一听就懵了:这说的都是什么?……

没错,这就是具体研究领域人员面临的现实问题——追踪本领域前沿,已经让他们投入了全部精力。他们没有余力,在研究方法和工具上时刻刷新自己的知识和技能。

但是, Richard 说,数据科学与分析(Data Science and Analysis)部门就是在这种情况下,体现自身价值的。

我们参观了 Richard 的办公室。里面就如同一座小型图书馆,摆满了各种书籍和资料。他平时乐此不疲地追踪数据科学进展,因此对于他来说,新的数据分析思路,其实无非对应着 3.5 个 R 软件包(其中有一个软件包,可视化模块独立,所以他认为算半个)而已。

不过,如果你拿普通的电脑试图做这种数据分析,依然是很困难的。 Richard 的电脑是一台配置不错的 Macbook Pro ,16GB的内存,6核CPU。但是为了帮 Sheela 跑这个分析,连续运转了25个小时,依然看不见尽头。

这时候,高性能计算设备的作用就来了。 Richard 旋即把任务扔到了服务器集群上面,同时使用超过200个核心……就是这样,依然跑了10多个小时,才完成。

出来的结果,让 Sheela 欣喜不已。这是 ROC 曲线图:

img_cad4282d9615f480fd86c8fcd9c3f138.jpe

那 0.5 个软件包,还顺便把决策树的可视化做了。

img_0a01ec6bd1940433813f2ce7415c3e6e.jpe

在这张图里面,4种不同疗法,在不同的条件下,对应的效果差别,一目了然。

Sheela 不仅顺利毕业,而且还把论文发在了一份很好的期刊上面。

img_f58e3e311e0c30bbe9263f0ec551af80.jpe

这是个皆大欢喜的结局。

功能

Richard 是这样描述部门使命的:

img_3c11f333db94c75b51fba4c5517de991.jpe

可以看到,数据科学与分析部门,从软件、硬件、算法和模型构造,全方位为有需要的师生提供支持。

不仅帮助学生搞定毕业论文,他们还和教授们合作,共同申请科研项目经费。

img_ece35a6c8f2185a0d2ba2e797bfa15d1.jpe

他们还利用教程的方式,把数据科学的基础知识与技能分享给大家。

这种分享,是超越学校范围的,每个人都可以获取。你可以访问这个链接,看看他们精心制作的 R 语言教程。

img_a21a2a241f9124d7d6388bb54f4b6303.jpe

每一段教程里面,都不仅给出了完整的代码,可以拷贝粘贴直接用,而且还有详细的注释,甚至是附带数据的下载链接。

img_3ca304e086f1d96073a0c4417f51b370.jpe

师生们可以根据自己的需求,找到相应的教程,直接应用到自己的研究问题和数据上面。

数据科学与分析部门还会经常提供培训讲座。例如明天,就会有利用服务集群做机器学习和深度学习的教学演示。我听了很兴奋。

img_00ae2ebc42452fb479c6ca37169ce2d4.jpe

Richard 的同事 Jon 介绍说,他们不仅有 R 语言教程,还有 SPSS 和 SAS,甚至是 Latex 的教程。这些教程会经常更新,并且不断补充新的应用场景。

img_45a3458c42e9cd99400ac4869ab20539.jpe

我很兴奋地询问,有没有 Python 教程?

Jon 面露难色,告诉我说“不好意思,我们属于 R 阵营”。

小结

一上午的参观学习,让我们收获良多。令我们印象最深刻的,并不只是那些硬件基础设施,而是这种数据科学对科研的真正有效推动。

数据科学是专业领域,并非每个人都需要成为数据科学家。门槛的降低,可以让更多人应用数据科学提供的便捷工具,来推进自己的科研,尤其是其中的数据分析环节。

更可宝贵的,是这种一站式咨询与合作方式,不仅可以帮助有困难的师生解决燃眉之急,更有助于形成良性互动循环,使得科研项目做大做强。就像下图中展现的一样。

img_b6c3495a14e537a59ad417ae7be776dc.jpe

喜欢请点赞和打赏。还可以微信关注和置顶我的公众号“玉树芝兰”(nkwangshuyi)

如果你对 Python 与数据科学感兴趣,不妨阅读我的系列教程索引贴《如何高效入门数据科学?》,里面还有更多的有趣问题及解法。

目录
相关文章
|
2月前
|
人工智能 数据安全/隐私保护
AIGC在学术科研中的应用
AIGC在学术科研中的应用
49 2
AIGC在学术科研中的应用
|
机器学习/深度学习 存储 SQL
2020年数据科学领域4个最热门的趋势
2020年数据科学领域4个最热门的趋势
2020年数据科学领域4个最热门的趋势
|
机器学习/深度学习 人工智能 算法
【书单】大数据与人工智能
今晚b站偶然看到一个大佬分享【大数据分析与人工智能】的学习路径,我彻底吓尿了,把这个小姐姐说的书记录下。 视频链接,另外这个up(经过半年系统学习转行算法工程师)好像以前的视频也有点东西呜呜呜。。
152 0
【书单】大数据与人工智能
|
新零售 存储 人工智能
搭建高校AI大数据实训室,2019高校大数据科研教学整体解决方案
数道云大数据助力高校大数据分析课程教学,培养大数据多种实用型技术人才。基于数据的采集、存储、计算和大数据框架平台管理,让学生掌握对大数据的离线、实时处理和部分数据分析进行深度理解和把握。
1909 0
|
Web App开发 机器学习/深度学习 人工智能
有前途的人工智能大数据分析相关职业:Python数据科学入门之路
为什么学习Python数据科学? Python是数据科学职业所需的宝贵技能之一。Python是数据科学的首选编程语言。 2016年,它超越了R on Kaggle,这是数据科学竞赛的首选平台。 2017年,它在KDNuggets对数据科学家最常用工具的年度调查中取代了R. 2018年,66%的数据科学家报告每天使用Python,使其成为分析专业人士的头号工具。
|
机器学习/深度学习 分布式计算 算法
|
机器学习/深度学习 数据可视化 大数据