从数据小白到大赛黑马,他们如是说 | 专访2017中国高校SAS数据分析大赛亚军团队

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

近日,2017年中国高校SAS数据分析大赛北京举办了颁奖仪式,来自清华大学大数据能力提升项目的三位学生(王存光、姚超、李继凡)组队参赛,并一举斩获亚军殊荣。这项以高校数据分析人才为核心的赛事至今已举办至第五届,今年是清华大学第一次派出代表参加比赛。通常的参赛队伍多来自于金融统计专业然而此次获得亚军殊荣的三位学生王存光、姚超、李继凡分别来自于清华大学水利系、精密仪器系和生物医学工程系

968569cb1900db23b6fcd40af1223b627cf0906e

首次参赛“零经验”、交叉学科“罕见背景”、超过1000支的竞争队伍,这对他们来说,无疑是不小的挑战。如何在高手频出的大赛中崭露头角?清华大学大数据能力提升项目又给予了他们怎样的帮助?让我们一起听听,他们怎么讲。

赶Deadline的那些日子

时间比较紧张,从我们决定要参加比赛直到初赛,也就大概10天,所以准备比赛的过程,基本上就是在赶Deadline的过程。备赛时间集中在国庆放假,我们都牺牲了宝贵的假期,疯狂备战。”说到比赛前的准备过程,来自精密仪器系的姚超娓娓而谈,好像一切才过去不久。 

“另一种压力来自于准备过程中的不确定性,就是我们也不知道这样做是对还是错,是否能够继续下去,所以心里有点没谱。不过幸运的是,数据研究院的老师在鼓励和支持我们,还给了我们很多实际的帮助。这次是我们第一次,也是清华第一次参加中国高校SAS数据分析大赛,所以对于比赛信息我们了解得很少,也没有接触过SAS系统进行数据分析,最初不知道该从何下手。后来我们找到了数据研究院的罗老师,她给我们分享了很多《数据分析与优化建模》的往期课件。这些课件系统地介绍了如何使用SAS软件做数据分析,帮助我们在几天之内上了手。”生物医学工程系的李继凡补充说。 

对于姚超、王存光和李继凡三位学生来说,这次比赛所遇到的困难不小——备赛时间短、首次参赛零经验、陌生的数据分析系统。虽初战告捷,他们所遇到的挑战却不止如此。 

“黑马”跨界

在高手如云的中国高校SAS数据分析大赛中,参赛选手们大多来自于金融或统计专业,而王存光、姚超和李继凡三位同学却都是工科背景,甚至来自不同的专业。 

 “我们水利系所用到的数据分析并不复杂,像比赛中这种大型的数据分析在我们专业很少会用到。”清华大学水利系博士二年级在读生王存光说道,“这是我们第一次用SAS这个数据分析工具,所以技术上肯定没有信息学院或者其他相关专业的学生那么熟练,但是因为我们有不同的学科背景,所以每个队员可以根据自己的优势承担相应的工作,充分利用各自学科所带来上‘长板’。 

“初赛题目是与银行信贷相关,因此生物医学工程系的继凡主要负责了变量分类和背景分析的工作,而精密仪器系的姚超主要是将数据中627个特征逐一分析,找出核心变量,而我主要负责了模型搭建的工作。这个过程其实很考验我们的沟通协作能力,每一个环节都很关键。”王存光说。这种跨学科的学习方式,正是清华大学数据科学研究院有别传统的新型教学理念。“和不同专业的人在一起做项目会发现很多创新点,”来自生物医学工程系的李继凡说。在《大数据实践课》上,信息类和非信息类的学生跨学科组队,以团队的形式做项目,使不同背景的学生能够在组内充分交流,相互学习,各自发挥特长。 “平时的这种锻炼对于比赛中所需要的沟通协作能力以及团队凝聚力也有很大的帮助。”李继凡接着说道。 

“未来”已来 

在今天的IT领域,越来越多的问题可以用数据驱动方法来解决。它是大数据的基础,更重要的是,它带来了一种新的思维方式。 

“不能跟信息学院的学生拼技术,还是得拼思维方式和实现能力。冠军队在决赛的时候其实就坐在我们后面,相比之下,他们确实更从容,我们因为对技术不够熟练所以略显匆忙,”姚超说,“技术方面我们工科背景的学生肯定是没有优势的,但是好在我们会及时发现问题并解决问题,动手能力比较强。而且我们可以与专业知识结合在一起做项目,数据只是一种手段,思维方式是关键。 

“就是数据院常说的π型人才嘛。” 李继凡接过了话头。李继凡所说的π型人才正是清华大学数据研究院重点着力的人才培养方向,通过大数据思维与技能、跨界学习能力、实操应用相结合的课程体系,帮助清华学子们将大数据思维与应用创新有机结合,为大家日后的发展提前打好基础。 

“总之,比赛一定程度上还是可以检验并提升自己的,希望在下次的比赛中,我们能够有更好的发挥。” 李继凡继续说道。

创新需要勇气,提升离不开实践。大数据思维、跨界学习、应用实操相结合的培养与锻炼,成为了王存光、姚超、李继凡三位同学在此次比赛中的“力量之源”。清华大学首次派队角逐中国高校SAS数据分析大赛便满载而归,同学们在此次比赛中所展现的能力,是他们自我努力的体现,也是数据科学研究院先进教学理念的展示。希望今后数据院能够帮助更多的清华学子,在数据科学领域绽放异彩,找到属于自己的人生舞台。


原文发布时间为:2017-12-4

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
2月前
|
数据采集 数据可视化 数据挖掘
用 Excel+Power Query 做电商数据分析:从 “每天加班整理数据” 到 “一键生成报表” 的配置教程
在电商运营中,数据是增长的关键驱动力。然而,传统的手工数据处理方式效率低下,耗费大量时间且易出错。本文介绍如何利用 Excel 中的 Power Query 工具,自动化完成电商数据的采集、清洗与分析,大幅提升数据处理效率。通过某美妆电商的实战案例,详细拆解从多平台数据整合到可视化报表生成的全流程,帮助电商从业者摆脱繁琐操作,聚焦业务增长,实现数据驱动的高效运营。
|
1月前
|
SQL 数据挖掘 BI
数据分析的尽头,是跳出数据看数据!
当前许多企业在数据分析上投入大量资源,却常陷入“数据越看越细,业务越看越虚”的困境。报表繁杂、指标众多,但决策难、行动少,分析流于形式。真正有价值的数据分析,不在于图表多漂亮,而在于能否带来洞察、推动决策、指导行动。本文探讨如何跳出数据、回归业务场景,实现数据驱动的有效落地。
|
9月前
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
300 71
|
8月前
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
456 92
|
9月前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
374 73
|
7月前
|
SQL 人工智能 数据可视化
数据团队必读:智能数据分析文档(DataV Note)五种高效工作模式
数据项目复杂,涉及代码、数据、运行环境等多部分。随着AI发展,数据科学团队面临挑战。协作式数据文档(如阿里云DataV Note)成为提升效率的关键工具。它支持跨角色协同、异构数据处理、多语言分析及高效沟通,帮助创建知识库,实现可重现的数据科学过程,并通过一键分享报告促进数据驱动决策。未来,大模型AI将进一步增强其功能,如智能绘图、总结探索、NLP2SQL/Python和AutoReport,为数据分析带来更多可能。
294 21
|
6月前
|
机器学习/深度学习 传感器 数据采集
基于机器学习的数据分析:PLC采集的生产数据预测设备故障模型
本文介绍如何利用Python和Scikit-learn构建基于PLC数据的设备故障预测模型。通过实时采集温度、振动、电流等参数,进行数据预处理和特征提取,选择合适的机器学习模型(如随机森林、XGBoost),并优化模型性能。文章还分享了边缘计算部署方案及常见问题排查,强调模型预测应结合定期维护,确保系统稳定运行。
662 0
|
8月前
|
存储 数据采集 数据可视化
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
245 22
|
9月前
|
数据采集 数据可视化 索引
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
352 5
|
9月前
|
数据采集 监控 数据挖掘
常用电商商品数据API接口(item get)概述,数据分析以及上货
电商商品数据API接口(item get)是电商平台上用于提供商品详细信息的接口。这些接口允许开发者或系统以编程方式获取商品的详细信息,包括但不限于商品的标题、价格、库存、图片、销量、规格参数、用户评价等。这些信息对于电商业务来说至关重要,是商品数据分析、价格监控、上货策略制定等工作的基础。

热门文章

最新文章