独家 | 构建端到端数据科学项目,从我的Data Scientist Ideal Profiles项目中学习(附链接)

简介: 本文为你介绍了构建数据科学项目中重要的思维能力及训练建议。

翻译:张睿毅

校对:吴金笛

本文约1500字,建议阅读5分钟。

文章来源:微信公众号 数据派THU


本文为你介绍了构建数据科学项目中重要的思维能力及训练建议。

image.png

Joseph Barrientos 拍照于 Unsplash

(链接:https://unsplash.com/photos/Ji_G7Bu1MoM?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText

人们常说,数据科学家的主要工作不是实际的分析和建模,而是数据的整理和清理部分。因此,涉及这些阶段的全周期数据科学项目将更有价值,因为它们证明了作者独立处理真实数据的能力,而不是使用给定的干净数据集。

完全理解端到端数据科学项目的价值,我一直想建立一个,但直到现在还不能建立。

我最近完成了我的Ideal Profiles项目(链接:https://towardsdatascience.com/what-does-an-ideal-data-scientists-profile-look-like-7d7bd78ff7ab )。因为这是一个涉及许多运动部件的重大项目,所以我想记录过程和经验教训,这是一个进一步的学习机会(受到威廉·科赫森(链接:https://medium.com/@williamkoehrsen )关于数据科学写作价值的伟大文章的启发)。

各阶段

image.png

我认为,全周期数据科学项目应包括以下几个阶段:

在Kaggle项目上工作的最大的争论是它只专注于第二阶段。因此,在这个项目中,我将确保涵盖所有三个阶段。

在第一阶段,我做了网络抓取来获取数据,由于数据是脏的,所以我不得不整理数据进行分析。然后我做了各种数据可视化,并在第二阶段进行了分析。最后,我写了一些文章来发表结果并将这个项目投入生产。

当然,我可以通过包含一个机器学习组件使这个项目更加完整,例如,使用自然语言处理根据内容对工作岗位进行分类,但这将显著延迟项目完成时间,这将使我们进入下一个阶段:

迭代思维

对于一个给定的项目,可能有无限多的事情要处理,但实际上,我们只有有限的时间。为了协调这两个竞争因素,我们需要有纪律。

对我来说,“迭代思维”确实有帮助 —— 看,罗马不是一天建成的,所以让我们先构造一些有用的东西,然后将其交付,然后我们总是可以回来改进更多的特征。另一方面,这也意味着我们需要能够处理“不完美”,而不是专注于细节。

考虑到这一理念,我能够延迟一些非常诱人的特征,并将它们放在项目文档的待办事项部分(链接:https://github.com/georgeliu1998/ideal_profiles#to-dos )。其中之一是使用更大的来自美国而不是加拿大的网站上的数据集。

模块化

鉴于项目的端到端的特性,我们有很多不同方面的工作:网络抓取,数据预处理,绘图……如果我们把所有的代码在一个Jupyter Notebook,它会过于大且复杂而不能处理。于是我决定使用Python脚本和一个中心Jupyter Notebook解决这个问题。

我将支持函数分为三大类,并将它们封装在三个相应的脚本中:

  • scrape_data.py-包含Web抓取所需的函数,如“get_soup()”和“get_urls()”。
  • process_text.py-包含文本处理和清除函数,如“tokenize_text()”和“check_freq()”
  • helper.py-包含文件输入输出和绘图函数,例如“plot_skill()”

这样,我就可以保持一个超轻且有组织的中心Notebook。然后根据需要从Notebook中导入和调用函数,如下所示:

from scrape_data import *

from process_text import *

from helper import *

可复制性

由于我在网上发现的许多抓取脚本都不起作用,我决定确保我的项目是可复制的。除了可靠的代码之外,一个健壮的README文件和一个完整的环境依赖文件也是解决方案的一部分。

readme.md-我努力确保捕获所有相关细节,特别是如何设置环境和如何使用脚本。

env_Ideal_profiles.yaml-通过将所有依赖项冻结到此文件中,我确保用户可以完全重新创建我使用的同一Anaconda python环境。此处提供更多信息(链接:https://conda.io/docs/user-guide/tasks/manage-environments.html )。

代码最优练习

良好的编码实践很重要!特别是,我发现以下实践在编写更大更复杂的项目时非常有用:

具有有意义的描述性变量/函数名

提供详细和结构化的文档字符串(链接:https://stackoverflow.com/questions/3898572/what-is-the-standard-python-docstring-format

确保使用python“try except”块处理异常

当你的项目是一个30行的Jupyter Notebook时,这些事情可能看起来微不足道,但是当你处理一个需要数百行代码的主要项目时,这些事情可能真的很关键!

厉害了Matplotlib

我过去只对基本的Matplotlib技巧感到舒服。然而,对于这个项目,我不仅需要将几个图组合成一个,而且还必须进行详细的自定义,例如旋转轴标记标签……在这一点上,基本的Matplotlib技能将不再足够。

image.png

事实证明这是一个学习Matplotlib的好机会。一旦我知道它能做什么,我发现它不可能回头,仅仅是因为matplotlib真的很强大!它的面向对象方法允许您修改几乎所有内容…请查看以下教程以了解:

  • Matplotlib教程:Python绘图

(链接:https://www.datacamp.com/community/

  • tutorials/matplotlib-tutorial-python )
  • 高效利用Matplotlib

(链接:http://pbpython.com/effective-

matplotlib.html )

  • 使用Matplotlib绘制Python(指南)

(链接:https://realpython.com/blog/python/

python-matplotlib-guide/ )

原文链接:

https://towardsdatascience.com/building-an-end-to-end-data-science-project-28e853c0cae3

编辑:文婧

译者简介

张睿毅,北京邮电大学大二物联网在读。我是一个爱自由的人。在邮电大学读第一年书我就四处跑去蹭课,折腾整一年惊觉,与其在当下焦虑,不如在前辈中沉淀。于是在大二以来,坚持读书,不敢稍歇。资本主义国家的科学观不断刷新我的认知框架,同时因为出国考试很早出分,也更早地感受到自己才是那个一直被束缚着的人。太多真英雄在社会上各自闪耀着光芒。这才开始,立志终身向遇到的每一个人学习。做一个纯粹的计算机科学里面的小学生。

翻译组招募信息

工作内容:将选取好的外文前沿文章准确地翻译成流畅的中文。如果你是数据科学/统计学/计算机专业的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友,数据派翻译组欢迎你们加入!

你能得到:提高对于数据科学前沿的认知,提高对外文新闻来源渠道的认知,海外的朋友可以和国内技术应用发展保持联系,数据派团队产学研的背景为志愿者带来好的发展机遇。

其他福利:和来自于名企的数据科学工作者,北大清华以及海外等名校学生共同合作、交流。

目录
相关文章
|
10月前
|
机器学习/深度学习 前端开发 测试技术
探索软件测试中的自动化测试框架选择与优化策略####
本文深入探讨了在当前软件开发生命周期中,自动化测试框架的选择对于提升测试效率、保障产品质量的重要性。通过分析市场上主流的自动化测试工具,如Selenium、Appium、Jest等,结合具体项目需求,提出了一套系统化的选型与优化策略。文章首先概述了自动化测试的基本原理及其在现代软件开发中的角色变迁,随后详细对比了各主流框架的功能特点、适用场景及优缺点,最后基于实际案例,阐述了如何根据项目特性量身定制自动化测试解决方案,并给出了持续集成/持续部署(CI/CD)环境下的最佳实践建议。 --- ####
|
机器学习/深度学习 分布式计算 大数据
一文读懂Apache Beam:统一的大数据处理模型与工具
【4月更文挑战第8天】Apache Beam是开源的统一大数据处理模型,提供抽象化编程模型,支持批处理和流处理。它提倡"一次编写,到处运行",可在多种引擎(如Spark、Dataflow、Flink)上运行。Beam的核心特性包括抽象化概念(PCollection、PTransform和PipelineRunner)、灵活性(支持多种数据源和转换)和高效执行。它广泛应用在ETL、实时流处理、机器学习和大数据仓库场景,助力开发者轻松应对数据处理挑战。
2788 1
|
11月前
|
前端开发 JavaScript 开发者
Web组件:一种新的前端开发范式
【10月更文挑战第9天】Web组件:一种新的前端开发范式
337 2
|
数据采集 算法 数据挖掘
10余位大佬+10余年经验的结晶:Python数据分析与挖掘实战
LinkedIn 对全球超过3.3亿用户的工作经历和技能进行分析后得出,目前最炙手可热的25 项技能中,数据挖掘排名第一。那么数据挖掘是什么? 数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,因此“数据挖掘”已成为企业保持竞争力的必要方法。 今天给小伙伴们分享的Python数据分析与数据挖掘手册是10余位数据挖掘领域资深专家和科研人员,10余年大数据挖掘咨询与实施经验结晶。从数据挖掘的应用出发,以电力、
238 13
|
前端开发
类抖音logo的光影之旅:CSS动画效果,让标志更具吸引力!
类抖音logo的光影之旅:CSS动画效果,让标志更具吸引力!
|
自然语言处理 图形学
【unity实战】一个通用的FPS枪支不同武器射击控制脚本
【unity实战】一个通用的FPS枪支不同武器射击控制脚本
464 0
|
API Python Windows
将Py转为exe文件
今天我要给大家介绍一种非常方便的方法,可以将Python文件打包成可执行的exe文件。你不用担心用户是否安装了Python环境,只需要一个点击,你的程序就能在任何Windows电脑上运行了!,当然在进行文件打包时,我们总会遇到很多问题,例如某模块未打包进入文件,导致exe文件无法使用,接下来,我会一点一点进行解决.此工具我会出一个专栏,这是工具1.0版本的,只能打包,只包含基础库的py文件,后续会一步步优化,包含自定义打包文件的小图标,文件名,将音乐或其他第三方库模块进行打包。注意,最终为一个GUI工具
将Py转为exe文件
|
缓存 Java 应用服务中间件
Docker 镜像构建的最佳做法
Docker 镜像构建的最佳做法
230 1
|
存储 消息中间件 监控
|
SQL 关系型数据库 MySQL
【MySQL】 MySQL基础DDL详解(数据库、表、约束等操作)
【MySQL】 MySQL基础DDL详解(数据库、表、约束等操作)
689 0