8个带你快速入门的趣味机器学习项目(附数据源、教程)

简介: 抽时间做项目是最好的一种投资方式,在项目中你会享受学习、保持积极性并能获得更快的进展。没有任何理论可以代替实践,虽然教材和课程能让你掌握一些基本原理,但在尝试应用时,你会发现具体操作起来比较困难。 因此项目有助于提高应用机器学习的技巧,此外在找工作中也会给自己增添一些筹码。

抽时间做项目是最好的一种投资方式,在项目中你会享受学习、保持积极性并能获得更快的进展。没有任何理论可以代替实践,虽然教材和课程能让你掌握一些基本原理,但在尝试应用时,你会发现具体操作起来比较困难。

因此项目有助于提高应用机器学习的技巧,此外在找工作中也会给自己增添一些筹码。

以下将具体介绍这八个项目,每个项目都能在一个周末完成,如果你喜欢的话,可以对其进行相关的扩展。

本文目录

  1. 机器学习的角斗士
  2. 扮演“点球成金”
  3. 预测股票价格
  4. 教会神经网络阅读的笔迹
  5. 调查安然事件
  6. 从Scrath开始写机器学习算法
  7. 挖掘社交情绪
  8. 改善卫生保健


1.机器学习的角斗士

这个项目被称为“机器学习的角斗士”,但它不是新的。这是围绕机器学习建立实际直觉最快的一种方式。目标是将现成模型应用到不同的数据集。本项目主要有3个原因令人感叹:

首先,你会根据直觉为问题找到对应的模型。该模型是否对数据丢失具有鲁棒性、该模型适合处理种类别特征?这都可以通过挖掘教材找到答案,但如果通过实践的话能学习得更好。

其次,本项目将教会你快速设计初始模型的技能。在实际应用中,如果不简单尝试的话难以知道哪些模型表现最好。

最后,这个练习可以帮助你掌握建模的流程。例如:

  • 导入数据
  • 数据清洗
  • 将数据集拆成训练/测试或交叉验证集
  • 预处理
  • 变换
  • 特征工程

因为使用现成的模型,这导致你有更多的机会专注于学习上述的这些关键步骤。

通过以下教程可以练习回归、分类和聚类算法。

**教程
**
Python:sklearn——sklearn数据包官方教程
http://suo.im/2soaN8
Scikit Learn预测葡萄酒质量——用于训练机器学习模型的分步教程
http://suo.im/4qWf3S
R:插入符号——在线研讨会
http://suo.im/28G7jk

数据源

UCI机器学习库——350多个可检索数据集,几乎涵盖每一个主题。
http://suo.im/2LAdKq
Kaggle数据集——Kaggle社区上的100多个数据集。
https://www.kaggle.com/datasets
Data.gov——由美国政府发布的开放数据集。
https://www.data.gov/


2


2.扮演“点球成金”

在点球成金这本书中,奥克兰通过善于分析球员的球探,建立了一个有竞争力的阵容,但只需要支付只有1 / 3的纽约洋基队支付的工资。

首先,如果你还没读过这本书,你应该看看。

幸运的是,体育界有很多的数据可以玩,这些数据(球队、比赛、成绩和球员信息)都是可以免费获取。

有很多有趣的机器学习项目适合初学者。例如:

体育博彩——在每场球赛之前根据给出的数据预测得分;
人才搜索——利用高校统计数据预测哪些球员会拥有最好的职业生涯;
一般管理——基于球员各自的优势创建集群,建立一个全面的团队。
体育也是一个很好的实践数据可视化和探索性分析的领域,你可以使用这些技巧来帮助你决定在你的分析中应包含哪些类型的数据。

数据源

体育统计数据——体育运动和历史数据包含许多专业的体育比赛等,从网络上非常容易抓取这些信息。
http://www.databasesports.com/
体育参考——另一种体育统计数据库。更杂乱的界面,但个别表可以导出为CSV文件。
http://www.sports-reference.com/
cricsheet.org——国际棒球和IPL板球比赛的数据,IPL和T20国际比赛的CSV文件可以被获取。
http://cricsheet.org/downloads/


3


3.预测股票价格

股票市场对于任何数据科学家们都很感兴趣。

首先,你有很多类型的数据,比如价格、全球宏观经济指标、波动率指数等。

其次,数据是非常精细的。你可以很容易地花费很少时间就能得到每一个公司的数据,这允许你可以创造性地思考交易策略。

最后,金融市场普遍存在反馈周期短的特点。因此,可以快速验证新的数据。

一些对于初学者友好的机器学习项目如下所示:

  • 定量的价值投资——根据公司的季度报告预测6个月的价格走势。
  • 预言——对三角洲之间的隐含和实际波动率建立时间序列模型,甚至递归神经网络。
  • 统计套利——基于价格变动及其它因素寻找相似的股票,并寻找价格分歧的时机。
  • 免责声明:构建交易模型在实践中的机器学习是简单的,但使他们的盈利是非常困难的。入市需谨慎,投资有风险。

教程

Python:sklearn投资——将机器学习应用于投资的系列视频。
http://suo.im/4CIIso
R:R量化交易——对于R定量金融学详细的课堂笔记。
http://www.rfortraders.com/

数据源

Quandl——数据市场,提供免费的金融和经济数据。
http://suo.im/vp6xq
Quantopian——定量金融社区,开发交易算法提供了一个免费的平台。
https://www.quantopian.com/data
美国基础档案文件——5000多家美国公司5年的基本数据。
http://usfundamentals.com/download


4


4.教会神经网络阅读笔迹

神经网络和深度学习是现代人工智能的成功故事。他们导致了图像识别的重大进展,文本自动生成甚至自动驾驶汽车等。

MNIST手写体数字分类的挑战是经典的切入点,该数据集对于初学者是友好的,并且足够小以至于适合在大多数的计算机完成这个挑战。

首先,建议阅读下面的教程第一章。它会教你如何建立一个神经网络,并以高精度的结果完成MNIST挑战。

教程

神经网络和深度学习(在线书籍)——第1章如何从零开始使用Python编写神经网络完成MNIST数字分类。
http://neuralnetworksanddeeplearning.com/

数据源

MNIST——包含70000个标记的手写体数字图像。(http://yann.lecun.com/exdb/mnist/


5


5.调查安然事件

安然事件造成有史以来最大的公司破产。在2000年度,安然是美国最大的能源公司,然而被揭露舞弊后,它在一年内就破产了。

幸运的是,我们已经有安然的电子邮件数据库,它包含150名前安然员工之间的50万封电子邮件,主要是高级管理人员。这也是唯一的大型公共的真实邮件数据库,这使得它更有价值。

事实上,数据科学家已经使用这个数据集进行多年的教育和研究。

初学者可以尝试的机器学习项目例子包括:

异常检测——按照小时发送和接收的电子邮件分布尝试检测异常行为导致公众丑闻的异常行为。
社交网络分析——建立员工之间的网络图模型来寻找关键人物。
自然语言处理——结合电子邮件元数据分析正文消息,并根据其目的对电子邮件进行分类。

数据源

安然邮件数据集——这是由CMU归档的安然的电子邮件。(http://www.cs.cmu.edu/~enron/
安然数据描述(PDF)——安然电子邮件数据的探索性分析可以帮助你打好基础。
http://suo.im/2bM571

6


6.从Scratch开始写机器学习算法

从Scratch开始写机器学习算法的原因主要有两个:

首先,没有更好的办法来建立对其机制的真正理解。你将不得不考虑每一步,从而真正掌握这些机制。

其次,你将会学到如何数学指令工作翻译成公众代码。

开始时,建议你选择一种不太复杂的算法;在适应构建简单的算法后,尽量扩展他们以获得更多的功能;最后,如果你的算法不比那些现有的数据包快,不要气馁,因为这些数据包是多年的发展成果!

教程

Python:从Scratch开始Logistic回归
http://suo.im/1sXPJR
Python:从Scratch开始k-近邻法
http://suo.im/2p1OPS
R:从Scratch开始Logistic回归
http://suo.im/3cPQSe


7



7.挖掘社交情绪

由于大量用户生成的内容,社交化媒体已经几乎成为“大数据”的代名词。挖掘这些丰富的数据可以发现舆论、前沿和公众情绪的趋势。

脸谱网、推特、微信等一系列社交平台让人应接不暇。此外,每一代都比他们的前辈在社交媒体上花费更多的时间,这意味着社交媒体数据和市场营销、品牌及商业更相关。

虽然有许多流行的社交媒体平台,但推特是练习机器学习经典的切入点。

使用推特数据,你会得到一个有趣的混合数据(推特内容)和元数据(位置、标签、用户、转发等),因此有很多方式对其进行分析。

教程

Python:挖掘Twitter数据——如何在推特数据进行情感分析
http://suo.im/tflKM
R:机器学习的情感分析——短而甜蜜的情感分析教程
http://suo.im/2rALk4

数据源

推特API——推特API是流媒体数据的经典来源。
http://suo.im/CKCiA
Stock Twits API——Stock Twits是一个社交投资平台,类似于一个交易者和投资者之间的推特,可以通过将时间戳和股票代码符号加入到时间序列数据集中扩展此数据集。
https://stocktwits.com/developers/docs


8


8.改善卫生保健

由于机器学习而经历快速变化的另一个行业是全球健康与保健。

在大多数国家,成为一个医生需要多年的教育,这是一个要求很高的领域,长时间、高风险以及一个很高的门槛。

因此近年来,在机器学习的帮助下减轻了医生的工作量,提高了医疗系统的整体效率。

用例包括:

预防保健——预测对个人和社区层面的疾病爆发。
诊断服务——图像数据的自动分类,如扫描、X射线等。
保险——根据公开的风险因素调整保险费。
随着医院患者的病例现代化的发展,当我们收集更多的健康数据时,数据科学家将会有很大的可能去改善现存的医疗体系。

教程

R:为疾病预测建立有意义的机器学习模型
(http://suo.im/4qrHaJ)
卫生保健中的机器学习——微软研究院的优秀演讲
(http://suo.im/2wPFan)

数据源

大型健康数据集——大型健康数据集的收集
(http://suo.im/2VcIBhv)
data.gov/health——由美国政府提供的医疗保健相关的数据集。(http://suo.im/4wBUn5)
健康营养和人口统计——由世界银行提供的全球健康、营养和人口统计数据。
(http://suo.im/4dPW1I)

原文发布时间为:2017-10-31
本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号

相关文章
|
6月前
|
数据可视化 Rust 机器学习/深度学习
mlop.ai 无脑使用教程 (机器学习工具 WandB/ClearML 的首个国区开源平替)
mlop.ai 是首个为国区用户优化的机器学习工具,全栈免费开源,是主流付费解决方案 ClearML/WandB 的开源平替。常规实验追踪的工具经常大幅人为降速,mlop因为底层为Rust代码,能轻松支持高频数据写入。如需更多开发者帮助或企业支持,敬请联系cn@mlop.ai
368 12
mlop.ai 无脑使用教程 (机器学习工具 WandB/ClearML 的首个国区开源平替)
|
8月前
|
存储 人工智能 云栖大会
【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展,PAI ArtLab助力高校AIGC教育新路径
【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展,PAI ArtLab助力高校AIGC教育新路径
|
9月前
|
人工智能 自然语言处理 物联网
阿里万相重磅开源,人工智能平台PAI一键部署教程来啦
阿里云视频生成大模型万相2.1(Wan)重磅开源!Wan2.1 在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势,轻松实现高质量的视频生成。同时,万相还支持业内领先的中英文文字特效生成,满足广告、短视频等领域的创意需求。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署阿里万相重磅开源的4个模型,可获得您的专属阿里万相服务。
|
机器学习/深度学习 数据采集 算法
机器学习之sklearn基础教程
机器学习之sklearn基础教程
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法。本文介绍 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,同时提供 Python 实现示例,强调其在确保项目性能和用户体验方面的关键作用。
419 6
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目效果的重要手段
在数据驱动时代,A/B 测试成为评估机器学习项目效果的重要手段。本文介绍了 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,强调了样本量、随机性和时间因素的重要性,并展示了 Python 在 A/B 测试中的具体应用实例。
300 1
|
机器学习/深度学习 算法 TensorFlow
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
交通标志识别系统。本系统使用Python作为主要编程语言,在交通标志图像识别功能实现中,基于TensorFlow搭建卷积神经网络算法模型,通过对收集到的58种常见的交通标志图像作为数据集,进行迭代训练最后得到一个识别精度较高的模型文件,然后保存为本地的h5格式文件。再使用Django开发Web网页端操作界面,实现用户上传一张交通标志图片,识别其名称。
518 7
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
|
机器学习/深度学习 数据采集 Python
从零到一:手把手教你完成机器学习项目,从数据预处理到模型部署全攻略
【10月更文挑战第25天】本文通过一个预测房价的案例,详细介绍了从数据预处理到模型部署的完整机器学习项目流程。涵盖数据清洗、特征选择与工程、模型训练与调优、以及使用Flask进行模型部署的步骤,帮助读者掌握机器学习的最佳实践。
761 1
|
机器学习/深度学习 人工智能 数据处理
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
探测外太空中的系外行星是天文学和天体物理学的重要研究领域。随着望远镜观测技术的进步和大数据的积累,科学家们已经能够观测到大量恒星的光度变化,并尝试从中识别出由行星凌日(行星经过恒星前方时遮挡部分光线)引起的微小亮度变化。然而,由于数据量巨大且信号微弱,传统方法难以高效准确地识别所有行星信号。因此,本项目旨在利用机器学习技术,特别是深度学习,从海量的天文观测数据中自动识别和分类系外行星的信号。这要求设计一套高效的数据处理流程、构建适合的机器学习模型,并实现自动化的预测和验证系统。
362 1
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
|
机器学习/深度学习 算法 数据挖掘
从菜鸟到大师:Scikit-learn库实战教程,模型训练、评估、选择一网打尽!
【9月更文挑战第13天】在数据科学与机器学习领域,Scikit-learn是不可或缺的工具。本文通过问答形式,指导初学者从零开始使用Scikit-learn进行模型训练、评估与选择。首先介绍了如何安装库、预处理数据并训练模型;接着展示了如何利用多种评估指标确保模型性能;最后通过GridSearchCV演示了系统化的参数调优方法。通过这些实战技巧,帮助读者逐步成长为熟练的数据科学家。
456 3

热门文章

最新文章