加入 Kaggle 大数据竞赛,总共分几步?

简介:

加入 Kaggle 大数据竞赛,总共分几步?

日前,谷歌在 Google Cloud Next 云计算大会上宣布收购知名大数据竞赛平台 Kaggle。消息一出,震动了数据科学、AI、机器学习三界(详见雷锋网文章:谷歌收购 Kaggle 为什么会震动三界?)。相信经过这条新闻的曝光,未来会出现更多的开发者和从业人员加入 Kaggle 一展身手。为此,雷锋网编译了一篇国外大牛的博文,其中总结了入门 Kaggle 竞赛的四个简单步骤,希望对相关人员有所帮助。

加入 Kaggle 大数据竞赛,总共分几步?

原文作者 Jason Brownlee,机器学习专家,开发者,作家,企业家,曾在美国国防部门、初创企业和极端天气预报机构从事机器学习的相关开发工作多年。目前为了帮助机器学习领域更多的开发者,开设了一个名为 Machine Learning Mastery 的网站,提供各种入门和高级的机器学习教程。

为什么选 Kaggle?

目前,开发者可以通过各种各样的方式来学习和实践机器学习技能,但为什么大家都选择 Kaggle 呢?或许是因为 Kaggle 具有以下一些特定的优势:

● 问题的定义明确,直接提供了可用的数据库;

● 由于行业里充斥着各种五花八门的排行榜,因此很难找到其他更客观的机器学习测试平台;

● 通常每场比赛都会有许多讨论和分享,参赛者可以从中学习,并参与分享;

● 通过解决现实生活中的某个特定数据问题,参赛者可以充分展示自己;

● 这是一个完全靠技术说话的平台,只要你能解决问题,就能赢得尊重,跟学历和学位无关。

概述

这里,我总结了入门 Kaggle 竞赛的四个简单步骤:

1. 选定一个平台

2. 基于标准的数据库练习

3. 练习旧的 Kaggle 题目

4. 在 Kaggle 上比赛

就像这世上的许多事,简单地写出这四个步骤当然很容易,但实现起来很难。实现它们需要付出非凡的时间和精力,无疑会是一项艰苦的工作。当然,天道酬勤,只要你付出了努力,并且有条不紊地坚持下去,那么总有一天你将成为一名世界级的机器学习从业者。

另外,对于那些已经具备一些开发经验的读者,你可以直接跳到第四步开始比赛。但对于本文的主要读者,那些入门级的用户,我还是建议从第一步开始。

下面我们具体看看这四个步骤。

1. 选定一个平台

同样,摆在开发者面前的可选平台也很多,可能最终你会发现初期的选择纠结是没有必要的,因为每个开发者实际上都同时使用许多平台,但刚开始你必须选定一个。

这里,我推荐大家以 Python 为起点。原因有以下几条:

● 业界对基于 Python 的机器学习需求正在增长;

● 不像 R 语言,Python 是一个全功能的编程语言;

● Python 的生态系统已经基本成熟,可选的工具包非常丰富,例如 sklearn,pandas,statsmodels,xgboost 等;

● Python 具有一些非常好的深度学习框架:Theano,TensorFlow,Keras 等。

总之,你必须先选定一个平台,并开始学习如何使用它。

深入阅读:

● Python is the Growing Platform for Applied Machine Learning

地址:http://machinelearningmastery.com/python-growing-platform-applied-machine-learning/ 

● Python Machine Learning

地址:http://machinelearningmastery.com/start-here/#python 

2. 基于标准的数据库练习

选定了平台之后,下一步就是基于真实的数据库展开实践。

这里我推荐通过 UCI machine learning repository (UCI 机器学习资源库)来解决一些标准的机器学习问题。

UCI 官网:http://archive.ics.uci.edu/ml/index.html 

需要强调的是:将每个数据集都视为一次小型的比赛。相关注意事项包括:

● 将数据集组织成一个队列,并且保留测试集,将测试集分成一个公共和私人的排行榜;

● 概括每一个数据集的处理过程,坚持下去,并不断修正这一过程,直到通过它你可以很容易地得到针对每一个小型数据集的顶级结果;

● 对每一个数据集规定时间上线,例如必须在几个小时内完成;

● 充分利用相关数据集的文档资料,以更好地定义既定问题和解释特征。

● 学习如何充分利用好每一个工具、算法和数据集。

总之,你需要认真对待每一个数据集,通过处理各种不同的数据集积累经验,并将这些经验应用到处理新的数据集中。

深入阅读:

● Practice Machine Learning with Small In-Memory Datasets

http://machinelearningmastery.com/practice-machine-learning-with-small-in-memory-datasets-from-the-uci-machine-learning-repository/ 

● Applied Machine Learning Process

http://machinelearningmastery.com/start-here/#process 

加入 Kaggle 大数据竞赛,总共分几步?

3. 练习旧的 Kaggle 题目

经过以上两步,现在你已经清楚地认识了自己的工具,并懂得如何去使用它们,是时候练习一些旧的 Kaggle 题目了。

你可以访问那些旧的 Kaggle 比赛的数据集,并针对这些数据发布自己的解决方案,然后在公共和私人的榜单上进行评估。

第三步的核心目的是:学习以往比赛中的顶级选手是如何处理竞赛性的机器学习问题的,然后将他们的方法融入自己的解题思路之中。相关注意事项包括:

● 尽量选择类型各不相同的问题,迫使自己学习和应用新的、与以往不同的技术;

● 研究论坛里的帖子、顶级选手的博客、GitHub 仓库和所有其他的相关资料,学习别人的解决方案;

● 以进入公共或私人排行榜的前 10% 为奋斗目标;

● 针对同一个数据集,尝试多个不同的获奖者的解决方案。

总之,你需要认真学习以往的优秀参赛者的解决方案和工具,并吸收他们的优点,进一步积累经验,将这些经验应用到新数据集的处理中。

深入阅读:

● Machine Learning is Kaggle Competitions

http://machinelearningmastery.com/machine-learning-is-kaggle-competitions/ 

● Discover the Methodology and Mindset of a Kaggle Master: An Interview with Diogo Ferreira

http://machinelearningmastery.com/discover-the-methodology-and-mindset-of-a-kaggle-master-an-interview-with-diogo-ferreira/ 

4. 在 Kaggle 上比赛

现在,你已经可以正式参加 Kaggle 比赛了。

下面是一些参赛的注意事项:

● 一次只处理一个问题,直到被卡住;

● 以进入每个问题的私人排行榜的前 25% 或前 10% 为奋斗目标;

● 尝试在论坛上自由分享,这会引发良性的互动和协作;

● 最大限度地缩短思考/阅读一个好主意和将之付诸实践的时间(例如几分钟之内);

最后需要强调的是,Kaggle 虽然的确是一场比赛,但我们应该抱着学习和分享的态度去参赛。

深入阅读:

● How to Kick Ass in Competitive Machine Learning

http://machinelearningmastery.com/how-to-kick-ass-in-competitive-machine-learning/ 

● Master Kaggle By Competing Consistently

http://machinelearningmastery.com/master-kaggle-by-competing-consistently/ 





本文作者:恒亮
本文转自雷锋网禁止二次转载, 原文链接
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
SQL 数据采集 JSON
天池大数据竞赛 Spaceack带你利用Pandas,趋势图与桑基图分析美国选民候选人喜好度
竞赛地址: https://tianchi.aliyun.com/competition/entrance/531837/introduction 首先,这是一篇面向新人的教程导向的分析文章,(by the way其实我也是新手,从比赛开始才学的Pandas库,这也是我的一篇学习笔记),所以会包含很多函数的基础用法,解题思路等等, 流程会比较详细。 其次,本文在官方教程基础上会加入创新内容,但是绝不会为了用而用某种新方法,一定本着分析数据有所帮助的原则和对数据敬畏的态度来做。
396 0
天池大数据竞赛 Spaceack带你利用Pandas,趋势图与桑基图分析美国选民候选人喜好度
|
SQL 存储 分布式计算
阿里云EMR计算速度提升2.2倍 连续两年打破大数据领域最难竞赛世界纪录!
4月26日,大数据领域权威竞赛TPC-DS公布了最新结果,阿里云作为全球唯一入选的云计算公司获得第一。值得一提的是,去年阿里云EMR首次打破该竞赛纪录,成为全球首个通过TPC认证的公共云产品。今年在这一基础上,EMR的计算速度提升了2.2倍,连续两年打破了这项大数据领域最难竞赛的世界纪录。
阿里云EMR计算速度提升2.2倍 连续两年打破大数据领域最难竞赛世界纪录!
|
人工智能 运维 大数据
工业大数据竞赛
近年来,随着大数据的火热,机器学习已从学术界的科研熔炉中慢慢走出来,开始寻求工业实践落地,此时工业大数据竞赛作为新一轮实践平台,为更多高校、科研单位的技术科研成果的场景实践提供了可能。
|
20小时前
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
20小时前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之怎样可以将大数据计算MaxCompute表的数据可以导出为本地文件
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
20小时前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之可以使用什么方法将MySQL的数据实时同步到MaxCompute
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
20小时前
|
分布式计算 DataWorks 数据库
DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
25 0
|
20小时前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在 DataWorks 中,使用Oracle作为数据源进行数据映射和查询,如何更改数据源为MaxCompute或其他类型
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
30 1