《阿里云天池大赛赛题解析(机器学习篇)》导读

本文涉及的产品
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析DNS,个人版 1个月
简介: 《阿里云天池大赛赛题解析(机器学习篇)》导读

1 前言

作为大数据行业的从业人员和数据分析的爱好者,长期关注于kaggle和天池的比赛情况,也慢慢的见证了天池平台的成长。得到天池团队赠送的《阿里云天池大赛赛题解析(机器学习篇)》一书后,花了2个月的时间仔细读了一遍,可以用爱不释手来形容。因此,有了写一篇导读将这本书介绍给对于大数据算法有兴趣的朋友们。

2 全书概览

全书的结构围绕以下4道赛题组成:
(1)工业蒸汽量预测
(2)天猫用户重复购买预测
(3)O2O优惠券预测
(4)阿里云安全恶意程序检测
4道赛题所采用的算法模型都是机器学习算法,也符合本书的定位,没有涉及到深度学习的领域,实际上从近期天池平台的赛题设置包括kaggle的赛题设置可以发现,针对图像处理相关赛题的比重正在逐步变多,个人感觉是和现实生活包括工业场景中数据异构的情况占绝大部分有关。因此,如果纯粹的把算法的使用或者赛题的设置限制在结构化数据,则会对算法的落地产生麻烦,最终会造成因比赛而比赛,为了获奖而设计算法的情况,这明显不是天池比赛的初衷。而本书之所以会单独将机器学习算法赛题集结成册,个人感觉是成书的目标不仅仅是赛题的解读或者获奖选手的代码集锦,而是有教学目的的,这个从书中每道题的讲解顺序中也可以发现。

因此,从全书的结构角度虽然很可能乍一看觉得是讲了4道题的解答方法,但是4道题的代码解释明显用不了那么大的篇幅。仔细的看下去,就可以发现,其实是目前机器学习教科书中很特殊的一种写作方式,以赛题为核心,先以理论切入,后将理论结合赛题说明思路,最后是代码的解释。

由于机器学习的算法涉及到一些数学方面的知识(当然数学要求比深度学习略低),仅仅看理论的教材很容易让初学者有退却的心理,面对一大堆的公式无所适从,更不知道这些算法在实际过程中如何应用,而看论坛里各位大神的代码,又是没有理论解释的,天池团队的这本书正好填补了中间这个空白,因此也是让我爱不释手的原因。

3 本书细分章节的特点

本书的4道题,每道的细分章节都相似,其实就是整个数据科学家或者数据分析师工作的流程,当然缺少了数据采集的环节,原始数据作为赛题本身的一部分已经预先提供。

收到数据以后,之后的步骤就是数据概览(书里叫数据探索)、特征工程、模型训练、模型验证和作为提高的模型优化,当然也可能全部流程完成后发现瓶颈其实不在模型和调参,而在于特征工程没有做好,这个情况其实我觉得在进入一个陌生的领域时会经常发生,所以特别面向工业领域的算法设计,了解工艺生产流程是非常有必要的,甚至可以直接决定特征工程的结果。

数据探索方面,其主要的目的是对于数据集及数据的分布情况有一个全面的了解。如果对于机器学习的算法原理比较熟悉的话,在这个阶段已经会有意向中可能会采用的算法。书中,天池团队先进行了本阶段所需要理论知识的介绍,这一个部分中,所需要的理论知识基本属于统计范畴和可视化范畴,所得出的结果也是描述型的。从宏观上对于数据的分布有一个了解,细节上知道数据集的缺失值情况、各个维度间的相关性以及作为赛题来说训练集和测试集的关系。

特征工程方面,这个步骤其实占了全局绝大部分的工作量,比较繁琐,又不得不做,因为自然渠道收集到的各种数据多多少少存在问题。事实上,数据中台的价值一直被通俗的概括为数据驱动,看似宏观但从特征工程方面就可以准确理解什么是数据驱动。要驱动形形色色的功能业务,必然需要面对特定场景的数据,而采集的原始数据基本上都不能直接作为输入。因此,特征工程的任务就是将杂乱的原始数据整合成生产资料的过程。书中介绍的特征工程内容是全书的一个重头戏,也是其他参考书中比较少涉及到的领域,毕竟介绍模型和算法的参考书非常多,而包括降维、异常值检测、缺失值填充则只有全流程经历过并依靠实际的数据集处理展示才能讲明白。

模型的训练部分,书中提供了同一场景多种模型的解题思路,也是从算法的原理讲起,但是并不偏向纯数学,个人感觉,如果是面向工程的,足够,如果偏向算法原理改进等学术研究的,则还需要结合其他更偏重理论研究的参考资料,本书在这方面着眼于机器学习的面,并不过于纠结某个点。4道题的模型介绍基本覆盖了常用的机器学习算法,和kaggle同类题采用的算法也差不多,仔细看一遍能够了解整个领域的算法模型组成和具体的使用场景。

模型验证方面,主要由两部分的内容组成,即验证指标的选择和调参,验证指标方面书中并未完全拘泥于赛题的验证指标,对于不同算法所采用的验证指标介绍是非常详细的。调参方面,这其实是一个迭代过程,手工调参高手必然是结合了对算法原理的精通和大量的实际调参经验,而自动调参则是在经验法则下的反复尝试。

4 总结

总体这本书是一本非常好的教学读物,不可以单纯的将其视为赛题的归纳,天池团队在赛题之外全流程的介绍了数据分析和数据挖掘的过程,各个步骤的介绍都非常详细。平时作为备查的资料也相当不错,也非常期待后续有深度学习类的相同著作问世。

作者:朱祺 高级工程师 国际电气电子工程师协会IEEE高级会员 英国工程技术学会MIET 阿里云MVP

目录
相关文章
|
22天前
|
机器学习/深度学习 编解码 人工智能
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
随着人工智能、大数据和深度学习等领域的快速发展,GPU服务器的需求日益增长。阿里云的GPU服务器凭借强大的计算能力和灵活的资源配置,成为众多用户的首选。很多用户比较关心gpu云服务器的收费标准与活动价格情况,目前计算型gn6v实例云服务器一周价格为2138.27元/1周起,月付价格为3830.00元/1个月起;计算型gn7i实例云服务器一周价格为1793.30元/1周起,月付价格为3213.99元/1个月起;计算型 gn6i实例云服务器一周价格为942.11元/1周起,月付价格为1694.00元/1个月起。本文为大家整理汇总了gpu云服务器的最新收费标准与活动价格情况,以供参考。
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
|
5天前
|
机器学习/深度学习 数据采集 算法
R语言中的机器学习库:caret与mlr的深度解析
【9月更文挑战第2天】Caret和mlr是R语言中两个非常重要的机器学习库,它们在数据预处理、模型构建、调优和评估等方面提供了丰富的功能。Caret以其易用性和集成性著称,适合初学者和快速原型开发;而mlr则以其全面性和可扩展性见长,适合处理复杂的机器学习项目。在实际应用中,用户可以根据具体需求和项目特点选择合适的库进行开发。无论是学术研究、商业智能还是教育场景,这两个库都能为数据科学家和机器学习爱好者提供强大的支持。
|
12天前
|
弹性计算 负载均衡 数据库
阿里云轻量应用服务器全面解析:收费标准、产品优势及适用场景
在云计算领域,阿里云凭借其强大的技术实力和丰富的产品线,为用户提供了一系列高效、便捷的云服务器产品。其中,轻量应用服务器(Simple Application Server)作为面向个人开发者、中小企业等用户的入门级云产品,凭借其易用性、高性价比以及一站式服务体验,受到了广泛的欢迎。本文将全面解析阿里云轻量应用服务器的收费标准、产品优势以及适用场景,帮助用户更好地了解和选择这一产品。
阿里云轻量应用服务器全面解析:收费标准、产品优势及适用场景
|
16天前
|
弹性计算 负载均衡 数据库
阿里云轻量应用服务器收费标准、性能及适用场景全面解析
阿里云轻量应用服务器(Simple Application Server)作为面向个人开发者、中小企业等用户的入门级云产品,凭借其易用性、高性价比以及一站式服务体验,受到了广泛的欢迎。本文将全面解析阿里云轻量应用服务器的收费标准、最新活动价格以及适用场景,帮助用户更好地了解和选择这一产品。
阿里云轻量应用服务器收费标准、性能及适用场景全面解析
|
19天前
|
人工智能 智能设计 数据挖掘
阿里云高校计划价值与意义解析
阿里云推出了“阿里云高校计划”,旨在通过提供普惠算力和丰富的云产品,助力高校科研与教育加速,让每位在校大学生都能真实受益于这一技术变革。本文将深入探讨阿里云高校计划的详细内容及其对高校学子的深远影响。
阿里云高校计划价值与意义解析
|
24天前
|
机器学习/深度学习 弹性计算 人工智能
阿里云第八代云服务器ECSg8i实例深度解析:性能及适用场景参考
目前企业对云服务器的性能、安全性和AI能力的要求日益提高。阿里云推出的第八代云服务器ECS g8i实例,以其卓越的性能、增强的AI能力和全面的安全防护,除了适用于通用互联网应用和在线音视频应用等场景之外,也广泛应用于AI相关应用。本文将深入解析ECS g8i实例的技术特性、产品优势、适用场景及与同类产品的对比,以供参考。
阿里云第八代云服务器ECSg8i实例深度解析:性能及适用场景参考
|
4天前
|
弹性计算 开发框架 数据可视化
阿里云虚拟主机和云服务器有什么区别?多角度全解析对比
阿里云虚拟主机与云服务器ECS的主要区别在于权限与灵活性。虚拟主机简化了网站搭建流程,预装常用环境,适合初级用户快速建站;而云服务器提供全面控制权,支持多样化的应用场景,如APP后端、大数据处理等,更适合具备技术能力的用户。尽管虚拟主机在价格上通常更优惠,但随着云服务器价格的下降,其性价比已超越虚拟主机,成为更具吸引力的选择。
|
4天前
|
机器学习/深度学习 数据采集 存储
一文读懂蒙特卡洛算法:从概率模拟到机器学习模型优化的全方位解析
蒙特卡洛方法起源于1945年科学家斯坦尼斯劳·乌拉姆对纸牌游戏中概率问题的思考,与约翰·冯·诺依曼共同奠定了该方法的理论基础。该方法通过模拟大量随机场景来近似复杂问题的解,因命名灵感源自蒙特卡洛赌场。如今,蒙特卡洛方法广泛应用于机器学习领域,尤其在超参数调优、贝叶斯滤波等方面表现出色。通过随机采样超参数空间,蒙特卡洛方法能够高效地找到优质组合,适用于处理高维度、非线性问题。本文通过实例展示了蒙特卡洛方法在估算圆周率π和优化机器学习模型中的应用,并对比了其与网格搜索方法的性能。
60 1
|
17天前
|
机器学习/深度学习 数据挖掘
机器学习模型的选择与评估:技术深度解析
【8月更文挑战第21天】机器学习模型的选择与评估是一个复杂而重要的过程。通过深入理解问题、选择合适的评估指标和交叉验证方法,我们可以更准确地评估模型的性能,并选择出最适合当前问题的模型。然而,机器学习领域的发展日新月异,新的模型和评估方法不断涌现。因此,我们需要保持对新技术的学习和关注,不断优化和改进我们的模型选择与评估策略。
|
18天前
|
机器学习/深度学习 人工智能 监控

热门文章

最新文章

推荐镜像

更多
下一篇
DDNS