《构建实时机器学习系统》一1.8 实时机器学习模型的生存期-阿里云开发者社区

开发者社区> 华章计算机> 正文

《构建实时机器学习系统》一1.8 实时机器学习模型的生存期

简介: 本节书摘来自华章出版社《构建实时机器学习系统》一 书中的第1章,第1.8节,作者:彭河森 汪涵,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
+关注继续查看

1.8 实时机器学习模型的生存期

进行实时机器学习开发必须考虑生存期。生存期是指一个系统从提出、设计、开发、 测试到部署运用、维护、更新升级或退役的整个过程。若在生存期设计上出现了数据,那么在后面的使用中就会出现各种各样的瓶颈阻碍应用产生价值。
从软件工程的角度上讲,开发实时机器学习也遵从构思、分析、设计、实现和维护五个步骤,这五个步骤可能会循环往复,随着业务的发展进行多次迭代。实时机器学习模型的应用由于其技术的特殊性,也具有自己的小型生存期,其中包括数据收集、数据分析、离线手工建模评测、上线自动化建模评测这四个方面。如图1-1所示,离线手工建模评测、上线自动化建模评测这两个部分主要是靠监督式机器学习。而数据分析主要是依靠非监督式机器学习和统计数据分析。

screenshot

值得一提的是,进行上面这四个步骤的前提是机器学习模型能够给组织和用户带来价值。但是,众多开发人员甚至是领导层都不愿意面对的一个问题是:我的模型真的有用吗?
对于一些非机器学习大数据类的初创公司来说,在用户数量并不太多的情况下,用非监督式机器学习进行少量数据分析,然后用人力进行反馈,反而有可能会取得更优良的投资回报率。笔者道听途说得知国内一些门户视频网站,就算在公司都已经上市之后,仍然还在使用人工选择的方式进行视频推介,甚至还取得了尚可的效果。
如果机器学习不能给组织带来直接效果,就算有高层支持,对于机器学习从业人员来说也不是很好的职业选择。在机器学习能为组织带来效益的情况下,让数据说话,从业人员才能够不断进行深挖,并得到更多的锻炼和领域洞见;与此相反,如果所建立的系统听起来很好,但是却没能带来相对应的效益,那么这样岗位上从业人员的工作重心就会像浮萍一样随波逐流,被公司政治利益驱动,长期来说这样很不利于从业人员的个人发展。
机器学习实战的最高境界,就是知行合一,在创造科技前沿作品的同时,能够为个人、组织和社会带来效益,这也是本书写作的指导思想。
在下面的章节里,我们将会从更实际的角度出发来探索实时机器学习的应用。其中,第2章到第4章,我们将会介绍监督式机器学习模型,并且学习建模的工具Pandas和Scikit-learn;第6章到第9章,我们将会介绍实时机器学习的架构,并且学习使用Docker、 RabbitMQ、Elasticsearch及数据库等重要组成部分。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
《构建实时机器学习系统》一第2章 实时监督式机器学习 2.1 什么是监督式机器学习
本节书摘来自华章出版社《构建实时机器学习系统》一 书中的第2章,第2.1节,作者:彭河森 汪涵,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1509 0
《构建实时机器学习系统》一1.7 案例:Netflix在机器学习竞赛中学到的经验
本节书摘来自华章出版社《构建实时机器学习系统》一 书中的第1章,第1.7节,作者:彭河森 汪涵,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1505 0
SLS机器学习最佳实战:时序预测
通过分析序列进行合理预测,做到提前掌握未来的发展趋势,为业务决策提供依据,这也是决策科学化的前提。 时间序列就是按时间顺序排列的一组数据序列。时间序列分析就是发现这组数据的变动规律并用于预测的统计技术。
4494 0
《构建实时机器学习系统》一1.8 实时机器学习模型的生存期
本节书摘来自华章出版社《构建实时机器学习系统》一 书中的第1章,第1.8节,作者:彭河森 汪涵,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1827 0
【Science】CMU机器学习系主任:八个关键标准判别深度学习任务成功与否
AlphaGo战胜人类、机器人写作、人脸识别……越来越多的人工智能设备正在进入人们的生活,并从事流水化的工作。有人认为未来人类的工作将被机器学习所取代,人们面临失业的危险。Erik Brynjolfsson和Tom Mitchell从技术与经济学角度,来分析上述结论是否能站住脚。
1553 0
使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎
Apache Kafka 是一个可扩展,高性能,低延迟的平台,允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。 Spark Streaming 是 Apache Spark 的一部分,是一个可扩展、高吞吐、容错的实时流处理引擎。
2827 0
阿里云机器学习技术与应用
本文整理自2017云栖大会-成都峰会上阿里云高级专家刘吉哲的分享讲义。讲义主要分享了阿里云机器学习系统PAI2.0的算法、框架及其关键技术和应用举例。
1709 0
10059
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载