《构建实时机器学习系统》一第1章 实时机器学习综述 1.1 什么是机器学习-阿里云开发者社区

开发者社区> 华章计算机> 正文

《构建实时机器学习系统》一第1章 实时机器学习综述 1.1 什么是机器学习

简介: 本节书摘来自华章出版社《构建实时机器学习系统》一 书中的第1章,第1.1节,作者:彭河森 汪涵,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
+关注继续查看

第1章

实时机器学习综述

1.1 什么是机器学习

相信本书的读者都已经接触过一点机器学习了,或者听说过各种新奇的机器学习方法,或者通过相关新闻了解过机器学习的应用场景。那么,大家是否了解机器学习的定义呢?事实上,对它的定义层出不穷,不同领域的大咖往往都会有一个从自己角度出发的特别“机灵”的定义。比如,吴恩达(Andrew Ng)是深度学习的先驱者之一,他对机器学习的定义是从计算机从业者的角度出发的,他的定义是:
机器学习是一门科学,它旨在让计算机自主化工作,而不需要刻意编程。
而从统计和数据分析的角度出发,世界领先的统计软件公司 SAS 对机器学习的定义是:
机器学习是一种方法,它旨在用数据分析自动化模型的建立。
笔者个人从学术和工业界应用的角度出发,认为机器学习的定义应该包括以下三个方面。
用数据说话:在常规计算机编程中,所有的逻辑都是人为设定的。而机器学习方法是试图让观测到的数据和现象成为编撰逻辑的依据,不同模型之间的衡量标准也试图尽量达到标准化,以使得人为干预最小化。
高度自动化:机器学习模型往往会在工业应用中不断重复更新,所以机器学习建模生存期中的每个步骤往往都是可以高度自动化的。
鲁棒性:虽然教科书中很少提及,但鲁棒性(又称稳定性,Robustness)确实是机器学习方法论中隐含的一个巨大要求。由于模型建立高度自动化,因此我们需要运用的机器学习模型在面对极端数据的时候只会受到较少影响,不需要人为排错。
根据笔者的经验,以上三点是一个组织成功运用机器学习的必要条件,但是一定要以用户体验为出发点来进行均衡。
在工业应用中,上面这三点的重要性总是在不断得到印证。下面就通过两个应用中的有名案例来体会一下。

  1. 谷歌通过机器学习和人工干预进行网页筛查
    谷歌等搜索引擎公司每天需要处理上百万个新网页信息。为了向用户快速提供这些信息,谷歌多年来通过不懈的努力开发出了 Caffeine 平台,将提供实时新闻搜索结果的延迟从一天缩短到了若干分钟。机器学习数据驱动、高度自动化的特点让谷歌用户受益不少。就连微软在通过记者发布会宣布发行Windows10 的时候,谷歌搜索引擎也比微软自有的必应搜索引擎更快地呈现了与Windows10 相关的信息。同时为了满足鲁棒性的要求,谷歌通过第三方人工服务,不断进行人工抽样审查了大量的网页内容。
  2. Yelp 机器学习模型的失败
    Yelp 类似于国内的大众点评网,其内容多为用户生成,对餐馆、娱乐、家装等行业都有很全面的覆盖。由于大量商家的成败都取决于 Yelp,因此市场上出现了冒充消费者进行刷点的评论师。评论师会按照商家的要求对商户进行不公正的点评,从而对消费者产生误导。Yelp 意识到了这样的问题,并且建立了机器学习模型进行自动化侦测。但可能是建模数据出现了问题(比如,建模的时候使用了评论师的数据),因此生成的模型并没有阻挡评论师的进攻,真正的用户所产生的评论反而会被屏蔽掉,用户体验大打折扣。

通过这样的案例,我们可以意识到基本数据采集对机器学习模型的重要性。如果数据出现了问题,那么后面的模型、架构再强大也没有办法产生效益。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
什么是机器学习?机器变得越来越聪明,不再是科幻电影
机器学习(ML)是教导计算机系统根据一组数据进行预测的过程。通过为系统提供一系列的试验和错误场景,机器学习研究人员致力于创建 可以分析数据,回答问题并自行做出决定的人工智能系统。
1502 0
css知多少(2)——学习css的思路
原文:css知多少(2)——学习css的思路 两周之前写过该系列的第一篇,其实当时只是一个想法,这段时间迟迟未更新,是在思考一个解决过程。现在初有成效,就开更吧。 1. 一个段子   开题不必太严肃,写博客也不像写书,像聊天似的写东西是最好的表达方式。
922 0
生产中的 Serverless 机器学习流水线
本文定义了生产环境中对机器学习流水线的要求,提供了基于阿里云函数工作流 (FnF),函数计算 (FC) 结合容器服务 K8s 实现 Serverless ML Pipeline 的解决方案。通过分析得出结论:该方案可以提高研发效率,优化运维和经济成本,帮助 ML 更快产生商业价值。
3395 0
走进机器学习
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习、深度学习的知识! 机器学习(Machine Learning, ML),顾名思义就是要让机器能像人一样去学习。
1033 0
使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎
Apache Kafka 是一个可扩展,高性能,低延迟的平台,允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。 Spark Streaming 是 Apache Spark 的一部分,是一个可扩展、高吞吐、容错的实时流处理引擎。
2829 0
何谓机器学习?
       最近我和一对夫妇共进晚餐,他们问我从事什么职业,我回应道:“机器学习。”妻子回头问丈夫:“亲爱的,什么是机器学习?”她的丈夫答道:“T-800型终结者。”在《终结者》系列电影中,T-800是人工智能技术的反面样板工程。
1000 0
《构建实时机器学习系统》一1.6 实时应用对机器学习的要求
本节书摘来自华章出版社《构建实时机器学习系统》一 书中的第1章,第1.6节,作者:彭河森 汪涵,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
964 0
10059
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载