《从机器学习谈起》读书摘要

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 《从机器学习谈起》读书摘要

1. 什么是机器学习

机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法


机器学习方法是计算机利用已有的数据(经验),得出了某种模型,并利用此模型预测未来的一种方法


2. 机器学习的定义

从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。


从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。


机器学习界“数据为王”, 一般来说(不是绝对),数据越多,最后机器学习生成的模型预测的效果越好

“训练”产生“模型”,“模型”指导 “预测”


3. 机器学习的范围

模式识别=机器学习 模式识别源自工业界,而机器学习来自于计算机学科

统计学习近似等于机器学习

数据挖掘=机器学习+数据库 大部分数据挖掘中的算法是机器学习的算法在数据库中的优化

计算机视觉=图像处理+机器学习

语音识别=语音处理+机器学习

自然语言处理=文本处理+机器学习


4. 机器学习的方法

1、回归算法

线性回归 处理的是数值问题,预测出的结果是数字 “最小二乘法” “数值计算” “梯度下降”以及“牛顿法”

逻辑回归 预测结果是离散的分类, 逻辑回归只是对对线性回归的计算结果加上了一个Sigmoid函数,将数值结果转化为了0到1之间的概率

数据 “标签” “特征”


2、神经网络

也称之为人工神经网络,ANN, 分解与整合 生物科学成分


输入层,接收信号

隐藏层,对数据的分解与处理

输出层


神经元 -> 层 -> 神经网络


神经元: 处理单元事实上就是一个逻辑回归模型


3、SVM(支持向量机)

支持向量机算法从某种意义上来说是逻辑回归算法的强化, 数学成分

高斯“核” 是一种特殊的函数 最典型的特征就是可以将低维的空间映射到高维的空间。


4、聚类算法

K-Means算法


5、降维算法(无监督学习算法)

主要特征是将数据从高维降低到低维层次

主要作用是压缩数据与提升机器学习其他算法的效率

数据的可视化

PCA算法(即主成分分析算法)


6、推荐算法

推荐算法较为特殊,既不属于监督学习,也不属于非监督学习,是单独的一类

一类是基于物品内容的推荐: 每个物品都需要贴标签,因此工作量较大

一类是基于用户相似度的推荐

协同过滤算法


7、其他

高斯判别,朴素贝叶斯,决策树

梯度下降法,主要运用在线型回归,逻辑回归,神经网络,推荐算法中

牛顿法,主要运用在线型回归中;

BP算法,主要运用在神经网络中;

SMO算法,主要运用在SVM中


8、分类

按照训练的数据有无标签分类


监督算法:训练数据都是包含标签

无监督算: 训练数据都是不含标签


监督学习算法:

线性回归,逻辑回归,神经网络,SVM


无监督学习算法:

聚类算法,降维算法


特殊算法:

推荐算法


5. 机器学习的应用–大数据

大数据并不等同于机器学习,同理,机器学习也不等同于大数据。

大数据中包含有分布式计算,内存数据库,多维分析等等多种技术


大数据也包含以下四种分析方法:

 1.大数据,小分析:即数据仓库领域的OLAP分析思路,也就是多维分析思想。

 2.大数据,大分析:这个代表的就是数据挖掘与机器学习分析法。

 3.流式分析:这个主要指的是事件驱动架构。

 4.查询分析:经典代表是NoSQL数据库。


分布式计算Map-Reduce


机器学习模型的数据越多,机器学习的预测的效率就越好

成功的机器学习应用不是拥有最好的算法,而是拥有最多的数据!


6. 机器学习的子类–深度学习

深度学习:传统的神经网络发展到了多隐藏层的情况


1.多隐层的神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;

2.深度神经网络在训练上的难度,可以通过“逐层初始化” 来有效克服。


具有多个隐藏层的神经网络被称为深度神经网络,基于深度神经网络的学习研究称之为深度学习


7. 机器学习的父类–人工智能(AI)

发展阶段:从早期的机器学习推理,到中期的专家系统,现在的机器学习

智慧是对生活的感悟,是对人生的积淀与思考

机器学习的思想:通过经验获取规律,指导人生与未来。没有经验就没有智慧。


深度学习属于机器学习的子类, 机器学习是人工智能子类


image.png

8. 机器学习的思考–计算机的潜意识

明意识 “吾日三省吾身”

潜意识

阐述一个观点时,用一个事实,或者一个故事,比大段的道理要好很多


9. 总结

机器学习的内核思想:统计和归纳

机器学习的真正应用不是通过概念或者思想的方式,而是通过实践。只有当把机器学习技术真正应用时,才可算是对机器学习的理解进入了一个层次。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
机器学习/深度学习 存储 分布式计算
Spark 机器学习 概括统计 summary statistics [摘要统计]
概括统计 summary statistics [摘要统计] 单词 linalg 分开 linear + algebra: 线性代数
171 0
|
机器学习/深度学习 自然语言处理 算法
【机器学习】机器学习中的文本摘要入门指南
鱼羊 编译整理 量子位 出品 | 公众号 QbitAI 如果你是科研狗,一定有过被摘要支配的恐惧。 如果你想在浩如烟海的互联网信息里寻找重点,一定想要快速排除多余的内容。 基于机器学习的自动文本摘要工具,将一键解放你的双手,化身抓重点小能手,为你捕捉关键,排除冗余。
1266 0
|
机器学习/深度学习 人工智能 分布式计算
《从机器学习谈起》读书摘要
《从机器学习谈起》读书摘要
205 0
《从机器学习谈起》读书摘要
|
机器学习/深度学习
机器学习摘要
机器学习摘要 matlab 损失函数 对应一个已经确定了参数的cost function,尽管输入的参数是向量或者是矩阵,但是返回的\(J(\theta)\)一定是一个实数 \(J(\theta)\)是将所有训练样本都输入到模型中计算,返回一个实数 更新假设函数的参数是在输入了所有的训练样本到模型中并且计算出了一个\(J(\theta)\),才进行的 假设函数的值 在matlab编程中,\(h(x)\)假设函数返回的维度和标签是一样的。
1117 0
|
机器学习/深度学习 监控 安全
谷歌《机器学习速成课程》学习摘要
机器学习概念机器学习简介机器学习可以胜任编写一个程序纠正英语拼写错误,并扩展到支持100种语言。
1322 0
|
5月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
227 14
|
5月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
102 1
|
5月前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
5月前
|
机器学习/深度学习 数据采集 算法
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
279 0