机器学习基础概念|学习笔记

简介: 快速学习机器学习基础概念。

开发者学堂课程【机器学习入门-概念原理及常用算法机器学习基础概念】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/355/detail/4180


机器学习基础概念

 

内容介绍

一、人工智能、机器学习、深度学习

什么是人工智能

什么是机器学习

四、举例

  

一、人工智能、机器学习、深度学习

人工智能从1950年兴起,1980年机器学习开始繁荣,2010年深度学习黑科技开始兴起人工智能包含机器学习机器学习包含深度学习互相包含的关系。

image.png

 

二、什么是人工智能

Some classic definitions, building computers that...

Think like humans

cognitive science/ neuroscience

e.g., General Problem Solver(Newell and Simon, 1961)

Think rationally

logic and automated reasoning

but, not all problems can be solved just by reasoning

Act like humans

Turing Test

Act rationally

basis for intelligent agent framework

unclear if this captures the current scope of AI research

image.png

经典的定义希望它能够像人一样思考做事情甚至是像人一样去推理做一些更智能的事情图灵测试认知科学老科学等。

Its goal is to enable the development of computers that are able to do things normally done by people— in particular, things associated with people acting intelligently

image.png

如上图所示几个常用的领域有推理机器人机器学习知识数据挖掘自然语言处理视觉领域这样区分不是指这几个有严格的界限只是非常粗糙的区别人工智能的目标使得有这样的计算机像人一样智能的去做一些事情总体的目标

image.png

从实用主义的角度来看跟学习相关跟搜索编程planning模型社交信息分类等在背后指的都是机器学习

Fun time

Which of the following field cannot use artificial intelligence?

A. Finance

B. E-commerce

C. Law

D. None of the above

abc三个领域都可以用人工智能的知识

 

三、什么是机器学习

1、Definition: computational methods using experience to improve performance

2、Experience:data-driven task, thus statistics, probability, and optimization

3、Computer science: learning algorithms, analysis of complexity theoretical guarantees

4、Example: use document word counts to predict its topic

定义其实就是一类的计算方法,通过使用经验去改进性能,它经验主要是数据驱动的一些经验,通过从数据里面得这些经验,跟数据相关的无非就是这样几个学科,一个是统计概率,还有优化理论通过这样几个理论结合数据让机器去学习同时跟经验相关的还有包括计算机科学里面相关的比如优化理论里面很多一个具体学习的算法有这些算法就会有复杂度的分析这个是跟计算机学科息息相关的。比如使用一个文档里面它的词的一个视频的技术去预测它大概是属于什么样的一个 topic ,比如一篇文章它到底是属于科技类的,娱乐类的还是别的一个类型的。

(1)Machine Learning is a way of getting computers to come up with their own logic...

To solve problems based on examples that we provide

image.png

机器学习被认为是一种方式这种方式使得计算机能够按照它们自己的逻辑去做一些事情,比如给一个三角形,告诉这是个三角形,这个机器从此之后就认识这个东西就是三角形。通常的方法就是通过从数据里面去学,给大量的例子,告诉说不同形状的这些东西都是三角形,然后在某个瞬间它再看到一个三条边的一个形状的时候,可能就会知道这个东西三角形通过从这样一个数据里面,通过一定的算法来学到这个东西是三角形这样的一个经验,或者是这样的一个知识。

(2)Here are few pictures of Black Bears and Grizzly Bears...

If I show you this...

You know it's a Black Bear from the previous pictures.

But the pictures I trained you with were all taken from the side.

Why didn't that confuse you?

Your brain was smart enough to find a pattern in the training pictures(nose, color) without being explicitly told what to look for.

image.png

第二个例子去识别黑熊和灰熊,左边是黑熊图片,右边是微熊的图片,如果一张黑熊的图片如果人来看肯定知道这个是一个黑熊因为前面已经见了大量的黑熊的这样一个知识,但如果给都是一些侧面的照片,为什么这样张照片?还是能知道它是黑熊因为人可以从鼻子颜色清楚的知道它就是黑熊。

Machine Learning allows computers to learn in the same way.

基于学习希望机器也能够跟人的学习方式样去让这个机器去学习最终目标甚至都没有办法去区分在面前的到底是一个人还是一个机器。

(3)Lets look at a real example involving the Titanic...

Can you find out if this person survived or not?

Thanks to Machine Learning, computers can digest this data in an instant to make accurate predictions.

image.png

比如泰坦尼克号里面,已经知道哪些人哪个年龄段他在哪个仓位的这些人,最后在泰坦尼克号里面他们活下来了,有这样一个数据,如果现在一个男性29岁,他是一等舱的,那么这个人到底是存活还是没有存活,人能够从给出的 Excel 表格里面能学到一些规则经验等最后可能对这样一个事情来进行一些预测或者一些推测,有机器学习,可以把这样的数据给,那么就能自己去消耗这样一些数据,通过这些数据能够做的一个非常准确的预测,比如前面的例子,29岁的男性一等舱之后可能很大概率上面它会存活年龄性别仓位可以把它称之为特征抽取。

 

四、举例

Feature Engineering and Selection

Feature Extraction-- Spam Filter

Feature Extraction -Medical Diagnosi

Predict whether a patient will survive?

Features?

Heart rate

Age

image.png

比如常常用到这样一个垃圾邮件的过滤,比如收到了一个邮件公司的阿里云邮箱识别出这个是一个可能的垃圾邮件,可能做法把一些常用的词给收集起来,去看这些常用词的邮件里面出现了多少,来判定这个是不是一个垃圾邮件,用于一个普通的捕捉贝叶斯,就能把这个准确率做到非常高,那么它里面特征可以认为就是把里面的词来当做这样一个特征。

White blood cell count

FE is manually designing what the inputx's should be, use business experience and data driven insights to identify what in the data is correlated to the target

②Brainstorm features(理解业务)→Devise features(统计类、ID类…数值化/归一化…)>Select features(feature importance、正则化、univariate statistical tests…)

第二个例子是医学的诊断,要看一个病人最后能不能生存下来,能不能存活。

比如说像心率、年龄或者白细胞的数目等等,可以想出一系列的特征就会来预判这个人是不是会存活。所以关于这个特征都统称为特征的这样一个工程。这个工程是一门非常大的一个学科,它里面牵扯到特征的构造、特征的处理、特征的选择等等那特征工程就是去输入变量X应该是一个什么样的东西?

特征工程需要用到一些商业的经验,还有对数据的洞察,去识别出说在这个数据里面哪些跟最终的目标是相关的,然后把这样一些东西把它当做一些特征,理解业务的基础上,可能最后还需要去做很多的一些特征的处理,比如去设计一些统计类的特征,这个人在这个月之内登录了多少次登支付宝这一类的一个统计类的特征,ID 类的特征,比如这个人的学历是不是有小孩等等,还有可能大量的这样一个文本类的特征,把它数据化归一化之后,这中间有非常多的统计学上的一些处理方法,可以对这样些变量进行一些处理完之后,一般是说把这样一些特征送到个机器学习的算法里面去,让他们来进行学习,学完之后来看他的效果之后,可以通过一定的方式去选择这样一些跟这个目标非常相关的一些或者说的目标对目标贡献比较大的一些特征。

比如一个特征重要程度,通过这种特征的重要程度来进行筛选,比如通过这样一个逻辑回归里面的智能化,通过智能化的方式把一些不重要的特征把它惩罚掉,甚至通过统计学里面的一些  test 的方式来去选择一些特征。总特征工程是一个非常大的学科

Fun time

Which of the following is best suited for machine learning?

A. predicting whether the next cry the baby girl happens at an even-numbered minute or not

B. determining whether a given graph containis a cycle

C. deciding whether to approve credit card to some çustomer

D. guessing whether the earth will be destroyed by the misuse of nuclear power in the next ten years

ABCD、4个场景,哪个场景最适用于这样一个机器学习呢?这个答案跟蚂蚁金服的可能未来的一些金融相关业务比较相关,对其他的几个答案或者其他的几个答案场景跟这些学习相对离得远一点,有一些是可以通过数学上有些公式可以去判定,有一些是没有样本,还有一些是没有办法去用一些方法去进行预测

相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 JavaScript
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
在信息论、机器学习和统计学领域中,KL散度(Kullback-Leibler散度)是量化概率分布差异的关键概念。本文深入探讨了KL散度及其相关概念,包括Jensen-Shannon散度和Renyi散度。KL散度用于衡量两个概率分布之间的差异,而Jensen-Shannon散度则提供了一种对称的度量方式。Renyi散度通过可调参数α,提供了更灵活的散度度量。这些概念不仅在理论研究中至关重要,在实际应用中也广泛用于数据压缩、变分自编码器、强化学习等领域。通过分析电子商务中的数据漂移实例,展示了这些散度指标在捕捉数据分布变化方面的独特优势,为企业提供了数据驱动的决策支持。
74 2
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
|
1月前
|
机器学习/深度学习 传感器 算法
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
|
6月前
|
机器学习/深度学习 自然语言处理 算法
|
3月前
|
机器学习/深度学习 算法
【机器学习】解释对偶的概念及SVM中的对偶算法?(面试回答)
解释了对偶的概念,指出对偶性在优化问题中的重要性,尤其是在强对偶性成立时可以提供主问题的最优下界,并且详细阐述了支持向量机(SVM)中对偶算法的应用,包括如何将原始的最大间隔优化问题转换为对偶问题来求解。
87 2
|
3月前
|
机器学习/深度学习
【机器学习】准确率、精确率、召回率、误报率、漏报率概念及公式
机器学习评估指标中的准确率、精确率、召回率、误报率和漏报率等概念,并给出了这些指标的计算公式。
654 0
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之深度学习算法概念
深度学习算法是一类基于人工神经网络的机器学习方法,其核心思想是通过多层次的非线性变换,从数据中学习表示层次特征,从而实现对复杂模式的建模和学习。深度学习算法在图像识别、语音识别、自然语言处理等领域取得了巨大的成功,成为人工智能领域的重要技术之一。
90 3
|
3月前
|
机器学习/深度学习 算法 搜索推荐
【机器学习】凸集、凸函数、凸优化、凸优化问题、非凸优化问题概念详解
本文解释了凸集、凸函数、凸优化以及非凸优化的概念,并探讨了它们在机器学习中的应用,包括如何将非凸问题转化为凸问题的方法和技术。
266 0
|
5月前
|
机器学习/深度学习 人工智能 算法
【机器学习】深度探索:从基础概念到深度学习关键技术的全面解析——梯度下降、激活函数、正则化与批量归一化
【机器学习】深度探索:从基础概念到深度学习关键技术的全面解析——梯度下降、激活函数、正则化与批量归一化
62 3
|
5月前
|
机器学习/深度学习 数据采集 人工智能
机器学习基础概念与初步探索
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。作为人工智能的核心,机器学习是使计算机具有智能的根本途径。未来的机器学习将具有更高的自动化水平,能够处理更加复杂和抽象的问题,为人类带来更多的便利和价值。
46 2
|
5月前
|
机器学习/深度学习 算法 数据格式
机器学习线性回归——概念梳理及非线性拟合
机器学习线性回归——概念梳理及非线性拟合
86 0

热门文章

最新文章

下一篇
无影云桌面