机器学习的领域|学习笔记

简介: 快速学习机器学习的领域。

开发者学堂课程【机器学习入门-概念原理及常用算法机器学习的领域】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/355/detail/4181


机器学习的领域


内容介绍

一、机器学习的领域

二、机器学习的目标

定义跟术语

Standard Scenarios

Fun Time

 

一、机器学习的领域

1、Classification: assign a category to each item(e.g, document classification).

分类是分到一个具体的目录里面把文档分为娱乐科技体育等等

分类是分到一个具体的目录里面

2、Regression: predict a real value for each item(prediction of stock values, economic variables).

违规是预测出一个实数的值比如股票预测股价经济预测经济的增长速度具体的值

3、Ranking: order items according to some criterion(relevant web pages returned by a search engine).

排序是通过某一种标准去排序比如搜索引擎里面给它一个搜索目标返回一系列排好序的结果

排序是通过某一种标准去排序

4、Clustering: partition data into 'homogeneous'regions(analysis of very large data sets).

聚类物以类聚通过对一个数据的分析把它分成几个大的区域

聚类

5、Dimensionality reduction:find lower-dimensional manifold preserving some properties of the data.

维度的降维去找一个比较好的低维的东西去展示原来的数据但这个低维的东西可能保留一个原始的数据绝大部分有用的一个属性

这些东西如何去用它呢

image.png

比如样本数大于50才可能会用到这样一个东西如果样本数小于50,应该去收集更多的数据收集数据之后是不是需要做 category 的东西如果是 category 的东西如果有label一般是属于分类的任务如果没有label一般是属于聚类的任务如果不是 category是一个数量的值实数的值一般情况下如果去预测这样一个实数的值用回归的东西比较合适如果不去预测数量本身的值就是想去看或者做一些图表去洞察一下这个数据做一些降维比较合适


二、机器学习的目标

1、Theoretical questions:

(1)what can belearned, under what conditions?

它是在什么样的条件下什么东西能进行学习

(2)are there learning guarantees?

这些学习有理论上的保障吗

(3)analysis of learning algorithms.

给定一个学习算法之后它会进行一些分析算法学习的数据怎么样它能收敛到一个什么样的情况是不是可以收敛了等这个是有一系列理论上的问题也牵扯出一系列的学科概率统计图优化等这里有非常多的学科在后面做一些理论的支持和支撑

给定一个学习算法之后


2、Algorithms:

具体的算法等解决了一些理论上的问题之后来看具体的算法去做的更加高效更加准确有没有去处理大数据大规模的问题有没有办法去提供一个种类丰富的算法集或者一个学习问题有多种解等每个目标里面都牵扯着机器学习里面的子学科

(1)more efficient and more accurate algorithms

(2)deal with large-scale problems

(3)handle a variety of different learning problems.

 

三、定义跟术语

1、Example:

item, instance of the data used.

样本例子

样本


2、Features:

attibutes associated to an item, often represented as a vector(e.g, word counts).

特征就是 example 中一些跟它关联的属性经常会被表达成一个向量的方式

特征就是


3、Labels:

category (clasification) or real value(regression)aassociated to an item.

一个技术方式 labellabel 是分类打比方淘宝里面一个裙子属于连衣裙这样一个类目这样是它的 label如果是回归赔付率本身这样也是它的一个 label

一个技术方式


4、Data:

training data(typically labeled); test data (labeled but labels not seen); validation data (labeled, for tuning parameters).

数据本身可能会分为训练数据测试数据跟验证数据等这种分法是通过这种方式来衡量机器学习算法 performance它的性能是什么样子validation 这样一个数据一般是有助于去调删上的事情

image.png

如图所示

这里不同颜色的小圆圈可以认为是一个样本一个 label在二维空间里面x1 、 x2 都可以认为是它的一个特征不同颜色代表它是不同的 label

比如三个颜色把它分别认为是某一种车的类型等写上分类的两根线可以认为是一个具体的机器学习算法得到了一个模型进行有效的区分这里面可以看到有一些颜色是分错的是一个 error这个错误是有效的去衡量这样一个算法的效率和效果 performers 一种方式这里还提到 one stepstwo stepsthree steps 这种方式大部分求解的方式都是通过迭代的方式所以是有多轮或多步迭代所以能看到这样一个迭代的在这里面

 

四、Standard Scenarios

具体来看一下机器学习算法的分类比如有 label 可以认为它是一个监督学习没有 label 认为它是一个无监督学习基于它们两者之间叫半监督除此之外还有一种其实跟人下棋的状态很像叫做强化学习它是有一定的观察然后你维护了一个状态的东西通过这样一个动作获得一种奖罚机制用这种方式来学习的叫做强化学习

具体来看一下机器学习算法的分类


1、Unsupervised learning:

no labeled data.

监督跟非监督都非常像只是中间没有 label

image.png

 

2、Supervised learning:

uses labeled data for prediction on unseen points.

比如给一些芒果里面有熟的有生的那如果告诉芒果是熟的还是生的通过图片通过一个机器学习算法得到一个模型这种认为是监督学习如果把熟了或者没熟的这个东西给它去掉这样就成为无监督学习通过剧烈的方式从流程图上看这样一些东西拿来之后设计特征送到一个集群的算法里面得到一个模型再进行预测

image.png


3、Semi-supervised learning:

uses labeled and unlabeled data for prediction on unseen points.

 

4、Reinforcement learning:

observation+ action+ reward+ state

强化学习这里用了一个老鼠走迷宫的方式老鼠的头脑里面有状态图通过 action 里面环境本身会有一个奖惩的机制比如再某一个地方给它奖励或者惩罚通过这样的方式更正或学习到一些东西同过来观察它能够去跟踪和学习到一些东西去更正它内部的状态通过这样的方式进行学习

image.png


5、Formalize the Learning Problem

数学上形式化一下x 为输入通常它是一个输入的形式或者矩阵的形式输出 y  label通常它也是一个向量或矩阵方式 x  y去探索一个未知的模式数据就是一大堆的训练样本训练样本就是用数据的方式就是 xy有些没有 y希望从大量的 example 里面学到一个去探索这种未知的 f最后学到一个积这就是最终要学到的一个结果。

Basic Notations

input:  (customer application)

output: y Y (good/bad after approving credit card)

unknown pattern to be learned target function:

f: Xy (ideal credit approval formula)

data # training examples: D= {(X1.y1),(X2, y2),···,(XN-yN)]}

(historical records in bank)

hypothesis skill with hopefully good performance:

g: XY('learned' formula to be used)

{(Хn. Уn)}frоmf МL - g

image.png


再展开一点讲从一个很大的假设集里面从数据里面去学到一个最终的积希望这个积跟未知的 f 非常的接近怎么去判定它是不是接近设置一个loss function如果在这样一个有不同的输出 label有些是有有些是没有把它分为监督跟非监督通过输出的 space 不一样把它分为回归分类其实还有一类分为 batch  online 这种方式

通过这样一个方式来对机器学习算法其实都是从不同的视角去看这样的一些机器学习的一个算法

image.png

 

五、Fun Time

How to use the four sets below to form a learning problem for item recommendations?

S1=[0; 100]; S2=all possible (userid, itemid) pairs; S3= all formula that 'multiplies' user factors& item factors; indexed by all possible combinations of such factors; S4= 1,000,000 pairs of((userid, itemid), rating)

A.S1=X;S2 = Y;S3= H;S4 = D

B.Sl=Y;S2=X;S3=H;S4=D

C.S1=D;S2 = H;S3 = Y;S4= X

D.S1=X;S2=D;S3=Y;S4=H

看一个具体的例子比如这里给到一些数据几个s1到s4的集合形式化去定义一下什么是一个推荐s3是假设集s4是数据集s1 labels2 x向输入通过这种方式很明显去感知到形式化的定义

相关文章
|
3月前
|
机器学习/深度学习 数据采集 算法
深入了解机器学习:从入门到应用
【10月更文挑战第6天】深入了解机器学习:从入门到应用
|
7月前
|
机器学习/深度学习 数据采集 搜索推荐
机器学习多场景实战(一)
机器学习已广泛应用,从个性化推荐到金融风控,数据指标是评估其效果的关键。数据指标包括活跃用户(DAU, MAU, WAU)衡量用户粘性,新增用户量和注册转化率评估营销效果,留存率(次日、7日、30日)反映用户吸引力,行为指标如PV(页面浏览量)、UV(独立访客)和转化率分析用户行为。产品数据指标如GMV、ARPU、ARPPU和付费率关注业务变现,推广付费指标(CPM, CPC, CPA等)则关乎广告效率。找到北极星指标,如月销售额或用户留存,可指导业务发展。案例中涉及电商销售数据,计算月销售金额、环比、销量、新用户占比、激活率和留存率以评估业务表现。
|
7月前
|
机器学习/深度学习 搜索推荐 数据挖掘
机器学习多场景实战(二 )
这是一个关于机器学习应用于电商平台用户行为分析的概要,包括以下几个关键点: 1. **月活跃用户分析**:通过购买记录确定活跃用户,计算每月活跃用户数。 2. **月客单价**:定义为月度总销售额除以月活跃用户数,衡量平均每位活跃用户的消费金额。 3. **新用户占比**:基于用户首次购买和最近购买时间判断新老用户,计算每月新用户的购买比例。 4. **激活率计算**:定义为当月与上月都有购买行为的用户数占上月购买用户数的比例,反映用户留存情况。 5. **Pandas数据操作**:使用Pandas库进行数据集合并(concat和merge),以及计算不同维度的组合。
|
7月前
|
机器学习/深度学习 数据采集 算法
【机器学习】机器学习基础概念与初步探索
【机器学习】机器学习基础概念与初步探索
67 0
|
8月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习】机器学习简单入门
【机器学习】机器学习简单入门
73 1
|
8月前
|
机器学习/深度学习 人工智能 算法
机器学习入门知识
机器学习入门知识
189 0
|
机器学习/深度学习 人工智能 算法
【机器学习基础】机器学习入门(2)
【机器学习基础】机器学习入门(2)
76 0
|
机器学习/深度学习 人工智能 搜索推荐
【机器学习基础】机器学习入门(1)
【机器学习基础】机器学习入门(1)
99 0
|
机器学习/深度学习 存储 人工智能
机器学习入门
机器学习入门
113 0
|
机器学习/深度学习 人工智能 文字识别