新手入门赛-阿里移动推荐算法(下)|学习笔记

简介: 快速学习新手入门赛-阿里移动推荐算法(下)

开发者学堂课程【天池大赛算法教程及获奖选手答辩 新手入门赛-阿里移动推荐算法(下)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/389/detail/5000


新手入门赛-阿里移动推荐算法(下)


内容介绍:

一、机器学习如何解决二分类问题
如何将购买预测的问题转化为二分类问题
线下如何实现

 

一、机器学习如何解决二分类问题

image.png

在命题中,给定一个二维平面,给出很多个点,这些点有两种不同的属性,有些是蓝色,有些是红色点。

问在给定一个新的点之后,需要判断它有多大可能是蓝色的,或有多大可能是红色,这就是一个最为基础的一个预测二分类的一个命题。

在这个命题中,解剖一下可以发现有三个关键组件,第一是研究对象即为平面上的点,这些对象拥有一些自己的特征,在这个问题中对应着这个点的坐标数值。

同时对象也拥有它的一个标签,蓝色或者红色,通常把它记为0或者1。那么传统的一个方法,逻辑斯回归就是用于解决此类问题。

通常将对象属于0或1的概率建模成一个表达式.

研究对象:点
对象特征:点坐标数值(X0,X1)
对象标签:蓝色(0)或者红色(1)
Logistic Rcgrcssion

建模:

image.png

目标:

image.png

二、如何将购买预测的问题转化为二分类问题

如何将购买预测的问题转化为二分类问题?

首先,给定0到30天的用户行为数据,然后预测31天的购买行为。并继续做一个简单的推广。

在原有的一个基础问题的概念之上,发现在这个问题中,点变成了一个三元组,这三组分别是特定的用户、特定的商品以及特定的考察日。是非常简单的坐标数据特征,然后可以上升为在考察日之前。

在多天的时间里面,该用户和该商品之间各种相关的,行为的一些统计量都可以作为特征,具体哪些统计可以通过思考这些业务的逻辑,去自自行构造。

给定0~30天的用户行为数据,预测31天的用户购买行为。
研究对象转化为 (用户商品考察日)
对象特征点坐标数值(X0,X1)转化为 在考察日之前该用户、该商品相关的各种行为的统计量
对象标签蓝色(0)或者红色(1) 转化为该用户在考察日购买了该商品(1)或者没购买该商品(0)

例(13245,7789,29)

X0:考察日前一天该用户对该商品进行了多少次浏览操作
(有多少条用户为13245,商品为7789,日期为28天,操作为浏览的记录)

X1:考察日前一天该用户对该商品是否进行了加入购物车操作
(用户13245是否在28天将商品7789加入了购物车)
X2:考察日前一周该用户是否购买了该商品
(用户13245是否在第22天到第28天中对商品7789有购买的记录)

 

三 、线下如何实现

(1)推荐使用 linux ubuntu, mac os
2更多的参考资料

1. Logistic Regression:
http://blog.csdn.net/zouxy09/article/details/20319673
2.Python basic:http://www.dotnetperls.com/python
3. Sklearn with Python:
http://kukuruku.co/hub/python/introduction-to-machine-learning-with- python-andscikit-learn

(3)环境安装 python numpy sklearn

1.读取线下训练的候选对象、线下评估的候选对象、线上评估的候选对象

2.统计所有对象的特征向量以及训练样本标签

3.训练模型

4.使用模型进行线下预测、评估、线上预测

相关文章
|
1月前
|
算法 搜索推荐 测试技术
python排序算法及优化学习笔记1
python实现的简单的排序算法,以及算法优化,学习笔记1
33 1
|
1月前
|
存储 算法
【数据结构与算法】【腾讯阿里链表面试题】算法题--链表易懂版讲解
【数据结构与算法】【腾讯阿里链表面试题】算法题--链表易懂版讲解
|
6月前
|
缓存 算法 架构师
阿里P9架构师终于把毕生心血而成的分布式高可用算法笔记开源了
说在前面的话 分布式系统无处不在。 一台计算机内部多个互联的处理器组成了一个分布式系统,它们通过“一致性缓存”算法使每个处理器核心看到相同的数据。近三十年来,随着互联网的发展,越来越多的互联网后台系统采用计算机集群的方式来应对海量请求和数据的需求,这个计算机集群也是分布式系统。 为了简化分布式系统的开发,出现了很多为开发者提供分布式框架的开源项目,例如Apache基金会旗下的ZooKeeper项目就是一个应用广泛的分布式框架。 同时,国内也有很多关于如何使用这些分布式框架来搭建应用的书籍,它们极大地推动了分布式系统在国内的应用。我们不仅要知道如何使用这些现成的分布式框架来搭建应用,而且应
|
3月前
|
算法 搜索推荐 Java
太实用了!阿里内部强推的超全Java算法学习指南,已被彻底征服
算法和数据结构一直以来都是程序员的基本内功。 数据结构可以看作是算法实现的容器,通过一系列特殊结构的数据集合,能够将算法更为高效而可靠地执行起来。
|
3月前
|
算法
电子好书发您分享《阿里技术参考图册——算法篇》
电子好书发您分享《阿里技术参考图册——算法篇》
47 9
|
4月前
|
算法 NoSQL Java
2023年阿里高频Java面试题:分布式+中间件+高并发+算法+数据库
又到了一年一度的金九银十,互联网行业竞争是一年比一年严峻,作为工程师的我们唯有不停地学习,不断的提升自己才能保证自己的核心竞争力从而拿到更好的薪水,进入心仪的企业(阿里、字节、美团、腾讯.....)
|
4月前
|
存储 人工智能 算法
|
5月前
|
算法 网络协议 Java
48W字?GitHub上下载量破百万的阿里:图解Java、网络、算法笔记
Java基础这个东西,无论在哪个公司都被看得尤为重要,而面试中关于基础的问题也是层出不穷。所以基础可以说是重中之重,当你的基础打牢了,其他的也就没有那么重要了。
|
5月前
|
机器学习/深度学习 自然语言处理 算法
Python预测 数据分析与算法 学习笔记(特征工程、时间序列)2
Python预测 数据分析与算法 学习笔记(特征工程、时间序列)
112 0
|
5月前
|
机器学习/深度学习 算法 数据可视化
Python预测 数据分析与算法 学习笔记(特征工程、时间序列)1
Python预测 数据分析与算法 学习笔记(特征工程、时间序列)
72 0