massquantity_个人页

massquantity

文章

问答

视频

个人介绍

暂无个人介绍

擅长的技术

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

发表了文章 2018-07-28

机器学习之类别不平衡问题 (3) —— 采样方法

机器学习之类别不平衡问题 (1) —— 各种评估指标机器学习之类别不平衡问题 (2) —— ROC和PR曲线机器学习之类别不平衡问题 (3) —— 采样方法前两篇主要谈类别不平衡问题的评估方法，重心放在各类评估指标以及ROC和PR曲线上，只有在明确了这些后，我们才能据此选择具体的处理类别不平衡问题的方法。
发表了文章 2018-07-08

使用Pandas: str.replace() 进行文本清洗

前段时间参加了Kaggle上的Mercari Price Suggestion Challenge比赛，收获良多，过些时候准备进行一些全面的总结，本篇文章先谈一个比赛中用到的小技巧。这个比赛数据中有一个特征叫做 "item_description"，大致是一些商品描述，比如什么时候买的、新旧程度如何、什么牌子的等等。
发表了文章 2018-07-04

EM算法及其应用（一）

EM算法是期望最大化 (Expectation Maximization) 算法的简称，用于含有隐变量的情况下，概率模型参数的极大似然估计或极大后验估计。EM算法是一种迭代算法，每次迭代由两步组成：E步，求期望 (expectation)，即利用当前估计的参数值来计算对数似然函数的期望值；M步，求极大 (maximization)，即求参数$\theta$ 来极大化E步中的期望值，而求出的参数$\theta$将继续用于下一个E步中期望值的估计。
发表了文章 2018-07-01

普林斯顿《算法》笔记（三）

官方网站官方代码第三章查找 3.1 符号表 (Symbol Tables) 符号表是一种存储键值对 (key-value pairs) 的数据结构，其主要目的是将键 (key) 和值 (value) 联系起来。
发表了文章 2018-06-13

集成学习之Boosting —— Gradient Boosting原理

集成学习之Boosting —— AdaBoost原理集成学习之Boosting —— AdaBoost实现集成学习之Boosting —— Gradient Boosting原理集成学习之Boosting —— Gradient Boosting实现上一篇介绍了AdaBoost算法，AdaBoost每一轮基学习器训练过后都会更新样本权重，再训练下一个学习器，最后将所有的基学习器加权组合。
发表了文章 2018-06-11

集成学习之Boosting —— Gradient Boosting实现

Gradient Boosting的一般算法流程初始化： $f_0(x) = \mathop{\arg\min}\limits_\gamma \sum\limits_{i=1}^N L(y_i, \gamma)$ for m=1 to M: (a) 计算负梯度： $\tilde{y}_...
发表了文章 2018-06-01

普林斯顿《算法》笔记（二）

官方网站官方代码第二章排序 2.1 初级排序算法排序就是将一组对象按照某种逻辑顺序重新排列的过程。这里我们主要关注重新排列含有元素的数组 (arrays of items)的算法，其中每个元素都有一个主键 (key)。
发表了文章 2018-05-19

集成学习之Boosting —— AdaBoost实现

集成学习之Boosting —— AdaBoost原理集成学习之Boosting —— AdaBoost实现 AdaBoost的一般算法流程输入：训练数据集 $T = \left \{(x_1,y_1), (x_2,y_2), \cdots (x_N,y_N)\right \}$，\...
发表了文章 2018-05-12

Bagging与方差

在集成学习中，通常认为Bagging的主要作用是降低方差，而Boosting的主要作用是降低偏差。Boosting能降低偏差很好理解，因为其原理就是将多个弱学习器组合成强学习器。但Bagging为什么能降低方差？或者说，为什么将多个强学习器组合起来方差就会降低？这是本篇想要探讨的问题，而在这之前我认为有必要先搞清楚方差和偏差的基本概念。
发表了文章 2018-05-04

普林斯顿《算法》笔记（一）

官方网站官方代码第一章基础 1.1 基础编程模型 1.1节的内容主要为介绍Java的基本语法以及书中会用到的库。下图为一个Java程序示例和相应的注解：本书用到的几种基本语法：初始数据类型 (primitive data tyoes)：整型 (int)，浮点型 (double)，布尔型 (boolean)，字符型 (char)以及组合起来的表达式。
发表了文章 2018-04-27

常见回归和分类损失函数比较

代码损失函数的一般表示为$L(y,f(x))$，用以衡量真实值$y$和预测值$f(x)$之间不一致的程度，一般越小越好。为了便于不同损失函数的比较，常将其表示为单变量的函数，在回归问题中这个变量为$y-f(x)$，在分类问题中则为$yf(x)$。
发表了文章 2018-04-22

numpy.where() 用法详解

numpy.where (condition[, x, y])numpy.where() 有两种用法： 1. np.where(condition, x, y) 满足条件(condition)，输出x，不满足输出y。
发表了文章 2018-03-31

Kaggle竞赛 —— 房价预测 (House Prices)

完整代码见kaggle kernel 或 Github 比赛页面：https://www.kaggle.com/c/house-prices-advanced-regression-techniques 这个比赛总的情况就是给你79个特征然后根据这些预测房价 (SalePrice)，这其中既有离散型也有连续性特征，而且存在大量的缺失值。
发表了文章 2018-03-20

机器学习之类别不平衡问题 (2) —— ROC和PR曲线

机器学习之类别不平衡问题 (1) —— 各种评估指标机器学习之类别不平衡问题 (2) —— ROC和PR曲线完整代码 ROC曲线和PR（Precision - Recall）曲线皆为类别不平衡问题中常用的评估方法，二者既有相同也有不同点。
发表了文章 2018-03-12

机器学习之类别不平衡问题 (1) —— 各种评估指标

在二分类问题中，通常假设正负类别相对均衡，然而实际应用中类别不平衡的问题，如100, 1000, 10000倍的数据偏斜是非常常见的，比如疾病检测中未患病的人数远超患病的人数，产品质量检测中合格产品数量远超不合格产品等。
发表了文章 2018-03-03

Ubuntu 16.04系统开机紫屏的解决办法

具体症状为卡在开机界面，按任何键都无反应。网上查看了几篇文章，如下：解决：ubuntu16.04启动时长时间停留在紫屏或跳文本的黑屏界面 Ubuntu16.04显卡驱动电源管理里面提到的开机进grub在Splah后加 nomodeset，我试了下没用。
发表了文章 2017-09-24

A glimpse of Support Vector Machine

支持向量机（support vector machine，以下简称svm）是机器学习里的重要方法，特别适用于中小型样本、非线性、高维的分类和回归问题。本篇希望在正篇提供一个svm的简明阐述，附录则提供一些其他内容。
发表了文章 2017-08-10

Kaggle竞赛 —— 泰坦尼克号（Titanic）

完整代码见kaggle kernel 或 GitHub 比赛页面：https://www.kaggle.com/c/titanic Titanic大概是kaggle上最受欢迎的项目了，有7000多支队伍参加，多年来诞生了无数关于该比赛的经验分享。

暂无更多信息

发表了文章 2018-07-28

机器学习之类别不平衡问题 (3) —— 采样方法
发表了文章 2018-07-08

使用Pandas: str.replace() 进行文本清洗
发表了文章 2018-07-04

EM算法及其应用（一）
发表了文章 2018-07-01

普林斯顿《算法》笔记（三）
发表了文章 2018-06-13

集成学习之Boosting —— Gradient Boosting原理
发表了文章 2018-06-11

集成学习之Boosting —— Gradient Boosting实现
发表了文章 2018-06-01

普林斯顿《算法》笔记（二）
发表了文章 2018-05-19

集成学习之Boosting —— AdaBoost实现
发表了文章 2018-05-12

Bagging与方差
发表了文章 2018-05-04

普林斯顿《算法》笔记（一）
发表了文章 2018-04-27

常见回归和分类损失函数比较
发表了文章 2018-04-22

numpy.where() 用法详解
发表了文章 2018-03-31

Kaggle竞赛 —— 房价预测 (House Prices)
发表了文章 2018-03-20

机器学习之类别不平衡问题 (2) —— ROC和PR曲线
发表了文章 2018-03-12

机器学习之类别不平衡问题 (1) —— 各种评估指标
发表了文章 2018-03-03

Ubuntu 16.04系统开机紫屏的解决办法
发表了文章 2017-09-24

A glimpse of Support Vector Machine
发表了文章 2017-08-10

Kaggle竞赛 —— 泰坦尼克号（Titanic）

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

正在加载, 请稍后...

暂无更多信息

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

massquantity_个人页

个人介绍

擅长的技术

机器学习之类别不平衡问题 (3) —— 采样方法

使用Pandas: str.replace() 进行文本清洗

EM算法及其应用（一）

普林斯顿《算法》笔记（三）

集成学习之Boosting —— Gradient Boosting原理

集成学习之Boosting —— Gradient Boosting实现

普林斯顿《算法》笔记（二）

集成学习之Boosting —— AdaBoost实现

Bagging与方差

普林斯顿《算法》笔记 （一）

常见回归和分类损失函数比较

numpy.where() 用法详解

Kaggle竞赛 —— 房价预测 (House Prices)

机器学习之类别不平衡问题 (2) —— ROC和PR曲线

机器学习之类别不平衡问题 (1) —— 各种评估指标

Ubuntu 16.04系统开机紫屏的解决办法

A glimpse of Support Vector Machine

Kaggle竞赛 —— 泰坦尼克号（Titanic）

机器学习之类别不平衡问题 (3) —— 采样方法

使用Pandas: str.replace() 进行文本清洗

EM算法及其应用（一）

普林斯顿《算法》笔记（三）

集成学习之Boosting —— Gradient Boosting原理

集成学习之Boosting —— Gradient Boosting实现

普林斯顿《算法》笔记（二）

集成学习之Boosting —— AdaBoost实现

Bagging与方差

普林斯顿《算法》笔记 （一）

常见回归和分类损失函数比较

numpy.where() 用法详解

Kaggle竞赛 —— 房价预测 (House Prices)

机器学习之类别不平衡问题 (2) —— ROC和PR曲线

机器学习之类别不平衡问题 (1) —— 各种评估指标

Ubuntu 16.04系统开机紫屏的解决办法

A glimpse of Support Vector Machine

Kaggle竞赛 —— 泰坦尼克号（Titanic）

普林斯顿《算法》笔记（一）

普林斯顿《算法》笔记（一）