强化学习策略梯度方法之: REINFORCE 算法
强化学习策略梯度方法之: REINFORCE 算法
2017-03-26 15:57:56
最近在看policy gradient algorithm, 关于公式推导部分有一个 似然比例技巧 (the likelihood ratio trick).
机器学习入门|聚类(一)
聚类算法是在没有给定标签和样本值的前提下进行数据划分,是典型的无监督学习(unsupervised learning)算法,简单的介绍了聚类,记录下学习的笔记!
阿里巴巴搜索无状态服务的秒级弹性调度
目前阿里巴巴搜索的分布式服务一般都是基于Hippo+Carbon来调度的,包括部署、扩缩容、名字服务注册。如下图:
![carbon-hippo.png](https://private-alipayobjects.
自底向上——知识图谱构建技术初探
知识图谱,是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从document级别降到data级别,聚合大量知识,从而实现知识的快速响应和推理。