基于参数服务器(Parameter server)的PS-SMART算法

简介:
前天第二届阿里云安全算法挑战赛终于胜利结束了,得了个季军,虽然名次不是最理想的,不过很高兴能认识一大群数据达人,整个比赛的过程也很让人享受。这次比赛过程中我在对网页内容进行分析的时候,部分内容使用了基于Parameter Server的PS-SMART进行分析。我看了一下,好像其他队伍都没有用这个算法,就想给大家简单介绍一下。

我用PS-SMART的原因主要要有2个:
1,节省资源,虽然PS-SMART跑起来感觉比较慢,不过很省资源,很适合这次算法赛(资源有限制)。
2,支持稀疏矩阵,可以直接对三元组转化的K_V结果进行处理。
3,支持二分类,多分类和回归,可以满足多种需求。
大家在资源有限,而且对速度要求不是特别高的场景下可以多考虑一下PS-SMART,用起来结果还是不错的。不过使用的PS-SMART时候要注意控制维度,如果稀疏矩阵的特征维度过大(我测试是超过25000),很容易发生错误。

以下是PAI上关于PS-SMART多分类的帮助:
PS-SMART多分类
PS是参数服务器(Parameter server)的简称。PS致力于解决大规模模型的离线、在线训练任务。SMART是Scalable Multiple Additive Regression Tree的缩写,是Gradient boosting decesion tree (GBDT)在PS上的一个实现。基于PS的Smart实现可以支持百亿样本、几十万特征的训练任务,可以在上千个节点上运行,且有failover功能,稳定性好。同时,PS-Smart支持多种数据格式、训练目标和评估目标,以及输出特征重要性,并包含直方图近似等加速训练的优化。

快速上手
https://zos.alipayobjects.com/rmsportal/CqElMhULXnCHLwYfIgug.png
图中我们使用训练数据学习了一个PS-SMART多分类模型。输出桩有3个,依次为

输出模型:offlinemodel,接统一的预测组件,目前不支持输出叶子节点编号
输出模型表:依然是二进制格式,不可读,是为了兼容已有PS-SMART预测组件,支持输出叶子节点编号,评估指标等功能。但对数据格式有较多要求,体验不佳,会逐渐改良或用其他组件代替。
输出特征重要性表:特征的重要性,有三种重要性类型可选(详见参数说明)

具体帮助请看帮助: 
https://help.aliyun.com/document_detail/42745.html?spm=5176.doc42747.6.548.L1ghS9#PS-SMART多分类

关于PS(Parameter Server)可以看这篇论文:
http://www.cs.cmu.edu/~muli/file/ps.pdf?spm=5176.doc42745.2.45.WdNXZm&file=ps.pdf
相关文章
|
4月前
|
算法 机器人
基于SOA海鸥优化算法的PID控制器最优控制参数计算matlab仿真
本课题研究基于海鸥优化算法(SOA)优化PID控制器参数的方法,通过MATLAB仿真对比传统PID控制效果。利用SOA算法优化PID的kp、ki、kd参数,以积分绝对误差(IAE)为适应度函数,提升系统响应速度与稳定性。仿真结果表明,SOA优化的PID控制器在阶跃响应和误差控制方面均优于传统方法,具有更快的收敛速度和更强的全局寻优能力,适用于复杂系统的参数整定。
|
5月前
|
存储 弹性计算 网络协议
阿里云服务器ECS实例规格族是什么?不同规格CPU型号、处理器主频及网络性能参数均不同
阿里云ECS实例规格族是指具有不同性能特点和适用场景的实例类型集合。不同规格族如计算型c9i、通用算力型u1、经济型e等,在CPU型号、主频、网络性能、云盘IOPS等方面存在差异。即使CPU和内存配置相同,性能参数和价格也各不相同,适用于不同业务需求。
464 144
|
4月前
|
算法 Python
粒子群算法对pi控制器进行参数优化,随时优化pi参数以控制直流无刷电机转速(Simulink仿真实现)
粒子群算法对pi控制器进行参数优化,随时优化pi参数以控制直流无刷电机转速(Simulink仿真实现)
167 9
|
5月前
|
存储 弹性计算 网络协议
阿里云服务器ECS实例规格族详细介绍:计算型c9i、经济型e和通用算力u1实例CPU参数说明
阿里云ECS实例规格族包括计算型c9i、经济型e和通用算力型u1等,各自针对不同场景优化。不同规格族在CPU型号、主频、网络性能、云盘IOPS等方面存在差异,即使CPU内存相同,性能和价格也不同。
780 0
|
6月前
|
算法 数据可视化 数据挖掘
基于EM期望最大化算法的GMM参数估计与三维数据分类系统python源码
本内容展示了基于EM算法的高斯混合模型(GMM)聚类实现,包含完整Python代码、运行效果图及理论解析。程序使用三维数据进行演示,涵盖误差计算、模型参数更新、结果可视化等关键步骤,并附有详细注释与操作视频,适合学习EM算法与GMM模型的原理及应用。
|
10月前
|
Java Linux 定位技术
Minecraft配置文件参数说明(JAVA服务器篇)
Minecraft JAVA版服务器启动后会生成server.properties配置文件,位于minecraft_server/根目录下。该文件包含多项关键设置,如游戏模式(gamemode)、最大玩家数(max-players)、难度(difficulty)等。此文档详细说明了各配置项的功能与默认值,帮助用户高效管理服务器环境。
2361 60
|
9月前
|
域名解析 SQL 网络协议
阿里云服务器国际站高防bgp服务器参数怎么看?服务器被攻击了怎么解决?
阿里云服务器国际站高防bgp服务器参数怎么看?服务器被攻击了怎么解决?
376 4
|
10月前
|
SQL 存储 数据库
KingBase服务器优化:详解Kylin参数配置。
通过适当的调整和优化这些关键参数,你的Kylin可以运行得更加流畅和高效。就像一个经过精心调校的赛车,无论是在赛道的直道还是弯道上,都能展现出卓越的性能。希望这次深入参数“操控盘”的旅行,能让你更好地理解和优化你的Kylin配置。记住,优化是一个持续的过程,不断地试验和改进,你的Kylin才能越来越强大。
227 20
|
10月前
|
网络协议 搜索推荐 Linux
Minecraft配置文件参数说明(基岩版服务器篇)
server.properties 是 Minecraft Bedrock 服务器的核心配置文件,用于定义服务器的基本设置和运行规则。文件通常位于服务端根目录(Windows 示例路径:`C:\bedrock-server`;Linux 示例路径:`/opt/bedrock-server/` 或自定义路径)。根据需求调整参数,可实现个性化服务器配置。
1140 2
|
12月前
|
存储 弹性计算 固态存储
阿里云服务器ESSD Entry系统盘测评IOPS、IO读写和时延性能参数
阿里云ESSD Entry云盘是新一代企业级云盘,具备高IOPS、低延迟特性,适合开发与测试场景。它提供10~32,768 GiB容量范围,最大IOPS达6,000,吞吐量150 MB/s,时延1~3 ms。支持按量付费和包年包月,性价比高,特别适合个人开发者和中小企业。详情及价格参考阿里云官网。

热门文章

最新文章