想降低云服务的花销?或许深度强化学习能帮到你 | 论文

简介:
本文来自AI新媒体量子位(QbitAI)

随着云计算的普遍应用,控制计算成本越来越重要,但有调查显示,30%-45%的云开销被浪费了。一些大企业通常咨询专家控制开支,但一些小企业或个人就无法节省费用了。

近日,研究人员发现深度强化学习算法能平衡云服务性能和开销,用户不用规划如何实现,只需设置他们想达到的效果即可。这项研究大大降低了控制云服务开销的专业门槛。

 云计算让共享软硬件资源能按需提供给计算机各种终端和其他设备/图片来自维基百科

研究人员将这项研究的论文《Automated Cloud Provisioning on AWS using Deep Reinforcement Learning》发表在arXiv上,论文由微软的Zhiguang Wang、商业遥感卫星服务商BlackSky的Chul Gwon和Adam Iezzi以及美国马里兰大学的Tim Oates四名研究人员共同完成。

Double Deep Q-learning

为了让用户轻松减少开销,研究人员用了哪些方法呢?

在这篇论文里,研究人员探索了强化学习在云配给上的应用,用户可以制定基于性能和开销的奖励,强化学习算法计算如何去获取奖励。

研究人员用double deep Q-learning算法在CloudSim云计算仿真器上模拟运行效果,结果能够显示强化学习的效果和这种方法的相对优劣。

 DDQN结构图

上图就是一张基于竞争架构的DDQN(double deep Q-learning network)结构图。SeLU函数激活了四个卷积层,并且没有进行池化操作。研究人员没有在最终输出前插入完全连接层,而是将最后卷积层的平坦特征图减半,以此计算状态和效果。

研究人员发现,这种架构有助于用更少的参数提高稳定性。

亚马逊AWS评测效果

亚马逊网络服务系统(Amazon Web Services,AWS)是亚马逊创建的云计算平台,它提供多种远程Web服务,Amazon EC2与Amazon S3都架构在这个平台上。

 AWS的环境

在论文中,研究人员展示了从简单的模拟器到CloudSim的迁移学习,之后再从CloudSim迁移到一个真实的AWS云环境的实例。

在AWS上的运行效果受到了运行时间的限制。研究人员在AWS系统上的运行阈值基线和DQN模型的时间只有3周,但运行D3QN的时间只有一个星期。为了帮助初始测试和开发AWS的环境,研究人员故意将tabular-based Q-learner的运行时间缩短了。

上图为运行结果,结果中包含用相同binning的模拟运行,方便研究人员与预期的结果进行比较。正如我们在模拟运行中所观察到的,如果leaner能在AWS上多运行一段时间,就能看到提高。

在实际的AWS环境中添加非零延迟值会影响结果。虽然很难看到奖励增多,随着时间的推移,奖励的变化明显减少了,这意味着性能是可以提高的。

商业机会

外国媒体Architecht在推荐这篇论文时,说它看起来像是个商业机会:

这是一个研究课题,如果有人想做,看起来又有些商业前景。这项研究的本质是训练一个系统,它能判断理想性价比和其他商业指标,比如“尽可能在平均用户响应时间增加不超过2%的情况下降低开销”。

这么有趣的事情,怎么能不看看论文呢?

论文获取地址:

https://arxiv.org/abs/1709.04305

本文作者:安妮
原文发布时间:2017-09-17
相关文章
|
25天前
|
存储 人工智能 搜索推荐
整合长期记忆,AI实现自我进化,探索大模型这一可能性
本文探讨了通过整合长期记忆(LTM),AI模型能否实现自我进化,以提升处理新任务和适应环境的能力。LTM能帮助模型存储和利用长期信息,提高决策质量和服务个性化水平。文章还讨论了LTM整合的挑战及解决方案,以及如何借鉴人类记忆机制设计有效的LTM策略。[论文链接](https://arxiv.org/pdf/2410.15665)
78 17
|
3月前
|
机器学习/深度学习 PyTorch 算法框架/工具
揭秘深度学习中的微调难题:如何运用弹性权重巩固(EWC)策略巧妙应对灾难性遗忘,附带实战代码详解助你轻松掌握技巧
【10月更文挑战第1天】深度学习中,模型微调虽能提升性能,但常导致“灾难性遗忘”,即模型在新任务上训练后遗忘旧知识。本文介绍弹性权重巩固(EWC)方法,通过在损失函数中加入正则项来惩罚对重要参数的更改,从而缓解此问题。提供了一个基于PyTorch的实现示例,展示如何在训练过程中引入EWC损失,适用于终身学习和在线学习等场景。
156 4
揭秘深度学习中的微调难题:如何运用弹性权重巩固(EWC)策略巧妙应对灾难性遗忘,附带实战代码详解助你轻松掌握技巧
|
5月前
|
机器学习/深度学习 自然语言处理 负载均衡
揭秘混合专家(MoE)模型的神秘面纱:算法、系统和应用三大视角全面解析,带你领略深度学习领域的前沿技术!
【8月更文挑战第19天】在深度学习领域,混合专家(Mixture of Experts, MoE)模型通过整合多个小型专家网络的输出以实现高性能。从算法视角,MoE利用门控网络分配输入至专家网络,并通过组合机制集成输出。系统视角下,MoE需考虑并行化、通信开销及负载均衡等优化策略。在应用层面,MoE已成功应用于Google的BERT模型、Facebook的推荐系统及Microsoft的语音识别系统等多个场景。这是一种强有力的工具,能够解决复杂问题并提升效率。
185 2
|
5月前
|
机器学习/深度学习 数据采集 自然语言处理
揭秘深度学习的幕后英雄:如何用智慧和策略战胜训练中的怪兽!
【8月更文挑战第16天】深度学习之路坎坷,如攀险峰,每一步都考验耐心与智慧。超参数调试、数据质量、计算资源、过拟合及收敛难题是常遇挑战。通过网格搜索找最优、数据增强平衡样本、混合精度与梯度累积节省资源、正则化及Dropout防过拟合、以及使用高级优化器助收敛,这些问题得以缓解。每克服一个难关,都是向成功迈进一大步,同时也深化了对深度学习的理解与掌握。
53 4
|
8月前
|
机器学习/深度学习 算法 搜索推荐
【高效率学习】探索最适合你的学习之路:从心理学、动机到教育学的深度解析
【高效率学习】探索最适合你的学习之路:从心理学、动机到教育学的深度解析
178 0
【高效率学习】探索最适合你的学习之路:从心理学、动机到教育学的深度解析
|
8月前
|
机器学习/深度学习 数据采集 人工智能
ICLR 2024:RLHF有了通用平台和基准,天大开源,专攻现实决策场景
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
109 0
|
8月前
|
机器学习/深度学习 存储 人工智能
极智AI | 谈谈模型量化组织方式
本文主要聊一下深度学习模型量化组织方式。
327 0
|
8月前
|
机器学习/深度学习 算法 数据可视化
强化深度学习中使用Dyna-Q算法确定机器人问题中不同规划的学习和策略实战(超详细 附源码)
强化深度学习中使用Dyna-Q算法确定机器人问题中不同规划的学习和策略实战(超详细 附源码)
98 0
|
机器学习/深度学习 自然语言处理 搜索推荐
个性化推荐系统中的深度模型:理论、实践与挑战
个性化推荐系统中的深度模型:理论、实践与挑战
442 0
|
存储 机器学习/深度学习 算法
一文概述联邦持续学习最新研究进展(3)
一文概述联邦持续学习最新研究进展
519 0
一文概述联邦持续学习最新研究进展(3)