曙光EasyOP:让我来接管你的HPC系统吧!

简介:

ZD至顶网服务器频道 04月22日 新闻消息(文/于泽):“锄禾日当午,不如运维苦”,一句话就真实反映出了IT运维人员的真实处境。7x24小时的操心、劳碌,只有经历过的人才深有体会。在日前召开的中科曙光EasyOP(Easy Operation的简称)在线运维平台正式上线仪式上,来自中国科学院物理研究所的徐力方研究员表达了自己的感慨,“半夜三更穿着裤衩背心就往机房跑,虽然投入了大量的精力,但仍时刻提心吊胆。” 

曙光EasyOP:让我来接管你的HPC系统吧!

EasyOP上线仪式

其实,这不仅是他一个人面对的问题,而是广大中小型客户所面临的共同难题。相比大型企业,他们没有那么多的财力、物力、人力,但却同样需要IT来帮助他们实现业务上的提升,于是随着技术的进步,有了更多更适合他们的方式,比如云计算在某种意义上就具备这样的属性,而中科曙光发布的EasyOP同样有这层涵义。 

简单来说,EasyOP是软件+服务,其中软件就类似于现在的系统管理软件,能够实现对系统组件、业务情况的监控、管理,要说特别其实并没有太多特殊之处。重中之重在于服务,由中科曙光的一支专家团队提供的7x24小时支持团队,出现故障由厂商来解决,这将从根本上避免出现半夜三更你还得跑机房的现象出现。 

曙光EasyOP:让我来接管你的HPC系统吧!

特别指出的是,EasyOP并不是面向通用IT系统的一个在线运维平台,而是针对高性能计算这一细分领域。至于为什么开发这么一个平台,与曙光一直以来的专注方向密不可分。众所周知,曙光专注HPC(高性能计算)领域20余年,光HPC系统就卖出去1万多套。用曙光公司副总裁沙超群的话来说,他们一直以来都在思考除了系统,还能为客户提供什么样的服务。在这样的发展思路指导下,也就有了EasyOP。 

从产品功能而言,EasyOP能够实现监控数据的实时远程采集、海量数据的存储与展示、故障的分析与定位技术、大量数据的统计与分析、移动终端的集成与推送(微信、短信)。这些可能听着比较抽象,但在与徐力方的交流中,我们得到的反馈是完全解放。在接入EasyOP后,他不再操心这些,一切都在掌控之中。

话说EasyOP早在去年的HPC China 2015(2015全国高性能计算学术年会)上就亮过相,从那时候至今的半年时间内,曙光也一直在积极地进行测试,包括中国科学院物理研究所在内的20家客户都是它的首批用户。 

从实际情况来看,EasyOP累计接入来自20组HPC集群的超过7800个节点,应用涵盖CAE、气象、海洋、物理、生物、材料及互联网6大领域,对所有接入集群资产全面监控的指标超过180项。从周期上看,EasyOP接入时间跨度分布合理,系统满负载和低负载的情况均包含在内。在监控的7800多个节点中,CPU的最高和平均利用率为83%和70.1%,内存的最高和平均利用率为40%和25.5%,存储的最高和平均利用率为23%和20.3%。另外,在EasyOP接入的资源作业中,中短时长作业占近70%,作业排队率约为1/5。 

根据测试结果,试运营半年期间,全部集群共自动触发近2900条通知信息,其中2281条是因计算节点主要部件温度升高触发的轻微类通知。严重类通知仅有3条,其中两条起因自共享存储挂载故障,一条系严重级别温度过高导致节点自动关机。 

应该说EasyOP的正式发布是经历了严格测试的,而且还有一个好消息是EasyOP一年内免费试用,至于1年后是否收费、怎么收费尽管现在还没确定,但是曙光高性能产品事业部总经理曹振南在接受采访时表示,在基础设施运维服务这一层,他们目前考虑的还是倾向于免费,也就是说未来EasyOP很可能也是免费的。


原文发布时间为:2016-04-22

本文作者:于泽 

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。



相关文章
|
NoSQL Java Redis
redis: jedis连接超时(需要手动注入连接超时检测的配置)
redis: jedis连接超时(需要手动注入连接超时检测的配置)
1122 0
|
消息中间件 Kafka 程序员
kafka的Docker镜像使用说明(wurstmeister/kafka)
wurstmeister/kafka是镜像市场上很受欢迎的一个kafka镜像,今天来聊聊它的多种用法
6771 0
kafka的Docker镜像使用说明(wurstmeister/kafka)
|
安全 Linux 网络协议
几款Linux系统漏洞扫描、评估工具简介
一、Nmap Nmap 是一种常用工具,可用于判定网络的布局。我们可以在网络上使用 Nmap 来查找主机系统以及打开这些系统的端口。
2674 0
|
Kubernetes 网络协议 网络安全
Kubernetes node的防火墙问题导致pod ip无法访问
环境: 1.在hadoop36机器,ping hadoop38机器的pod的ip,为172.30.1.4 2.该pod的service的external-ip的ip为hadoop36的ip3.
5239 0
|
8月前
|
Kubernetes 安全 异构计算
K8S 部署 Deepseek 要 3 天?别逗了!Ollama+GPU Operator 1 小时搞定
最近一年我都在依赖大模型辅助工作,比如 DeepSeek、豆包、Qwen等等。线上大模型确实方便,敲几个字就能生成文案、写代码、做表格,极大提高了效率。但对于企业来说:公司内部数据敏感、使用外部大模型会有数据泄露的风险。
K8S 部署 Deepseek 要 3 天?别逗了!Ollama+GPU Operator 1 小时搞定
|
10月前
|
人工智能 负载均衡 算法
DeepSeek开源周第四弹之二!EPLB:专为V3/R1设计的专家并行负载均衡器,让GPU利用率翻倍!
EPLB 是 DeepSeek 推出的专家并行负载均衡器,通过冗余专家策略和负载均衡算法,优化大规模模型训练中的 GPU 资源利用率和训练效率。
537 1
DeepSeek开源周第四弹之二!EPLB:专为V3/R1设计的专家并行负载均衡器,让GPU利用率翻倍!
|
消息中间件 监控 物联网
物联网8大协议介绍及对比
根据具体的应用需求,选择合适的协议可以大幅提升系统的性能和可靠性。希望本文能为您在物联网协议的选择和应用中提供有价值的参考。
4012 0
|
存储 固态存储 关系型数据库
【mysql进阶-彩蛋篇】深入理解顺序io和随机io(全网最详细篇)
【mysql进阶-彩蛋篇】深入理解顺序io和随机io(全网最详细篇)
1140 0
|
存储 Kubernetes 监控
Kubernetes(k8s)集群健康检查常用的五种指标
Kubernetes(k8s)集群健康检查常用的五种指标
1860 1