大数据时代下,需要什么样的冷存储?

简介:
  智能互联网时代,数据正在以几何级的数量爆炸增长,如何存储并管理这些海量数据,是很多企业面临的一个难题。如果采用传统通用型服务器存储策略,这意味着要建设庞大的数据中心系统,导致存储成本极速攀升。

对于那些云服务提供商而言,大量不断增长的数据例如图片等都属于不经常访问,但却又无法删除的,即使客户很久不会访问这些信息,但依然不能随意删除,并且不允许停机归档,也无法实现洪峰数据控制。对于这些不常访问的“冷”数据,如果我们能把他们迁移到一个专为冷数据而设计的低成本存储层中,将能大幅降低费用。

哪些数据需要?

冷存储主要用于那些备份、灾难恢复、存档、社交媒体等应用领域。这些数据都有一个共通的特性,较低的访问频率,并且需要最大限度的降低其存储成本,同时要求随时可访问。例如用户在社交媒体上存储的大量图片信息,以及法律电子取证要求已存档的数据必须在特定的时间范围内可用。因此,这就要求云服务提供商以及企业必须确保数据的完整性,以及及时的访问权限。

备份对于企业而言至关重要,因为需要备份的数据通常是企业有效运营所需要的信息,如果这些信息无法在特定时间范围回复,将严重影响企业业务。

存档对于企业运营以及提高工作效率必不可少,通常,企业并不需要快速访问已经存档的数据。但检索已经存档的数据可能要花费大量的时间,并且随着企业业务的增长,数据量持续增加,同时这些数据要存储长达几十年甚至更长的时间,这会给存储带来极大的压力。

灾难恢复,热备用暂难恢复服务在云中提供了专业的备用基础设施和数据,这意味着在发生灾难时,可以立即切换到云中。通过冷存储服务,可以消除企业在灾难中数据保护的某些流程,降低成本和复杂性。同时,企业需要快速的重构数据文件,还原应用程序,以最快的速度恢复系统正常运行。

社交媒体,智能互联网时代,大量的社交数据产生,用户通常查看新发布的照片,而对于那些旧的数据,则鲜有人问之。对于照片、视频等这些非结构化数据通常会占用大量存储空间,并且增长速度远远超过其他类型的数据。如果将这些旧的数据迁移到冷存储中,可以大幅降低运营成本。同时提供社交媒体服务的企业必须保护这些数据的隐私安全。

我们需要什么样的冷存储?

对于大部分创业公司而言,通常在公司创立初期,很难将业务细分的非常明确,大部分都会选用通用服务器来做存储,但随着业务的不断扩张,就会考虑将很多计算型节点分离出来。对于那些重要的数据希望在运行的更快的SSD 或PCIE SSD上,而对那些历史数据、日志则希望不要太占用现有服务器存储资源。因此,业务需要进行分层。

如何进行分层?在要确保性能不能有大幅损失的同时降低存储费用,特别是对于那些图片存储,对于一些云服务提供商而言,这一点尤其重要。因为根据其业务类型,就要求及时客户很久没有访问这些数据,也不能随意删除。另外一点非常重要的则是,其业务没有明显的周期性,不像其他行业,如金融等,每天固定时间开市闭市,可以进行数据维护;也没有周期性的数据洪峰,无法做出数据洪峰控制。

如何满足上述需求?联想的冷存储产品不失为一个理想的选择。

联想4U60盘位、双节点的冷存储业务服务器SD600,每节点拥有2个2.5寸系统盘插槽,可以通过更换连接两节点间EXPB槽位的DB卡,实现服务器在HA (High Availability)、Zoning以及 Single Node (JBOD)三种模式下的工作方式。

通过采用联想SD600可以顺利的帮助企业将计算分析业务与数据存储业务分离,当存储服务器的硬件资源主要用于数据存储,数据块为大块数据时,相信SD600将是您最优的选择。因为对并发进程较少的业务来说,每个进程的性能更依赖于CPU的主频。不难看出,存储业务对cores间的进程切换需求很低,对单core的主频性能要求较高。那么经过优化过的Avago磁盘主控芯片,与高频E3 CPU的搭配,将会更好的为您提供数据存储业务。

可灵活选配的联想冷存储

联想SD600 在HA 模式下,当对数据的实时可用能力有较高要求时,可以通过增加一张HA DB card来实现两个节点间的高可用。同时,因为需要用到SAS接口的双通道,需要存储池内的60块盘都是SAS磁盘。当需要降低归档服务器、文件服务器、图片服务器等温冷数据服务器的成本时,可以选用Zoning和Single Node模式。Zoning模式即划分给每个节点30块磁盘做存储池,将SD600变为4U2N服务器使用。Single Node模式可以有效降低互联网公司的图片存储、日志归档、音视频存储业务的硬件建设成本。此外,该模式下一个节点将带起60块SATA硬盘。目前联想推广的最佳实践案例包含6T 7.2k 企业级硬盘/8T 5.9k 企业级云盘。

此外,联想SD600在可靠性和兼容性方面实现了最佳平衡,可以满足RHEL、SUSE、windows、Ubuntu各种业务需求。其采用双排9风扇交叉风向设计,具备了更好的散热效果,满足服务器45℃高温下连续工作的要求,更适合苛刻的数据中心环境。与E5通用服务器相比,联想SD600的TCO至少降低了10%,耗电量降低了8%。同时,仅从数据的存取角度来看,1颗高主频能超线程到8 Thread的E3-1231 v3在相同内存与网络环境的情况下,在客户实际的使用中发现,相比2颗E5-2609 v3数据传输速度会提高10-20%。

 
 
  作者:佚名
来源:51CTO
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
6月前
|
存储 固态存储 算法
固态硬盘损坏后还能做数据恢复吗?完整指南
固态硬盘(SSD)因速度快、抗震动、低噪音被广泛使用,但一旦损坏,用户常因慌乱导致二次损失。本文解析SSD损坏后的数据恢复可行性,介绍逻辑损坏、固件异常、物理损坏三种常见情况,并提供对应的恢复方法与预防措施,帮助用户科学应对数据丢失风险,提升恢复成功率。
|
存储 人工智能 芯片
《光存储与3D存储:开启人工智能硬件存储新时代》
在人工智能快速发展的背景下,数据存储技术的重要性日益凸显。光存储(如全息、多维、超分辨光存储)和3D存储(如3D NAND闪存、3D NVM)等新型技术,以其高密度、高速度的优势,为AI硬件带来全新机遇。这些技术不仅能大幅提升数据处理效率,支持实时决策,还面临成本、稳定性和兼容性等挑战。未来,科研人员和企业需共同努力,推动这些技术与AI硬件的深度融合,助力AI创新与发展。
333 13
|
7月前
|
JSON Java 定位技术
抖音虚拟位置修改器,快手小红书陌陌均支持,jar最新xposed插件
这个代码实现了一个GPS位置模拟器,主要功能包括: 基于基准位置生成随机GPS坐标点
|
存储 Unix Linux
进程间通信方式-----管道通信
【10月更文挑战第29天】管道通信是一种重要的进程间通信机制,它为进程间的数据传输和同步提供了一种简单有效的方法。通过合理地使用管道通信,可以实现不同进程之间的协作,提高系统的整体性能和效率。
|
编译器
if-else对比switch-case
`if-else`和 `switch-case`是两种常用的控制流语句,各有优缺点和适用场景。`if-else`语句灵活性高,适用于复杂的条件判断;而 `switch-case`语句结构清晰,适用于处理固定的离散值。在实际应用中,根据具体需求选择合适的控制流语句,可以编写出高效、可维护的代码。
574 6
|
人工智能 自然语言处理 物联网
LLM2CLIP:使用大语言模型提升CLIP的文本处理,提高长文本理解和跨语言能力
LLM2CLIP 为多模态学习提供了一种新的范式,通过整合 LLM 的强大功能来增强 CLIP 模型。
753 3
LLM2CLIP:使用大语言模型提升CLIP的文本处理,提高长文本理解和跨语言能力
|
人工智能 开发者 Python
python读取word文档 | AI应用开发
在RAG系统中,构建知识库时需读取多种外部文档,其中Word文档较为常见。本文介绍如何使用`python-docx`库读取Word文档(.docx格式)中的标题、段落、表格和图片等内容。首先通过`pip install python-docx`安装库,然后利用提供的接口提取所需信息。尽管该库功能强大,但在识别标题样式时需自定义逻辑,并且仅提供图片的URI而非直接加载。示例代码展示了读取文本、识别标题、读取表格及获取图片URI的方法。【10月更文挑战第2天】
1028 2
|
敏捷开发 测试技术 持续交付
阿里云云效产品使用合集之从GitHub下载代码失败是什么原因
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
传感器 安全 物联网
物联网(IoT)设备的硬件选型与集成技术博文
【6月更文挑战第28天】物联网设备硬件选型与集成聚焦关键要素:功能匹配、性能稳定性、兼容扩展及成本效益。嵌入式系统、通信协议、数据处理和安全性技术确保集成效果,支撑高效、智能的IoT系统,驱动家居、城市与工业自动化变革。
1188 1
|
编解码 应用服务中间件 开发工具
如何拉取公网RTSP/RTMP流在内网多客户端播放
好多情况下,一路RTSP或RTMP网络流过来后,想共享给更多局域网内的客户端播放,一般来说,有两种设计方案: 1. 拉取的RTSP或RTMP流,回调后的数据,转推RTMP服务器,内网部署一台RTMP服务器(如NGINX或者SRS)即可; 2. 拉取后的RTSP或RTMP流,回调后的数据,汇聚到内置RTSP服务模块,内网其他终端,只要拉RTSP流即可,无需再二次部署流媒体服务器。
1174 0