云存储进化

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

大数据时代,PC互联网,移动互联网以及社交化平台的发展,让数据呈现几何化、爆炸式增长。而随着数据来源渠道的增多,网络的数据也不再是单一的数据类型,大量的非结构化数据涌现改变了数据的组成模式。如今大数据使得整个互联网科技都面临新一轮的洗牌,如何利用大数据将成为决定企业未来命运的关键!

那么大数据究竟有多大呢?可能很多人会问这个问题。2013年,世界上存储的数据预计能达到约1.2泽(约12亿TB)字节。12亿TB是个什么概念?如果把这些数据全存储于标准的光盘,这些光盘可以堆成五堆,每一堆都可以伸到月球。而如果把这些数据存储于1TB容量的硬盘中,那么将需要12亿块,这些硬盘可以分为五堆,每堆相当于长城的长度(6700公里)。

云存储是伴随云计算发展起来的一种新兴的存储模式,对于很多人来说是一个相对陌生的领域。其实云存储技术早已深入到我们的生活和工作中,只是很多人还没有意识到它的存在罢了,目前云存储技术已经在大数据解决之道方面有了一些案例。随着大数据时代的来临,云存储将担负更多的任务和使命

微软SkyDrive云存储

近日360网盘的推出以及与百度1TB竞争升级的事件相信大家都有所耳闻!没错,这些网盘其实就是最典型的云存储应用。这些云存储服务商为用户提供定量的存储空间,让用户实现通过PC、手机等终端进行访问等需求。网盘、云盘这些云存储技术是最典型也是最初级的云存储技术,如今一些企业已经将云存储技术有了更深层次的发展和创新,例如迅雷的云加速功能。

2013年互联网大会迅雷CEO邹胜龙将云存储加速带来的改变形容为:“让大数据像水一样的自由流淌。”在当时听到这句话的时候,我对这句话并不理解,据我所知,迅雷随身盘这种典型的云存储模式并没取得成功,而且即将在2013年9月1号停止支持,那么邹胜龙先生是为何在大会上反反复复强调迅雷云加速技术呢?又是如何让大数据能够自由流动呢?

迅雷对云存储技术有了更深层次的应用

带着这些不解,笔者翻看了迅雷云加速的一些业务。目前迅雷已经拥有高速通道、离线下载、迅雷云播、迅雷网游加速器、手机迅雷等多个产品,并且覆盖PC、手机、平板、TV四屏,可以说迅雷如今基本完成了对业务的全面布局。

根据笔者对这些业务的研究发现,在这些业务中,如离线下载、高速通道等很多服务都是基于云存储功能而实现的,可以说这些技术都是云存储技术的一种创新和演进。迅雷对云存储技术有了更深层次的应用,并不只是局限于传统的数据存取和数据保护,更是将云存储技术应用到下载、视频、网友等领域,是云存储技术应用到大数据方面的一个全新创新!

迅雷业务种类很多

迅雷利用云存储技术确保用户能够获得流畅、连贯的体验,而且还推出了根据账号实现云端同步的功能,可以说迅雷如今已经利用云存储实现了整个产品的布局,让大数据之间的传输更自由。那么迅雷是如何利用云存储技术的创新促进大数据之间的流动的呢?

下面我们就通过离线下载业务来看一下讲解下迅雷的云存储创新之处。

离线下载是迅雷云加速中的一个重要的功能,当下载的时候遇上冷僻的资源时,由于中国网络资源复杂,如果从原始服务器下载到本地,可能由于资源少、距离远等原因使得下载的速度不高,这样使用普通下载就会浪费大量的时间和电费。而当资源好,速度高的时候,则会影响用户正常的网络问题,造成别的任务无法完成。

迅雷离线下载每传输完一个文件,就会记录文件资源的地址,CID值,以及文件其他的特征信息。如此积累,迅雷便保存了大量文件的特征信息,当再有用户下载相同的文件时,迅雷云加速服务不再需要从资源所在的服务器下载文件,而是从迅雷云加速服务内部的资源中直接复制到用户的离线传输文件夹里,这样,一个几GB 甚至几十GB 的大文件在瞬间就传输完成了,因此很多人觉得离线下载极快,叫做‘秒杀’。

云存储后台需要什么样的支持?

“秒杀”下载并不是迅雷服务器神通广大,而是迅雷利用云存储技术的一种创新。这样能节省大量带宽用于传输迅雷云加速网络上不存在的新资源。正是利用这样的方法,迅雷不断积累资源,不断索引资源。但很长时间都没有人再下载的文件,迅雷云加速服务也会删除这个文件的索引信息,减少服务器空间占用。

离线下载业务实现了数据之间的快速传输,在大数据时代,让人们之间的数据流动性更欢快。但目前迅雷离线下载只提供给会员使用。如果你是会员用户,那么就可以依靠迅雷的服务器强大的下载功能下载文件,或者直接从迅雷服务器上直接下载别人已经下载的文件,等于复制粘贴,这样就节省了大量的时间,促进了数据间的流动。

云存储服务器需要强大的后台支持

目前迅雷每个月付费会员高达400多万,而且在400多万用户背后还有近3亿的免费用户,这些用户也可以用迅雷的离线下载业务,这必然需要强大的云存储平台支持,给用户提供离线下载业务,而且还要满足数据的文件总量的增长以及用户流量的激增的挑战。同时云存储平台需要不断的对其服务器平台进行存储容量、系统宽带,I/O的需求增加。

下面我们就来讨论下什么样的平台才能满足迅雷的需求。

要想搭建能够满足用户需求的云存储平台,我们首先需要先了解离线下载平台的原理:

(1)用户通过客户端或Web界面向服务器提交一个下载请求。

(2)服务器端接受请求,首先查询用户提交的下载链接是否被下载过。如果有,直接把已下载的数据文件(或只是文件的链接)放入用户服务器端的在线空间。如果没有,开启多线程实施下载(或用某公司自己特有的P2P方式)。

(3)下载完成后,用户在线登录到在线空间,取回下载的文件。其间也可以采用迅雷提供的P2P方式,从已下载或正在下载相同文件的用户那里取得数据。

(4)离线下载多针对冷门资源,或资源少的文件。待服务器端不是替用户下载完成后,用户还需要利用下载软件从服务器上下载文件。相比直接下载,增加了下载资源速度,节约了时间。

如何搭建离线下载支持平台?

那么需要多少服务器才能满足迅雷400万的会员以及将近3亿的普通用户需求呢?笔者开始误以为这个业务会需要很多服务器支持。但是通过对迅雷的离线下载平台进行研究后,发现支持离线下载的服务器并没有我们想象的那么多。毕竟这些用户并不可能同时下载数据,而且每个用户的下载也不可是都饱和,冷门的数据也并不是一直存储,所以对服务器的需求并没有想象的那么多。

下面我们来细分析一下这个平台的组成,可能大家就会明白为何并不需要那么的服务器就能够满足用户需求了。

离线平台需要离线下载服务器、WEB服务器、数据存储服务器三个平台共同支持。这三个平台都需要出色的性能支持,在处理器和内存方面并没有区别,主要区别是在存储硬盘方面的不同。

下面我们从性价比和需求方面来预测一下三种系统在存储方面的需求:

离线下载服务器主要提供的速度下载,所以对服务器的硬盘性能和容量要求较高。选择SAS硬盘为宜;数据存储服务器提供存储功能,对存储的容量要求高,但是对速度没有太大的需求。采用SATA硬盘为宜;Web服务器对硬盘的速度和性能要求高,但是对容量的大小没有太大的要求。采用SAS硬盘既可满足。

利用对云存储技术的改进和创新,迅雷解决了离线下载业务的支持问题。同时这种技术也能够胜任多种业务,如数据存储、数据库应用、高性能计算、计算机集群等领域。云存储技术让数据的存储更简单,灵活性更强。在大数据来临之际,云存储技术的创新与发展必将促使大数据发生新的革命,让数据真正的实现自由流动。


本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
机器学习/深度学习 存储 算法
《探秘NAS:卷积神经网络的架构革新之路》
神经架构搜索(NAS)在卷积神经网络(CNN)领域掀起革新,自动化生成最优架构,改变传统设计方式。其特点包括扩展搜索空间、优化搜索策略、提升性能、模型压缩及跨领域应用。NAS发现了超越人工设计的高性能架构,如EfficientNet,并在图像分类、目标检测和分割中取得显著成果。尽管面临计算资源消耗大和可解释性差的挑战,NAS仍为CNN的发展带来重大突破,推动深度学习广泛应用。
73 12
|
7月前
|
存储 安全 大数据
对象存储的意义:探索数据新纪元的关键基石
在信息爆炸时代,数据成为核心资产,而高效安全的数据存储至关重要。对象存储作为一种新兴技术,起源于20世纪90年代,旨在解决传统文件系统的局限性。随着云计算和大数据技术的发展,它已成为关键技术之一。对象存储具备高可扩展性、高可靠性、低成本、易于管理和多协议支持等优点。它支撑大数据发展、推动云计算繁荣、助力企业数字化转型并保障数据安全。未来,对象存储将进一步提升性能,实现智能化管理,并与边缘计算融合,获得政策支持,成为数据新时代的关键基石。
277 3
|
8月前
|
存储 安全 容灾
云存储:重塑数据存储与访问的未来图景
加强数据加密:采用先进的加密算法对敏感数据进行加密处理,确保数据在传输和存储过程中的安全性。 实施访问控制:建立完善的访问控制机制,对用户身份进行验证和授权,防止未经授权的访问和数据泄露。 定期备份与恢复:定期对数据进行备份和恢复测试,确保在发生意外情况时
|
存储 人工智能 自然语言处理
云存储,为 AI 创新提速
面向 AI 时代的云存储,必须要服务于数据全生命周期,贯穿 AI 业务全流程,在数据准备、模型训练与部署、应用与内容生成、内容分发与协作每一个关键环节,提供稳定、安全、高性能、低成本的存储能力。
8451 2
云存储,为 AI 创新提速
|
存储 监控 Cloud Native
云存储生态构建的技术基因和最佳实践
Cloud2.0 时代,数字化转型进入深水区,需要联合所有的伙伴力量,奋楫笃行,共同打通从数字技术到具体解决业务问题的各种关节。
536 0
云存储生态构建的技术基因和最佳实践
|
存储 人工智能 固态存储
从混合云存储看阿里云对下一代企业计算架构的思考
阿里云在2019年最后一个月发布了针对混合云的两款产品:入门级混合云存储阵列SA2100以及混合云CPFS一体机,加上2019年发布的混合云存储阵列中高端产品SA2600、3600、5600以及基于容器的ACK混合云2.0等,阿里云已经为2020年混合云市场的全面激活做好了准备。
从混合云存储看阿里云对下一代企业计算架构的思考
|
存储 监控 安全
证保行业的云存储应用实践
云存储在金融行业的应用场景
872 0
证保行业的云存储应用实践
|
存储 安全 Linux
云存储技术体系
云存储涉及的知识面很广,既涉及云存储服务端的技术,又涉及终端设备应用开发相关的技术。本文章关注云存储系统服务端技术。 云存储技术体系结构分为四层:硬件层、单机存储层、分布式存储层、存储访问层,下面分别介绍。
3981 0
|
存储 存储虚拟化
加快你的云存储实践
本文讲的是加快你的云存储实践,我们总是在问什么是云存储?云存储是不是集群存储,是不是存储虚拟化,与SAN+NAS有什么区别?其实,答案也很简单,是也不是。
1068 0