信息图:你意想不到的大数据

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 字节(B: byte), 兆字节(MB: megabyte), 千兆字节(GB: gigabyte)…… 你大概对这些术语已经非常熟悉了吧,但是,你知道什么是“太字节”(TB: terabyte)、”拍字节“(PB: petabyte)和“艾字节”(EB: exabyte)吗?这些比较少见的词是用来描述大数据的单位,或者描述那些普通数据软件难以在短时间获取、组织、管理及处理的数据集。

字节(B: byte), 兆字节(MB: megabyte), 千兆字节(GB: gigabyte)…… 你大概对这些术语已经非常熟悉了吧,但是,你知道什么是“太字节”(TB: terabyte)、”拍字节“(PB: petabyte)和“艾字节”(EB: exabyte)吗?

这些比较少见的词是用来描述大数据的单位,或者描述那些普通数据软件难以在短时间获取、组织、管理及处理的数据集。试想一下,1B相当于一个字母,1MB(1024KB)就相当于一本书了。1GB(1024MB)大约是1600本书,1TB是1024GB,而1PB是1024TB。最后,1EB是1024PB,或者说相当于1,600,000,000,000本书,相当于美国国会图书馆藏书量的3000倍!

1987到2007年期间,数字储存量每年增长23%。在80年代数字化革命以前,大多数数据储存在录像带、黑胶唱片、盒式录像磁带和照片上。

1986年的时候,在纸张上的储存占数据总储量的三分之一;

然而在2000年,25%的数据通过数字的形式储存。

到2002年,数字储存的容量已经超过了模拟信号储存的容量,而2007年,94%的数据是以数字形式储存的。

现在,每天有超过2.5EB(或者说25亿GB)的数据在产生——这是一个已经相当大的数字,而且还会以一个显著的速率持续增长,其中,有更多的数据来自移动设备。一些专家提出,目前世界上90%的数据,都是近两年才产生的。

当然,大公司在其中起到了非常大的作用。举个例子,谷歌目前估计储存了超过10EB的数据,Facebook则每天收集到500TB的数据,而且在2012年已经有100PB的照片和录像。其他公司例如亚马逊、微软、Target、VMare、UPS和AWS都是大数据中的巨头。

我们也在通过各种各样的方式在日常生活中接触大数据,例如,大数据可以帮助准确地预测体育比赛和选举的结果。我们在用智能手机导航或者回答问题的时候,都是在和大数据打交道。如果你留意到有一个和你生活息息相关的Facebook广告出现在你的新闻栏里,那你就要感谢大数据带来的定制化广告和购物推荐;下一次你在去工作的路上全程绿灯,你就会知道大数据可能已经插足你的城市的交通了。

未来,云科技会被更广泛地应用;2014年的一份研究发现,94%的组织已经或者希望可以在他们的运营中采用云计算。到2020年,估计会有40ZB(zettabytes, 泽字节,等于1024EB) 的数据会产生。然而,云技术的发展会伴随着对安全的更多关注,因为安全和知识产权的窃取是云使用者的主要顾虑。我们同时可以预见,私人云计算的应用以及相应的教育、职业都会随之增长。

36大数据36大数据36大数据36大数据36大数据36大数据

 

 

下面是信息图文字:

什么是大数据?

大数据包括了那些数据量很大,导致常用的数据软件工具无法在合理时间内获取、组织、管理和处理的数据集。

数据的大小

位Bit(1/8字节)

1/8个字母

 

半字节Nibble
(1/2字节)
1/2字母
字节Byte(1字节)

1个字母

兆字节Megabyte(1024千字节)

1本书

吉字节Gigabyte
(1024兆字节)
1600本书
太字节Terabyte(1024吉字节)

1,600,000本书

拍字节Petabyte(1024太字节)

160,000,000本书

艾字节Exabyte(1024拍字节)

1EB当于美国国会图书馆藏书量的3000倍。

1,600,000,000,000本书

只差10,000英里就能碰到月球啦!

每天有25万兆(2,500,000,000,000,000,000,中文的“兆”是“千万亿”的下一个数位)个字节的数据在产生,他们来自各个地方,从社交媒体网站的照片到气象气球,或者正在探索火星的“好奇号”探测器。

比大数据更大

泽字节(Zettabyte) (=1024EB)

尧字节(Yottabyte)(=1024ZB)

Googolbyte  (理论值)(10的1000次方)

大公司中的大数据

Google 谷歌每天处理35亿个数据请求,这要求巨量的数据储存量。谷歌凭它大量的产品和功能被认为是世界上最大的大数据公司之一。在2009年,谷歌在准备拥有超过1EB的数据。而今,它被认为有超过10EB的数据量。
Facebook Facebook每天收集500TB的数据,包括25亿段文字,27亿个赞,3亿张照片。2012年,Facebook公布他们已储存100PB的照片和录像。
Amazon 亚马逊从1.52亿谷歌购买记录中抓取数据帮助用户决定购买什么商品。他们使用百万名顾客的历史数据来准确预测购物需求。亚马逊估计大约储存了1EB的数据。他们没有直接公布数据储存量的大小,只是承认大约有一百万的“物品”。平均来说,每个“物品”会有1MB的数据,这样推算他们大概有1EB的数据。
Microsoft 微软在他们的数字上也有些模糊。2013年CEO Steve Ballmer 宣布微软有超过一百万个服务器,他们只是模糊地透露到,Hotmail——他们的电子邮箱客户(后来改名为Outlook.com) 在百万以上的邮箱中储存了数百PB的数据。

其他大数据公司

Target Target把注意力放在消费者的购买历史、预估的收入、年龄和婚姻状况来估计潜在的购买习惯。Target曾经试图判断女顾客是否怀孕来寻找他们的广告目标用户并合理安排他们的存货,一度引起争议。
VWare VWare是一个专注于云和可视化软件的公司。他们为其他企业提供服务器空间和虚拟机器软件来储存和处理大数据。他们运用于招聘的综合云计算系统技术近来受到了肯定。这允许公司同时利用多重云,包括私有的和公共的。
UPS 2013年UPS推出ORION,这款软件运用了送货期间收集的关于消费者、交通和驾驶的数据来优化路线。2013年底,他们已经节省了150万加仑汽油并且减少了14000公吨二氧化碳排放。
AWS 根据亚马逊的消息,有超过6万公司在使用AWS。AWS正在使用比亚马逊更多带宽。在亚马逊的57亿美金年收入当中,AWS占了其中的1.31亿。AWS每秒钟处理65万S3(Simple Storage Service)请求,而且拥有超过900,000,000个对象。*谁在使用AWS?
三分之一的互联网使用者每天至少会进入一次用AWS基础搭建的网站。百分之一的网络传输通过AWS的基础架构。

大数据的过去、现在与未来

过去:数码储存在1986到2007年期间每年增长23%

大部分数据储存在录影带里(如八十年代数字化革命前的盒式磁带录像带)、黑胶唱片、影视录像磁带等,还有一部分储存在照片上。

1986年, 纸张上的储存占数据总储量的33%。

2000年,世界上25%的数据通过数码储存。

2002年是数码储存量超过模拟信号储存量的第一年。

2007年,94%的数据通过数码形式储存。

现在:

今天,每天有超过2.5EB(或者说25亿GB)的数据在产生,这数字还会持续增长,其中有更多的数据来自移动设备。

一些专家提出,目前世界上90%的数据,都是近两年才产生的。

云技术的未来:

到2020年,估计会有40ZB(zettabytes, 泽字节,即1024EB) 的数据会产生。

更多企业采用:2014年的一份研究发现,94%的组织已经或者希望可以在他们的运营中采用云计算。

更加关注安全:研究表示,云使用者把安全列在他们对云计算顾虑中的前五位。知识产权的窃取首要的安全隐患。

更多私有云计算应用:目前,有7%的企业正在使用全私有化的云计算,58%使用私有和公共云计算的结合。

但是,24%的受访者表示他们对探索私有云的应用更感兴趣,因为公共云计算涉及许多法律及管制。

更多的与云计算相关的教育和职位:

一项调查显示,66%的美国和英国组织对提高他们组织的计算机能力、更好地掌握云计算很感兴趣,但是56%表示他们并不知道哪里有任何与云计算有关的课程。

42%的美国和英国组织表示他们已经为了云计算相关技术聘请了相关的计算机专业人士,但43%表示寻找拥有云计算技术的人才非常困难。

79%的美国和英国组织表示他们相信大学课程中有必要加入更多云计算的内容。

大数据如何影响我们的日常生活:

体育赛事预测:大数据在预测体育赛事中已经被证实是有效的。2012年,大数据预测美国会在夏季奥运会中获得108枚奖牌,而最后美国获得了104枚奖牌。

选举预测:大数据已经被运用在选举结果预测上。统计学家Nate Silver准确地预测了2012年的总统选举。

智能手机:当一部智能手机用户在导航、大声对手机问问题或者任何其他功能,这都是大数据分析的结果。

个性化广告和购物推荐:大数据的其中一个重要应用是在购物推荐和网站上的个性化广告。一项研究发现,点击广告栏比完成 “海豹突击队”(美国一作战部队)训练的可能性还要小。消费者和企业都会从个性化广告中获益。

优化的交通:一些公司和城市已经利用大数据优化他们城市的交通流量。使用司机的GPS信号得到的数据来对实时交通情况、天气、事故等作出调整,从而保持交通的顺畅。

流行病检测与预防:谷歌已经在实际中运用大数据,最近,传统的医药公司也运用大数据来预测哪里可能会有如流感病毒等流行病毒的爆发。

原文标题:The surprising things you don’t know about Big Data

转自:36大数据(36dsj.com)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
27天前
|
存储 机器学习/深度学习 大数据
量子计算与大数据:处理海量信息的新方法
【10月更文挑战第31天】量子计算凭借其独特的量子比特和量子门技术,为大数据处理带来了革命性的变革。相比传统计算机,量子计算在计算效率、存储容量及并行处理能力上具有显著优势,能有效应对信息爆炸带来的挑战。本文探讨了量子计算如何通过量子叠加和纠缠等原理,加速数据处理过程,提升计算效率,特别是在金融、医疗和物流等领域中的具体应用案例,同时也指出了量子计算目前面临的挑战及其未来的发展方向。
|
4月前
|
SQL 机器学习/深度学习 分布式计算
MaxCompute产品使用合集之怎么使用SQL查询来获取ODPS中所有的表及字段信息
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
131 7
|
4月前
|
存储 分布式计算 DataWorks
MaxCompute产品使用合集之表被删除重建后如何查到之前的权限信息
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
4月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何查询MaxCompute项目中的所有表及其字段信息
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
分布式计算 大数据 数据库连接
MaxCompute操作报错合集之遇到报错信息 "SERVER_INTERNAL_ERROR" ,该怎么办
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
4月前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用合集之怎么查看表的时区信息
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
SQL DataWorks 监控
DataWorks操作报错合集之在调用数据服务API时返回的错误码是"ODPS-0410051",并且错误信息提示"Invalid credentials - accessKeyId not found",该怎么办
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
103 0
|
1月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
9天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
70 7
|
9天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
23 2