【数据蒋堂】1T数据到底有多大？-阿里云开发者社区

【数据蒋堂】1T数据到底有多大？

2017-06-01 2193

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

一英里不是个很长的距离，一立方英里相对于地球也不会让人觉得是个很大的空间。然后我说，这个空间内能装下全世界所有人，你会不会觉到很惊讶？不过这话不是我说的，是美国作家房龙在一本书里写的。

业内有个著名的数据仓库产品，叫Teradata，20多年前起这个名字，显然是想给人能处理海量数据的感觉。可现在，论用户还是厂商，谈论数据量时都常常以T为单位了，动不动就有几十上百T甚至PB级的数据。似乎T不是个多大的数，多几个几十个T也没什么大不了的。

其实T有点像上面说的立方英里，是个挺大的数。很多人对它没有多深的感性认识，我们要换个角度来看1T数据意味着什么。

先从空间上看

用于分析计算的数据仍然以结构化数据为主。结构化数据中占据空间最大的是不断增长的交易类记录，这种数据每条并不大，大概只有几十到100字节，比如银行交易只要记下帐号、日期、金额；电信的通话记录也只是通话号码、时刻、时长等。就按100字节算，也就是0.1K，那么1T空间就可以放下10G行记录，100亿条！

这是什么概念呢？一年大概是3000多万秒，如果用一年时间来积累1T数据，那意味着每秒要产生300多笔记录，24小时不停息！

这个数也不算大，像中国这样的大国，电信运营商、全国级银行以及大型互联公司都不难有这种规模的业务量。但对于一个城市级别甚至有些省级的机构就是个不小的数了，比如税务部门采集的企业交税信息、连锁超市的商品购买数据、城市商业银行的交易记录等，要达到300笔/秒并不容易，何况很多机构只有白天或工作日才能产生数据。而且这还只是1T，要搞到几十上百T，那就得让业务量再上一两个数量级才行。

简单说有多少T数据是没什么感觉的，换算成每秒对应的业务量后，才知道是不是靠谱。大数据分析计算产品的技术方案和数据量相关性非常强，正确估算自己的数据量对于大数据平台的建设是至关重要的。

如果用来存储音频视频这种非结构化数据，或者仅仅用于备份原始凭据，那1T空间就存不了多少东西了，但这种数据一般也没什么要分析计算的需求，只是存储和检索，那不需要什么大数据计算平台，只要有个网络文件系统就行了，这成本就低多了。

再从时间上看

假设有1T数据，那么要多少时间才能处理一遍？有些厂商宣称能在数秒内处理TB级数据，用户经常也这样期望，这可能吗？

机械硬盘在操作系统下的读取数据大概是150M/秒（不能看硬盘厂商那个指标，根本达不到），固态硬盘快些，能翻个倍。我们就算300M/秒，那么1T数据只是读取不做任何运算也需要3000秒以上，接近一个小时！那怎么可能数秒内处理1T数据呢？很简单，增加硬盘，如果有1000块硬盘，那就可以在3秒左右读出1T数据了。

这还是比较理想的估算。实际上数据不大可能存放着那么整齐（硬盘不连续读取时性能下降严重），集群（1000块硬盘显然不会在一台机器上）还有网络延迟，有些运算可能还有回写动作（大分组和排序等），秒级访问常常还会有并发需求，这些因素综合起来，再慢几倍也是正常的。

现在我们知道了，1T数据意味着几个小时，或者上千块硬盘。而且还是前面的话，这只算了1T，可想而知几十上百T会是什么概念了。

有人说，硬盘太慢了，我们改用内存。

内存是比硬盘快得多，而且还适合并行计算。不过大内存的机器并不便宜（成本不是线性增长的），而且更糟糕的是，内存使用率经常很低。比如许多计算体系都是基于Java平台的，如果不做特别的压缩优化的话，JVM的内存利用率只有20%的样子，也就是硬盘上1T数据需要5T内存才能加载进来，这得装多少机器，花多少钱？

我们对1T有了上面这些感性认识后，听到多少多少T的说法时，就可以随时脑补出交易、节点数、成本等信息。做平台规划和产品选择时，就不容易被忽悠了。Teradata这个名字，今天也还不算过时的。

专栏作者简介

蒋步星，润乾软件创始人、首席科学家

清华大学计算机硕士，著有《非线性报表模型原理》等，1989年，中国首个国际奥林匹克数学竞赛团体冠军成员，个人金牌；2000年，创立润乾公司；2004年，首次在润乾报表中提出非线性报表模型，完美解决了中国式复杂报表制表难题，目前该模型已经成为报表行业的标准；2014年，经过7年开发，润乾软件发布不依赖关系代数模型的计算引擎——集算器，有效地提高了复杂结构化大数据计算的开发和运算效率；2015年，润乾软件被福布斯中文网站评为“2015福布斯中国非上市潜力企业100强”；2016年，荣获中国电子信息产业发展研究院评选的“2016年中国软件和信息服务业十大领军人物”；2017年, 自主创新研发新一代的数据仓库、云数据库等产品即将面世。

数据蒋堂

《数据蒋堂》的作者蒋步星，从事信息系统建设和数据处理长达20多年的时间。他丰富的工程经验与深厚的理论功底相互融合、创新思想与传统观念的相互碰撞，虚拟与现实的相互交织，产生出了一篇篇的沥血之作。此连载的内容涉及从数据呈现、采集到加工计算再到存储以及挖掘等各个方面。大可观数据世界之远景、小可看技术疑难之细节。针对数据领域一些技术难点，站在研发人员的角度从浅入深，进行全方位、360度无死角深度剖析；对于一些业内观点，站在技术人员角度阐述自己的思考和理解。蒋步星还会对大数据的发展，站在业内专家角度给予预测和推断。静下心来认真研读你会发现，《数据蒋堂》的文章，有的会让用户避免重复前人走过的弯路，有的会让攻城狮面对扎心的难题茅塞顿开，有的会为初入行业的读者提供一把开启数据世界的钥匙，有的甚至会让业内专家大跌眼镜，产生思想交锋。

原文发布时间为：2017-05-07

本文作者：蒋步星

本文来自云栖社区合作伙伴“数据派THU”，了解相关信息可以关注“数据派THU”微信公众号

【数据蒋堂】1T数据到底有多大？

数据派

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【数据蒋堂】1T数据到底有多大？

数据派

热门文章

最新文章

相关电子书