《大数据分析原理与实践》——1.2 哪里有大数据

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本节书摘来自华章计算机《大数据分析原理与实践》一书中的第1章,第1.2节,作者 王宏志,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.2 哪里有大数据

大数据是无处不在的。

大数据包括那些数目极庞大的网络数据。有自媒体数据(比如社交网络),有日志数据(比如用户在搜索引擎上留下的大数据),还有流量最大的富媒体数据(比如视频、音频)等。例如,淘宝每天的数据量就超过50 TB;新浪微博晚高峰时每秒要接受100万次以上的请求;美国YouTube网站一分钟有100小时的视频被上传。

大数据包括企事业单位数据和政府数据。一家医院一年能收集包括医疗影像、患者信息在内的500 TB数据,用于预测、预防、改善等;中国联通每秒记录用户上网条数近百万条,一个月大概是300 TB;国家电网信息中心目前累计收集了2 PB的数据。

大数据包括我们身边的一些公用设施所记录的数据。就监控而言,很多城市的交通摄像头多达几十万个,一个月的数据就达到数十PB,还有基本上所有的超市都覆盖着摄像头,这些都可以是大数据的基本来源并进行挖掘利用;在北京,每天用公交一卡通的乘客有4000万刷卡记录,而每天地铁刷卡的乘客也有1000万,这些数据可以用来改善北京的交通状况,优化交通路线。

大数据还包括国家大型公用设备和科研设备等产生的数据。例如,波音787每飞一个来回可产生TB级的数据,美国每个月收集360万次飞行记录;风力发电机装有测量风速、螺距、油温等多种传感器,每隔几毫秒就要测量一次,数据汇集用于检测叶片、变速箱、变频器等的磨损程度;一个具有风机的风场一年会产生2 PB的数据,这些数据用于预防维护,可使风机寿命延长3年,极大地降低了风机的成本。

工业领域也产生了大量的数据,GE能源监测和诊断(M&D)中心每天从客户处收集10千兆字节的数据;长虹集团有限公司等离子显示板制造中生产流程数据涉及75条组装线,279个主要生产设备,超过10 000个参数,每天3000万条记录,大约10 GB;杭州西奥电梯有限公司的数字化车间监控超过500个参数,每天产生约50万条记录;浙江雅莹服装有限公司数字化生产线由15个子系统组成,超过1000个参数,每天产生约80万条记录,约1 GB。

大数据甚至还包括一些地理位置、基因图谱、天体运动轨迹的数据。总之,任何可以利用数据分析来达到目的的地方就会有大数据的存在。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
SQL 消息中间件 分布式计算
大数据-124 - Flink State 01篇 状态原理和原理剖析:状态类型 执行分析
大数据-124 - Flink State 01篇 状态原理和原理剖析:状态类型 执行分析
63 5
|
1天前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
1月前
|
存储 分布式计算 druid
大数据-155 Apache Druid 架构与原理详解 数据存储 索引服务 压缩机制
大数据-155 Apache Druid 架构与原理详解 数据存储 索引服务 压缩机制
49 3
|
1月前
|
消息中间件 分布式计算 druid
大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进
大数据-154 Apache Druid 架构与原理详解 基础架构、架构演进
27 2
|
1月前
|
SQL 消息中间件 分布式计算
大数据-141 - ClickHouse 集群 副本和分片 Zk 的配置 Replicated MergeTree原理详解(一)
大数据-141 - ClickHouse 集群 副本和分片 Zk 的配置 Replicated MergeTree原理详解(一)
50 0
|
1月前
|
SQL 大数据
大数据-141 - ClickHouse 集群 副本和分片 Zk 的配置 Replicated MergeTree原理详解(二)
大数据-141 - ClickHouse 集群 副本和分片 Zk 的配置 Replicated MergeTree原理详解(二)
60 0
|
1月前
|
存储 SQL 分布式计算
大数据-127 - Flink State 04篇 状态原理和原理剖析:状态存储 Part2
大数据-127 - Flink State 04篇 状态原理和原理剖析:状态存储 Part2
17 0
|
1月前
|
存储 消息中间件 大数据
大数据-126 - Flink State 03篇 状态原理和原理剖析:状态存储 Part1
大数据-126 - Flink State 03篇 状态原理和原理剖析:状态存储 Part1
54 0
|
1月前
|
存储 SQL 分布式计算
大数据-125 - Flink State 02篇 状态原理和原理剖析:广播状态
大数据-125 - Flink State 02篇 状态原理和原理剖析:广播状态
40 0
|
1月前
|
消息中间件 NoSQL Kafka
大数据-116 - Flink DataStream Sink 原理、概念、常见Sink类型 配置与使用 附带案例1:消费Kafka写到Redis
大数据-116 - Flink DataStream Sink 原理、概念、常见Sink类型 配置与使用 附带案例1:消费Kafka写到Redis
113 0
下一篇
无影云桌面