《大数据分析原理与实践》一一1.2 哪里有大数据

简介:

本节书摘来自华章计算机《大数据分析原理与实践》一书中的第1章,第1.2节,作者:王宏志 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.2 哪里有大数据

大数据是无处不在的。
大数据包括那些数目极庞大的网络数据。有自媒体数据(比如社交网络),有日志数据(比如用户在搜索引擎上留下的大数据),还有流量最大的富媒体数据(比如视频、音频)等。例如,淘宝每天的数据量就超过50 TB;新浪微博晚高峰时每秒要接受100万次以上的请求;美国YouTube网站一分钟有100小时的视频被上传。
大数据包括企事业单位数据和政府数据。一家医院一年能收集包括医疗影像、患者信息在内的500 TB数据,用于预测、预防、改善等;中国联通每秒记录用户上网条数近百万条,一个月大概是300 TB;国家电网信息中心目前累计收集了2 PB的数据。
大数据包括我们身边的一些公用设施所记录的数据。就监控而言,很多城市的交通摄像头多达几十万个,一个月的数据就达到数十PB,还有基本上所有的超市都覆盖着摄像头,这些都可以是大数据的基本来源并进行挖掘利用;在北京,每天用公交一卡通的乘客有4000万刷卡记录,而每天地铁刷卡的乘客也有1000万,这些数据可以用来改善北京的交通状况,优化交通路线。
大数据还包括国家大型公用设备和科研设备等产生的数据。例如,波音787每飞一个来回可产生TB级的数据,美国每个月收集360万次飞行记录;风力发电机装有测量风速、螺距、油温等多种传感器,每隔几毫秒就要测量一次,数据汇集用于检测叶片、变速箱、变频器等的磨损程度;一个具有风机的风场一年会产生2 PB的数据,这些数据用于预防维护,可使风机寿命延长3年,极大地降低了风机的成本。
工业领域也产生了大量的数据,GE能源监测和诊断(M&D)中心每天从客户处收集10千兆字节的数据;长虹集团有限公司等离子显示板制造中生产流程数据涉及75条组装线,279个主要生产设备,超过10 000个参数,每天3000万条记录,大约10 GB;杭州西奥电梯有限公司的数字化车间监控超过500个参数,每天产生约50万条记录;浙江雅莹服装有限公司数字化生产线由15个子系统组成,超过1000个参数,每天产生约80万条记录,约1 GB。
大数据甚至还包括一些地理位置、基因图谱、天体运动轨迹的数据。总之,任何可以利用数据分析来达到目的的地方就会有大数据的存在。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
6月前
|
数据采集 人工智能 算法
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
244 1
|
2月前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
3月前
|
存储 SQL 分布式计算
MaxCompute 聚簇优化推荐原理
基于历史查询智能推荐Clustered表,显著降低计算成本,提升数仓性能。
287 4
MaxCompute 聚簇优化推荐原理
|
2月前
|
机器学习/深度学习 搜索推荐 数据挖掘
数据分析真能让音乐产业更好听吗?——聊聊大数据在音乐里的那些事
数据分析真能让音乐产业更好听吗?——聊聊大数据在音乐里的那些事
186 9
|
3月前
|
数据可视化 数据挖掘 大数据
基于python大数据的水文数据分析可视化系统
本研究针对水文数据分析中的整合难、分析单一和可视化不足等问题,提出构建基于Python的水文数据分析可视化系统。通过整合多源数据,结合大数据、云计算与人工智能技术,实现水文数据的高效处理、深度挖掘与直观展示,为水资源管理、防洪减灾和生态保护提供科学决策支持,具有重要的应用价值和社会意义。
|
4月前
|
存储 数据挖掘 大数据
基于python大数据的用户行为数据分析系统
本系统基于Python大数据技术,深入研究用户行为数据分析,结合Pandas、NumPy等工具提升数据处理效率,利用B/S架构与MySQL数据库实现高效存储与访问。研究涵盖技术背景、学术与商业意义、国内外研究现状及PyCharm、Python语言等关键技术,助力企业精准营销与产品优化,具有广泛的应用前景与社会价值。
|
5月前
|
机器学习/深度学习 Java 大数据
Java 大视界 -- Java 大数据在智能政务公共资源交易数据分析与监管中的应用(202)
本篇文章深入探讨了 Java 大数据在智能政务公共资源交易监管中的创新应用。通过构建高效的数据采集、智能分析与可视化决策系统,Java 大数据技术成功破解了传统监管中的数据孤岛、效率低下和监管滞后等难题,为公共资源交易打造了“智慧卫士”,助力政务监管迈向智能化、精准化新时代。
|
7月前
|
存储 关系型数据库 MySQL
大数据新视界 --面向数据分析师的大数据大厂之 MySQL 基础秘籍:轻松创建数据库与表,踏入大数据殿堂
本文详细介绍了在 MySQL 中创建数据库和表的方法。包括安装 MySQL、用命令行和图形化工具创建数据库、选择数据库、创建表(含数据类型介绍与选择建议、案例分析、最佳实践与注意事项)以及查看数据库和表的内容。文章专业、严谨且具可操作性,对数据管理有实际帮助。
大数据新视界 --面向数据分析师的大数据大厂之 MySQL 基础秘籍:轻松创建数据库与表,踏入大数据殿堂
|
7月前
|
Cloud Native 大数据 Java
大数据新视界--大数据大厂之大数据时代的璀璨导航星:Eureka 原理与实践深度探秘
本文深入剖析 Eureka 在大数据时代分布式系统中的关键作用。涵盖其原理,包括服务注册、续约、发现及自我保护机制;详述搭建步骤、两面性;展示在大数据等多领域的应用场景、实战案例及代码演示。Eureka 如璀璨导航星,为分布式系统高效协作指引方向。
|
10月前
|
机器学习/深度学习 数据采集 分布式计算
大数据分析中的机器学习基础:从原理到实践
大数据分析中的机器学习基础:从原理到实践
520 3