10个大数据案例

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 如今全球数据量正迅猛增长,每十八个月总量就会翻上一倍。就在不知不觉之中,我们身边的现实世界已经开始转向由大数据驱动的新时代。在今天的文章中,我将带大家一同回顾十大大数据部署实例。 关于大数据话题的炒作与争论似乎永无停歇,但全球数据量迅猛增长、每十八个月总量翻上 一倍的客观现实却没人能够否认。

如今全球数据量正迅猛增长,每十八个月总量就会翻上一倍。就在不知不觉之中,我们身边的现实世界已经开始转向由大数据驱动的新时代。在今天的文章中,我将带大家一同回顾十大大数据部署实例。

关于大数据话题的炒作与争论似乎永无停歇,但全球数据量迅猛增长、每十八个月总量翻上

一倍的客观现实却没人能够否认。对这些新增数据的利用已经延伸到我们生活中的几乎各个方面,只是有些相对直观、有些却在悄然发生。今天我们就来一同回顾那些不为人知却实际存在的十大大数据部署案例。

 

Netflix

 

Netflix已经成为美国国内规模最大的商业视频流供应商——目前拥有2900万视频流客户。这家公司同时也成为吸收新增数据的海绵——用户在看什么、喜欢在什么时段观看、在哪里观看以及使用哪些设备观看,爆增的信息量成为Netflix手中的宝贵资产。他们甚至掌握着用户在哪视频的哪个时间点后退、快进或者暂停,乃至看到哪里直接将视频关掉等信息。现在Netflix公司开始推出自己的原创节目,而节目制作的依据正是刚刚提到的这些数据。他们利用手中的数据说服BBC重新翻拍了电视连结剧《纸牌屋》;而且将演员Kevin Spacey与导演David Fincher的粉丝与原剧集支持者的粉丝进行关联,最终让这二位加盟新剧的拍摄。

Ancestry.com

Ancestry.com帮助人们将自己与家庭史结合起来并创建独一无二的树状家谱。从表面上看,这个主意似乎没什么技术含量,但为了实现这项功能、网站需要维护超过110亿条记录与高达4PB的数据量——其中包括历史记录、出生记录、死亡记录、战争与移动记录甚至年鉴等——其中不少往往采取手写格式。它利用高级内容处理技术对全部相关信息加以索引,从而保证数据的可搜索性。Ancestry.com还引入额外的DNA处理结果以生成新型数据流,从而帮助客户更准确地建立血缘关系。通过对唾液进行采样,网站方面能够对客户的DNS进行排序并将结果与数据库中的其它客户加以匹配——例如找到多年没有联系的表亲。 

西奈山医疗中心

西奈山医疗中心是美国历史最悠久、规模最大的教学型医院之一,其在医学教育与生物医学研究方面的地位非常突出。目前中心方面正利用来自大数据新兴企业Ayasdi公司的技术对整个大肠杆菌基因组序列进行分析,其中包括超过100万个DNA变异,旨在努力理解某些菌株如何在与抗生素的共处中获得抗药性。细菌的抗药性影响着全球各地数以百万计的病人。Ayasdi的技术为数学研究、拓扑数据分析(简称TDA)开辟了一片新天地,有助于人们更深刻地理解数据形态。

 

加利福尼亚州ISO

加州独立系统运营商(简称ISO)管理着全加州地区超过八成电网中的供电走向,每年提供的电力达到2.89亿千万时、惠及3500万民众,供电线路的总长度超过25000英里。他们利用Space-Time Insight公司的软件实现情景智能化机制,从而将来自多个来源的大规模数据进行关联与分析——其中包括天气状况、传感器数据以及计量设备测绘结果等——并以可视化形式帮助用户查看并理解如何对可再生能源进行优化、实现整个电网的电力供需平衡并快速应对潜在危机。

 

Hydro One网络

Hydro One公司负责为全安大略省的家庭及企业提供电力。该公司拥有并经营安大略省内总长达29000公里的高压输电网络以及总长达123000公里、直接面向130万用户的低压配电系统。Hydro One使用的是由Space-Time Insight提供的地理空间与可视化分析软件,旨在改进当前输电与配电资产的健康性与可靠性。这套系统能帮助资产管理者及时获取相关情报,包括资产性能随时间推移而发生的变化、资产更换战略以及资产维护需求等。该方案还能将数据与其它多种不同系统的功能结合起来,包括SAP ECC、SAP BW、GIS系统以及实时数据等,从而帮助Hydro One对自身拥有的资产具备宏观掌控能力。

 

俄勒冈健康与科学大学

俄勒冈健康与科学大家(简称OHSU)是位于美国俄勒冈州的一所公立大学,下辖两所医院、一座一级创伤恢复中心和一家儿童医院。校方将Stanley Black与Decker Disivion Stanley Healthcare提供的MobileView软件与Tableau软件的数据虚拟化技术结合起来,旨在追踪院内4000个注液泵的实时位置与工作状态,从而掌握注入到患者循环系统当中的液体、药物或者营养物质——事实上,这项工作如果完全依靠手动方式执行、其可靠程度将大打折扣。该技术还允许校方对历史及当前资产数量进行分析,进而更好地规划未来数量水平、提高库存物资的分配与利用效率。

 

拉斯维加斯市

由于记录太过古老、信息不够准确,大部分城市中的公共事业机构都不了解埋在地下的资产处于何种状况——因此居民往往会由于某条供电线被意外切断或者某条供水管线老化爆裂而受到影响。为了避免这些难题,拉斯维加斯市采取智能数据方式开发出一套实时公共事业网络模型。VTN咨询公司帮助市政当局通过各种渠道汇总数据,并利用Autodesk技术创建出实时3D模型。这套模型中包含着地上与地下的所有公共设施,目前已经被用于监测城市地下设施的具体位置以及运转状况。

 

迈阿密市属戴德县

佛罗里达州迈阿密市属戴德县正积极响应IBM提出的智能化城市倡议,希望将35个区域自治单位与迈阿密市聚拢起来,努力帮助政府领导做出更为明知的管理决策——包括充分利用水资源、减少交通拥堵以及改善公众安全等。IBM通过云计算环境下的深层分析为该县带来一套情报仪表板,从而帮助各机关与部门彼此协作并实现可视化管理。举例来说,戴德县县公园部门今年预计将通过识别并修复因锈蚀而漏水的浇灌管道节省100万美元经费。

 

澳大利亚网球协会

在一年的大多数时段内,作为澳大利亚网球公开赛的经营方,澳大利亚网球协会的运作状态与普通的小型企业没什么差别。然而一旦为期两周的澳网公开赛开始进行,协会瞬间就成了一家规模庞大、对数据极度渴求的大型企业——他们需要不间断地访问准确内容、数据以及统计结果,从而进行分析并做出决策。澳大利亚网球协会采用IBM的实时数据分析软件来检查赛程进行状态、运动员人气、历史数据记录以及社交媒体上球迷们对比赛网站提出的数据需求。根据实际需求,这项技术能够为分析工作分配必要的计算资源。

 

DPR Construction

DPR Construction公司是加州大学旧金山分校斥资15亿美元在米慎湾兴建的医学中心的承包商,这也是第一座建造时间超过十年的医学中心。DPR利用来自Autodesk公司的3D技术帮助手下的设计师们收集空气流量、建筑物朝向、楼体间距、环境永续性以及建筑性能等数据,并将结果导入到一套单独的虚拟模型当中。通过这种方式,建筑师、设计师以及旗工队伍能够以可视化方式掌握遍布整个运作环境下的数亿个数据标记。


原文发布时间为:2013-11-20


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
6月前
|
关系型数据库 MySQL 大数据
大数据新视界--大数据大厂之MySQL 数据库课程设计:MySQL 数据库 SQL 语句调优的进阶策略与实际案例(2-2)
本文延续前篇,深入探讨 MySQL 数据库 SQL 语句调优进阶策略。包括优化索引使用,介绍多种索引类型及避免索引失效等;调整数据库参数,如缓冲池、连接数和日志参数;还有分区表、垂直拆分等其他优化方法。通过实际案例分析展示调优效果。回顾与数据库课程设计相关文章,强调全面认识 MySQL 数据库重要性。为读者提供综合调优指导,确保数据库高效运行。
|
12月前
|
分布式计算 监控 大数据
大数据-131 - Flink CEP 案例:检测交易活跃用户、超时未交付
大数据-131 - Flink CEP 案例:检测交易活跃用户、超时未交付
243 0
|
12月前
|
消息中间件 关系型数据库 MySQL
大数据-117 - Flink DataStream Sink 案例:写出到MySQL、写出到Kafka
大数据-117 - Flink DataStream Sink 案例:写出到MySQL、写出到Kafka
676 0
|
12月前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
197 0
|
12月前
|
SQL 分布式计算 NoSQL
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
132 1
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
|
12月前
|
分布式计算 大数据 Linux
大数据体系知识学习(二):WordCount案例实现及错误总结
这篇文章介绍了如何使用PySpark进行WordCount操作,包括环境配置、代码实现、运行结果和遇到的错误。作者在运行过程中遇到了Py4JJavaError和JAVA_HOME未设置的问题,并通过导入findspark初始化和设置环境变量解决了这些问题。文章还讨论了groupByKey和reduceByKey的区别。
193 1
|
12月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
169 3
|
12月前
|
消息中间件 druid 大数据
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)
142 2
|
12月前
|
存储 大数据 分布式数据库
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
172 1
|
12月前
|
消息中间件 分布式计算 druid
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
181 1

热门文章

最新文章