超越Hadoop的大数据分析之第一章介绍:为什么超越Hadoop Map-Reduce

简介:

本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》译者:吴京润
译者注:本文是本书第一章的开头,第一章其它部分由其他人翻译。

你可能是一个视频服务提供商,而你想基于网络环境动态的选择合适的内容分发网络来优化终端用户的体验。或者你是一个政府监管机构,需要为互联网页进行色情或非色情的分类以便过滤色情页面,同时还要做到高吞吐量以及实时性。或者你是一个通讯/移动服务提供商——要么你在这样的公司工作——而你担心客户流失(客户流失意味着,老用户离开而选择竞争对手,或者新用户加入竞争对手)。你一定非常想知道前一天有哪些客户在tweeter上抱怨你的服务。或者你是个零食店主,而你非常想对你的客户做购买预测,这样你就可以为你商品做更多有针对性的促销活动,并期望销售额由此带来的增长。或者你是一家医疗保险公司,当务之急是计算某位客户明年住院的概率,以便适当的修改的保费。或者你是一家金融产品公司的CTO,而公司希望拥有实时交易/预测算法,帮助确认损益表底线。或者你为一家电子制造公司工作,而你想在试运行期间预测故障、查明故障根源,以便在后来的实际运行中有效。这要归功于大数据分析创造的新世界。

分析已经存在很久了——北卡罗莱纳州立大学在1960年代晚期有一个用于农业研究的项目叫做“统计分析系统(SAS)”,后来该项目独立出来成立了SAS公司。术语analysisanalytics(译者注:本人不知道如何翻译这两个词)之间的惟一区别在于analytics通过分析数据得到可行性的见解。术语商业智能(BI)在商业环境的数据分析中也经常提到,可能最早见于Peter Luhn的一篇论文(Luhn 1958)。许多BI应用运行于数据仓库之上,直到最近也是如此。相比之下,从术语“分析”到“大数据”这个术语的深化是极其晚近的事了。

术语大数据似乎首先被John R. Mashey使用,后来硅谷图形公司(SGI)在一份在USENIX(UNIX用户协会)会议邀请报告的标题叫做“大数据与下一代基础架构压力”,它的副本可从http://static.usenix.

org/event/usenix99/invited_talks/mashey.pdf下载。该术语同样出现在一份计算协会的信件中(Bryson等 1999年)。来自META集团(如今的Gartner)的一份报告首次确认3V(大量、多样、快速,译者注:原谅是Volume variety velocity)为大数据的特征。谷歌关于MapReduce的论文(MR; Dean Ghemawat 2004)触发了在大数据领域的大量研究。虽然MR范式在函数式编程中为人所熟知,但是该论文也提供了在集群环境中该范式的可扩展性实现。该论文导致了Hadoop的出现——MR范式的开源实现,一个可用性范式的转变——使得最终用户能够在集群环境中处理大数据集。Hadoop,包括MR实现与Hadoop分布式文件系统(HDFS),如今已经成为数据处理的事实标准。大量的工业厂商正在改变游戏规则,例如迪斯尼、西尔百货、沃尔玛、AT&T已经有它们自己的Hadoop集群设施。


文章转自 并发编程网-ifeve.com

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
8月前
|
存储 分布式计算 大数据
基于Python大数据的的电商用户行为分析系统
本系统基于Django、Scrapy与Hadoop技术,构建电商用户行为分析平台。通过爬取与处理海量用户数据,实现行为追踪、偏好分析与个性化推荐,助力企业提升营销精准度与用户体验,推动电商智能化发展。
|
9月前
|
数据可视化 搜索推荐 大数据
基于python大数据的北京旅游可视化及分析系统
本文深入探讨智慧旅游系统的背景、意义及研究现状,分析其在旅游业中的作用与发展潜力,介绍平台架构、技术创新、数据挖掘与服务优化等核心内容,并展示系统实现界面。
|
9月前
|
存储 SQL 分布式计算
终于!大数据分析不用再“又要快又要省钱”二选一了!Dataphin新功能太香了!
Dataphin推出查询加速新功能,支持用StarRocks等引擎直连MaxCompute或Hadoop查原始数据,无需同步、秒级响应。数据只存一份,省成本、提效率,权限统一管理,打破“又要快又要省”的不可能三角,助力企业实现分析自由。
465 49
|
8月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的台风灾害分析及预测系统
针对台风灾害预警滞后、精度不足等问题,本研究基于Python与大数据技术,构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率,结合Django框架实现动态可视化与实时预警,为防灾决策提供科学支持,显著提高应急响应效率,具有重要社会经济价值。
|
8月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
9月前
|
数据采集 数据可视化 关系型数据库
基于python大数据的电影数据可视化分析系统
电影分析与可视化平台顺应电影产业数字化趋势,整合大数据处理、人工智能与Web技术,实现电影数据的采集、分析与可视化展示。平台支持票房、评分、观众行为等多维度分析,助力行业洞察与决策,同时提供互动界面,增强观众对电影文化的理解。技术上依托Python、MySQL、Flask、HTML等构建,融合数据采集与AI分析,提升电影行业的数据应用能力。
|
8月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
688 0
|
9月前
|
数据可视化 大数据 数据挖掘
基于python大数据的招聘数据可视化分析系统
本系统基于Python开发,整合多渠道招聘数据,利用数据分析与可视化技术,助力企业高效决策。核心功能包括数据采集、智能分析、可视化展示及权限管理,提升招聘效率与人才管理水平,推动人力资源管理数字化转型。
|
9月前
|
机器学习/深度学习 搜索推荐 算法
基于python大数据的口红商品分析与推荐系统
本研究基于Python大数据技术,构建口红商品分析与推荐系统,旨在解决口红市场产品同质化与消费者选择困难问题。通过分析颜色、质地、价格等多维度数据及用户行为,实现个性化推荐,提升购物体验与品牌营销效率,推动美妆行业数字化转型,具有重要现实意义与市场价值。