开发者社区> 技术小美> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

hadoop之 hadoop用途方向

简介:
+关注继续查看
  1. hadoop是什么?

    Hadoop是一个开源的框架,可编写和运行分不是应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。用函数式变成Mapreduce代替SQL,SQL是查询语句,而Mapreduce则是使用脚本和代码,而对于适用于关系型数据库,习惯SQL的Hadoop有开源工具hive代替。

  2. hadoop能做什么?

    hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是hive,少量尝试mahout!)

  3. hadoop能为我司做什么?
    • 大数据量存储:分布式存储
    • 日志处理: Hadoop擅长这个
    • 海量计算: 并行计算
    • ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库
    • 使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统
    • 机器学习: 比如Apache Mahout项目
    • 搜索引擎:hadoop + lucene实现
    • 数据挖掘:目前比较流行的广告推荐
    • 大量地从文件中顺序读。HDFS对顺序读进行了优化,代价是对于随机的访问负载较高。
    • 数据支持一次写入,多次读取。对于已经形成的数据的更新不支持。
    • 数据不进行本地缓存(文件很大,且顺序读没有局部性)
    • 任何一台服务器都有可能失效,需要通过大量的数据复制使得性能不会受到大的影响。
    • 用户细分特征建模
    • 个性化广告推荐
    • 智能仪器推荐
  4. hadoop实际应用:

    Hadoop+HBase建立NoSQL分布式数据库应用

    Flume+Hadoop+Hive建立离线日志分析系统

    Flume+Logstash+Kafka+Spark Streaming进行实时日志处理分析

     

    酷狗音乐的大数据平台

    京东的智能供应链预测系统 

    说明:整理于网络

    http://www.cnblogs.com/zhangs1986/p/6528227.html

    http://blog.sina.com.cn/s/blog_687194cd01017lgu.html

    文章可以转载,必须以链接形式标明出处。

本文转自 张冲andy 博客园博客,原文链接:http://www.cnblogs.com/andy6/p/7445824.html   ,如需转载请自行联系原作者

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
hadoop
一、概述   what is apache hadoop?     The apache Hadoop project develops open-source software for reliable, scalable, distributed computing.
937 0
Hadoop
1,基本概念   http://www.doc88.com/p-214832657401.html
413 0
hadoop使用(四)
做一个网络爬虫的程序吧,根据客户的需求,要求把相关的内容爬取到本地 最终选择的是apache nutch,到目前为止最新的版本是1.3 1. Nutch是什么? Nutch是一个开源的网页抓取工具,主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。
851 0
hadoop使用(三)
安装hbase 首先下载hbase的最新稳定版本 http://www.apache.org/dyn/closer.cgi/hbase/ 安装到本地目录中,我安装的是当前用户的hadoop/hbase中 tar -zxvf hbase-0.
991 0
+关注
6819
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载