• 关于

    hadoop存储爬虫信息

    的搜索结果
  • 众推平台架构——分布式爬虫

    分布式爬虫架构 经过新一轮的投票,项目的范围已经基本确定。 大家决定 全力以付,集中攻克“分布式爬虫”。 分布式爬虫架构1 使用队列,即生产者,消费都模式。 由于生产者将规则生成到队列,然后由爬虫集群(消费者)到队列中取规则,然后按优先级等规则进行爬取。 分布式爬虫架构2 类似于webmagi...

    文章 skyme 2016-05-05 2150浏览量

  • Hadoop使用(二)

    前提和设计目标 硬件错误 硬件错误是常态而不是异常。HDFS可能由成百上千的服务器所构成,每个服务器上存储着文件系统的部分数据。我们面对的现实是构成系统的组件数目是巨大的,而且任一组件都有可能失效,这意味着总是有一部分HDFS的组件是不工作的。因此错误检测和快速、自动的恢复是HDFS最核心的架构目...

    文章 skyme 2016-04-25 1217浏览量

  • 独家 | 一文读懂Hadoop(一):综述

    随着全球经济的不断发展,大数据时代早已悄悄到来,而Hadoop又是大数据环境的基础,想入门大数据行业首先需要了解Hadoop的知识。2017年年初apache发行了Hadoop3.0,也意味着一直有一群人在对Hadoop不断的做优化,不仅如此,各个Hadoop的商业版本也有好多公司正在使用,这也印...

    文章 行者武松 2017-08-01 2193浏览量

  • 万券齐发助力企业上云,爆款产品低至2.2折起!

    限量神券最高减1000,抢完即止!云服务器ECS新用户首购低至0.95折!

    广告

  • 玩转大数据-如何搭建hadoop集群

    看到题目有没有一种高大上的感觉? 毛线,当前是个人、是个公司都在说自己搞大数据,每天没有几个PB的数据入库,每天没有几个TB的分析数据产出敢说自己是大数据? 乘着大数据噱头之风,我们还是要看一下大数据所运用的工具对于我们是否有用,小编之前写项目时一直青睐于mysql,进来发现新的项目mysql已经...

    文章 丁小晶 2016-08-16 1048浏览量

  • hadoop使用(三)

    安装hbase 首先下载hbase的最新稳定版本 http://www.apache.org/dyn/closer.cgi/hbase/ 安装到本地目录中,我安装的是当前用户的hadoop/hbase中 tar -zxvf hbase-0.90.4.tar.gz 单机模式 修改配置文件 conf/...

    文章 skyme 2016-04-25 1312浏览量

  • Hadoop体系结构中的服务解决介绍

    翻了一下最近一段时间写的分享,DKHadoop发行版本下载、安装、运行环境部署等相关内容几乎都已经写了一遍了。虽然有的地方可能写的不是很详细,个人理解水平有限还请见谅吧!我记得在写DKHadoop运行环境部署的时候,遗漏了hadoop服务角色的内容,本篇特地补上这部分内容吧,不然总觉得不舒服。 要...

    文章 大数据资讯 2018-09-11 2229浏览量

  • 仁人帮探索大数据技术

    前两期小帮为大家介绍了仁人帮的大数据定义与大数据在仁人帮后台的应用。今天也不跟大家卖关子了,接下来,小帮为大家奉上的是大数据平台技术的探索。 大数据技术,小帮认为可以分成两个大的层面,大数据平台技术与大数据应用技术。要使用大数据,你先必须有计算能力,大数据平台技术包括了数据的采集,存储,流转,加工...

    文章 隐林 2017-10-10 3908浏览量

  • 史上最全“大数据”学习资源整理

    史上最全“大数据”学习资源整理 2016-05-17 Hadoop技术博文   当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术...

    文章 云雷 2017-06-17 3732浏览量

  • 电商平台实战经验:电商中的Hadoop生态系统应用

    技术交流和面试其实有些共通性,比如经常会有类似问题: 如何做到高可用的? 访问峰值达到什么量级? 系统如何撑住的? 高并发下数据一致性如何保证? 如何进行性能优化? 使用了什么新技术? 等等。 实际上如果大家对高可用、高并发、高性能的系统设计有兴趣,从这方面有很多部分可以谈:从硬件到软件、从程序...

    文章 jurassic_1 2016-07-28 3720浏览量

  • 《企业大数据系统构建实战:技术、架构、实施与应用》——2.2 大数据职位构建体系

    本节书摘来自华章计算机《企业大数据系统构建实战:技术、架构、实施与应用》一书中的第2章,第2.2节,作者 吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.2 大数据职位构建体系 在团队组建过程中,科学地定义职位体系直接影响到大数据实施的效率和质量,由于大...

    文章 华章计算机 2017-07-04 2887浏览量

  • 《机器人操作系统ROS原理与应用》——2.1 大数据组织架构体系

    本节书摘来自华章出版社《企业大数据系统构建实战:技术、架构、实施与应用》一 书中的第2章,第2.2节,作者:吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.2 大数据职位构建体系 在团队组建过程中,科学地定义职位体系直接影响到大数据实施的效率和质量,由于...

    文章 华章计算机 2017-05-02 1539浏览量

  • 《企业大数据系统构建实战:技术、架构、实施与应用》一2.2 大数据职位构建体系

    本节书摘来自华章出版社《企业大数据系统构建实战:技术、架构、实施与应用》一书中的第2章,第2.2节,作者吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区“华章计算机”公众号查看本节书摘来自华章出版社《企业大数据系统构建实战:技术、架构、实施与应用》一书中的第2章,第2.1节,作者吕兆星...

    文章 华章计算机 2017-05-02 3489浏览量

  • HBase使用场景和成功案例

    1.2 HBase 使用场景和成功案例 有时候了解软件产品的最好方法是看看它是怎么用的。它可以解决什么问题和这些解决方案如何适用于大型应用架构,能够告诉你很多。因为HBase有许多公开的产品部署,我们正好可以这么做。本章节将详细介绍一些人们成功使用HBase的使用场景。 注意:不要自我限制,认...

    文章 skyme 2016-05-05 2129浏览量

  • HBase使用场景和成功案例

    1.2 HBase 使用场景和成功案例 有时候了解软件产品的最好方法是看看它是怎么用的。它可以解决什么问题和这些解决方案如何适用于大型应用架构,能够告诉你很多。因为HBase有许多公开的产品部署,我们正好可以这么做。本章节将详细介绍一些人们成功使用HBase的使用场景。 注意:不要自我限制,认...

    文章 skyme 2016-05-05 4274浏览量

  • 独家 | 一文读懂大数据处理框架

    前言 说起大数据处理,一切都起源于Google公司的经典论文:《MapReduce:Simplied Data Processing on Large Clusters》。在当时(2000年左右),由于网页数量急剧增加,Google公司内部平时要编写很多的程序来处理大量的原始数据:爬虫爬到的网页...

    文章 行者武松 2017-07-03 2458浏览量

  • HDFS架构设计

    HDFS架构设计 标签: 大数据 Hadoop [toc] 原文:http://hadoop.apache.org/docs/r2.6.4/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html 介绍 HDFS是个分布式文件系统,包含几个特点(区别于普通...

    文章 尊渊 2016-10-23 3366浏览量

  • 《HBase企业应用开发实战》—— 1.5 HBase的使用场景和经典案例

    本节书摘来自华章出版社《HBase企业应用开发实战》一 书中的第1章,第1.5节,作者:马延辉 孟鑫 李立松 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.5 HBase的使用场景和经典案例 了解软件产品的最好方法是如何使用,解决什么问题以及如何适用于大型应用架构。接下来的内容将详...

    文章 华章计算机 2017-07-03 4302浏览量

  • 专访携程李亚锋:大数据技术融合下的Spark更具魅力

    大数据”作为当下最火热的IT行业词汇,在主流的数据处理工具当中Hadoop和Spark都被大家所熟悉。不过,目前基于内存计算的Spark适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,已经逐渐获得很多企业的支持。这是否意味着我们应该彻底抛弃Hadoop?在前不久的北京Spar...

    文章 小旋风柴进 2017-05-02 934浏览量

  • 【官方文档】Hadoop分布式文件系统:架构和设计

    http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_design.html   引言 前提和设计目标 硬件错误 流式数据访问 大规模数据集 简单的一致性模型 “移动计算比移动数据更划算” 异构软硬件平台间的可移植性 Namenode 和 Datan...

    文章 孤剑 2014-09-01 618浏览量

  • 手把手教你搭建一个基于Java的分布式爬虫系统

    在不用爬虫框架的情况下,我经过多方学习,尝试实现了一个分布式爬虫系统,并且可以将数据保存到不同地方,类似 MySQL、HBase 等。 因为此系统基于面向接口的编码思想来开发,所以具有一定的扩展性,有兴趣的朋友直接看一下代码,就能理解其设计思想。 虽然代码目前来说很多地方还是比较紧耦合,但只要花...

    文章 技术小能手 2018-06-06 7089浏览量

  • 搜索引擎系统的原理和实践

    >>搜索引擎的原理和分析指标 (1)搜索引擎的工作原理 搜索引擎的工作原理大致可以分为: 搜集信息:搜索引擎的一个部分可以实现信息自动搜集。 整理信息:搜索引擎通过创建索引为抓取到的信息添加规则。 接受查询:用户向搜索引擎输入关键词提交查询,系统接受用户查询,并且排序后并返回查询结果。...

    文章 邴越 2016-05-05 2153浏览量

  • 海量数据下的舆情分析,该如何搭建?

    阿里妹导读:互联网的飞速发展促进了很多新媒体的发展,不论是知名的大V,明星还是围观群众都可以通过手机在微博、朋友圈或者点评网站上发表动态,分享自己的所见所想,使得“人人都有了麦克风”。不论是热点新闻还是娱乐八卦,传播速度远超我们的想象,一则信息可以在短短数分钟内,有数万计转发,数百万的阅读。海量信...

    文章 KB小秘书 2019-07-26 1384浏览量

  • 阿里内部分享:大数据业务平台两年发展历程

          这篇文章来自一个公司内部的分享,是自己所服务的业务中数据平台的发展历程,已经讲了有几个月了,最近打算挑几个点拿出来用文章的形式写出来。是自己进入公司以来参与过或者接触过的数据型项目的情况。基本包含了业务数据分析的整个流程。这篇文章纯文字描述,没有任何图呵呵。所以看我需要耐心。 1、最早...

    文章 小旋风柴进 2017-04-03 1798浏览量

  • 大数据采集和抽取怎么做?这篇文章终于说明白了!

    本文来源于公众号【胖滚猪学编程】,转载请注明出处! 关于数据中台的概念和架构,我们在大白话 六问数据中台和数据中台全景架构及模块解析!一文入门中台架构师!两篇文章中都说明白了。从这一篇文章开始分享中台落地实战。 其实无论是数据中台还是数据平台,数据无疑都是核心中的核心,所以闭着眼睛想都知道数据汇聚...

    文章 公众号胖滚猪学编程 2020-05-21 1244浏览量

  • 带你读《HBase原理与实践》之一:HBase概述

    数据库技术丛书点击查看第二章点击查看第三章HBase原理与实践 胡 争 范欣欣 著第1章 HBase概述 HBase是目前非常热门的一款分布式KV(KeyValue,键值)数据库系统,无论是互联网行业还是其他传统IT行业都在大量使用。尤其是近几年随着国内大数据理念的普及,HBase凭借其高可靠、易...

    文章 被纵养的懒猫 2019-11-01 2778浏览量

  • 大数据架构如何做到流批一体?

    阿里妹导读:大数据与现有的科技手段结合,对大多数产业而言都能产生巨大的经济及社会价值。这也是当下许多企业,在大数据上深耕的原因。大数据分析场景需要解决哪些技术挑战?目前,有哪些主流大数据架构模式及其发展?今天,我们都会一一解读,并介绍如何结合云上存储、计算组件,实现更优的通用大数据架构模式,以及该...

    文章 技术小能手 2019-07-01 4493浏览量

  • 一文带你暴力拆解大数据

    在写这篇文章之前,我发现身边很多IT人对于这些热门的新技术、新趋势往往趋之若鹜却又很难说的透彻,如果你问他大数据和你有什么关系?估计很少能说出一二三来。究其原因,一是因为大家对新技术有着相同的原始渴求,至少知其然在聊天时不会显得很“土鳖”;二是在工作和生活环境中真正能参与实践大数据的案例实在太少了...

    文章 玄学酱 2018-02-09 1286浏览量

  • 沈浩老师:数据分析随访录

    1、请您简单介绍一下数据的可视化技术、商业智能技术、和数据挖掘的技术。 答:数据可视化本身也是一种数据分析技术,是将数据以统计图表和视觉形态表现出来的分析展现技术。我常说:看得见才能做得到,看得见才能做得好!随着数据分析技术的发展,数据存储、报表、分析和展现逐渐融合和一体化,过去是从数画图,现在...

    文章 小旋风柴进 2017-04-03 1028浏览量

  • 关于大数据你应该了解的五件事儿

    随着科技的发展,目前已经步入了大数据的时代,很多社交媒体和互联网公司也非常关注大数据这一行业。那么对于大数据而言,这里有五件事情是你应该了解的。 1.大数据是什么? 简单地说,大数据指的是通过计算分析大数据集,以揭示与数据某一方面相关的模式或趋势。对于大数据而言,数据量没有一定的要求,只要足够得出...

    文章 【方向】 2018-03-17 1718浏览量

  • 【云周刊】第179期:王坚回顾阿里云10年:工程师拿命换来的成就

    本期头条 王坚回顾阿里云10年:工程师拿命换来的成就 探险充满了神奇的吸引力,它所蕴涵的那种坚韧不拔和无拘无束的随性生活理念,是对我们文化中固有的追求舒适与安逸的生活态度的一种解药。它标志着一种年少轻狂式的拒绝。近日,阿里云创始人王坚在央视最新一期《朗读者》中诵读了乔恩克拉考尔的《进入空气稀薄...

    文章 场景研读 2018-07-12 7723浏览量

1 2 3 >

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT