暂无个人介绍
下载hive的安装包解压在hadoop集群上的任何一台机器上都可以 mysql jdbc驱动拷贝到hive的lib目录下 hive-env.sh HADOOP_HOME=/opt/modules/hadoop-2.2.0 修改hive-site.xml <property> <name>javax.jdo.option.ConnectionURL&
hbase的jar包要和hadoop集群的jar包一致 ,所以可能存在一个hadoop的jar包替换过程。 详细配置文件 hbase-site.xml <configuration> <property> <name>hbase.rootdir</name> <value>hdfs://ns1/hbase</val
hadoop-daemon.sh与hadoop-daemons.sh区别 hadoop-daemon.sh只能本地执行 hadoop-daemons.sh能远程执行 1. 启动JN hadoop-daemons.sh start journalnode hdfs namenode -initializeSharedEdits //复制edits log文件到journalnode节点上,
我是想把 /etc/hosts 文件 分发到 10.205.10.11至20机器上 安装命令 sudo yum -y install clusterssh pdsh pdsh-rcmd-ssh pdsh-rcmd-rsh mussh pdcp -w ssh:root@srv[11-20] /etc/hosts /etc/pdsh软件包还包括一个pdcp命令,可以将文件拷贝到一组机器上,用法如
胜者树与败者树 胜者树和败者树都是完全二叉树,是树形选择排序的一种变型。每个叶子结点相当于一个选手,每个中间结点相当于一场比赛,每一层相当于一轮比赛。 不同的是,胜者树的中间结点记录的是胜者的标号;而败者树的中间结点记录的败者的标号。 胜者树与败者树可以在log(n)的时间内找到最值。任何一个叶子结点的值改变后,利用中间结点的信息,还是
对Java Serializable(序列化)的理解和总结 http://blog.csdn.net/dreamtdp/article/details/15378329 怎么序列化 没有实现 Serializable 接口的类。 如果真正只有一个类需要序列化,其他的不能序列化的类只是出现在它的属性中:就写一个它的子类,然后把父类里不能序列化的成员变量
对远远大于内存的数据进行外排序,在多路比较的时候用败者树效率会更高。 这个算法可以在建立倒排索引的时候使用 package my.sort; import java.io.BufferedInputStream; import java.io.BufferedOutputStream; import java.io.BufferedWriter; import java.io.Dat
所需jar包 一、URL API操作方式 import java.io.InputStream; import java.net.URL; import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; import org.apache.hadoop.io.IOUtils; import org.junit.Test; public clas
cli命令show functions;desc function concat;desc function extended concat;查看某个函数怎么使用的例子nvl函数coalesce(v1,v2,...)返回参数中第一个非空值,如果所有值都为null返回null;set.cli.print.header=true;winfunc员工 工资 标识id money type关
用户电影评分数据集下载 http://grouplens.org/datasets/movielens/ 1) Item-Based,非个性化的,每个人看到的都一样2) User-Based,个性化的,每个人看到的不一样对用户的行为分析得到用户的喜好后,可以根据用户的喜好计算相似用户和物品,然后可以基于相似用户或物品进行推荐。这就是协同过滤中的两个分支了,基于用户的和基于物品的协同过滤。
windows7 32位环境下所需软件 一、安装Apache2.4+PHP5.6Apache2.4配置httpd.conf参考文章:http://jingyan.baidu.com/article/fcb5aff797ec41edaa4a71c4.html ServerRoot "c:/Apache24" Listen 8080 DocumentRoot "c:/Apa
<!DOCTYPE html><html><head><meta charset="UTF-8"><!-- 当前页面的三要素 --><title>html零基础快速制作网页弹出窗口</title><meta name='Keywords' content="html,弹出窗口"><meta
1.原来在一行中的两个块,会因为浏览器窗口的大小改变而改变其原来的位置(变成多行),浏览器窗口宽度不够容纳解决方法:加个父div,并且设置宽度.father {width:500px;height:300px;}<div class="father"> <div class="left">左</div> <div class="right"&g
创建数据库create database if not exists sopdmcomment 'this is test database'with dbproperties('creator'='gxw','date'='2014-11-12') --数据库键值对属性信息location '/my/preferred/directory';显示所有表show tables ;显示表的描述
MainActivity.java package com.example.web; import android.app.Activity; import android.app.ProgressDialog; import android.content.Intent; import android.net.Uri; import android.os.Bundle; import a
基本思路先隐藏(dispaly:none)再显示,半透明蒙版层通过 z-index:9998; z-index:9999; 值越大越在前面 index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitio
1.${SESSION_USER_V2} 会从大到小查找作用域中的attribute PageContext PageScope servletRequest RequestScope httpSession
一、查看执行计划explain extended hql;可以看到扫描数据的hdfs路径二、hive表优化分区(不同文件夹):动态分区开启:set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict; 默认值:strict 描述:strict是避免全分区字段是动态的,必须
在server.xml中配置两个service为Catalina.app1和Catalina.app2 <Service name="Catalina.app1"> <Connector connectionTimeout="20000" port="8081" protocol="HTTP/1.1" redirectPort="8443"/> &l
封装实体类(服务器返回信息都存放在该实体中) package com.chinaseacom.store.common; public class ResponseBody { public static final int CODE_SUCCESS=1; public static final int CODE_FAIL=0; private int code=1;
IDEA + Maven + Jetty来开发Web项目,主要演示下如何调试代码。 1. 首先我们来创建一个Maven项目,项目类型选择“Maven Module”,输入项目名称“demo”。 2. 选择项目使用的Archetype为“maven-archetype-webapp”,这里也可以随便修改下GroupId等信息。 3. 这一步直接点击“Finish”。 4. 打开Maven的
ResourceManager 资源管理 只有一个(资源以Container表示) ApplicationMaster 应用管理 用户每提交一个application都包含一个ApplicationMasterNodeManager 每个节点对应一个 ApplicationMaster 启动后向ResourceManager要资源 每个Executor对应一个Cont
序列化:把结构化的对象转换成字节流,使得能够在系统中或网络中通信 需要把数据存储到hadoop的hbase 常用序列化系统 thrift (hive,hbase) Protocol Buffer (google) avro 本文出自 “点滴积累” 博客,请务必保留此出处http://tianxingzhe.blog.51cto.com/3390077
本文出自 “点滴积累” 博客,请务必保留此出处http://tianxingzhe.blog.51cto.com/3390077/1701765
术语解释 Executor 多线程的方式运行 每个partirion会被分配一个task taskset就是stage,一个stage由多个task组成 广播变量类似于hadoop的DistributedCache 本文出自 “点滴积累” 博客,请务必保留此出处http://tianxingzhe.blog.51cto.com/3390077/1
double是原始数据类型,Double是封装数据类型double没有方法,Double有自己的属性和方法double只创建引用,Double创建对象集合类不能存放double,只能存放Doubledouble存放在栈中,Double存放在堆中栈的存取速度要高于堆,另外栈中的数据可以共享如:double a = 0;double b = 0;不会创建对象,只会建立两个引用,同时指向变量“0”
1. 构建拓扑代码 package demo; import backtype.storm.topology.TopologyBuilder; import backtype.storm.tuple.Fields; public class AreaAmtTopo { public static void main(String[] args) {
storm是grovvy写的 kafka是scala写的 storm-kafka storm连接kafka consumer的插件 下载地址: https://github.com/wurstmeister/storm-kafka-0.8-plus 除了需要storm和kafka相关jar包还需要google-collections-1.0.jar 以及zookeeper相关包 cur
spark快的原因1.内存计算 2.DAG spark shell已经初始化好了SparkContext,直接用sc调用即可 lineage 血统 RDD wide and narrow dependencies 窄依赖每个 RDD partition最多被一个子RDD partirion依赖 /sbin(system binary)放的都是涉及系统管理的命令。有些系统里面
版本 1.4.3 sqoop help 命令帮助 对应数据库的jdbc jar包复制到sqoop lib目录下 1.把数据从mysql导入hdfs(默认是/user/<username>中 sqoop import --connect jdbc:mysql://localhost:3306/hive --username root --password root --tab
Process exec(String command) 在单独的进程中执行指定的字符串命令。 Process exec(String[] cmdarray) 在单独的进程中执行指定命令和变量。 Process exec(String[] cmdarray, String[] envp) 在指定环境的独立
只能读取97-2003的文件格式xls, 不支持xlsx格式 import java.io.File; import jxl.*; public class ExcelUtils { public static void main(String[] args) { try { Workbook book = Workbook.getW
flume架构图 单节点flume配置 flume-1.4.0 启动flume bin/flume-ng agent --conf ./conf -f conf/flume-conf.properties -Dflume.root.logger=DEBUG,console -n agent -n表示配置文件中agent的名字 agent.sources = r1 agent.sinks
主线程执行完要等待其他线程执行完,才退出虚拟机 主线程执行完需要让其他线程也结束,可设置为守护线程,守护线程必须在线程启动前开启 实现方式和继承方式的区别: 实现方式好处避免了但继承的局限性(不能继承其他类,只能继承Thread类) 定义线程时,建议使用实现方式。 两种方式区别: 继承Thread:线程代码存放Thread子类的run方法中 实现Runnable:线程代码存放接口子类
import java.io.IOException; import java.util.HashMap; import java.util.Map; import java.util.Set; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; imp
混合函数可以使用java中的方法java_method(class,method[,arg1[,arg2...]])或者reflect Hive版本1.2.1 UDTF 用户定义表函数(表函数)一行变成多行配合lateral view hive的Lateral view http://blog.sina.com.cn/s/blog_7e04e0d00101csic.html UDF 重写ev
org.apache.hadoop.hbase.mapreduce TableMapper TableReducer 一个region对应一个map import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfigura
对每个region进行处理,弥补了scan的时候有限的几个过滤器的不足 分为两种类型 observer 观察者相当于触发器 Endpoint终端相当于存储过程 下面的观察者实现查询之前替换掉行键为Jack的KeyValue import java.io.IOException; import java.util.List; import org.apache.hadoop.hba
HBase中没有库的概念 HBase lib目录下所有JAR包复制到项目中,Hbase 版本0.98.5 package com.zxing.imgQRCode; import java.io.IOException; import java.util.LinkedList; import java.util.List; import org.apache.hadoop.conf.Con
package org.conan.myhadoop.mr; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class HiveJDBC
归并排序是利用递归和分而治之的技术将数据序列划分成为越来越小的半子表,再对半子表排序,最后再用递归步骤将排好序的半子表合并成为越来越大的有序序列,归并排序包括两个步骤,分别为: 1)划分子表 2)合并半子表 首先我们来讨论归并算法,归并算法将一系列数据放到一个向量中,索引范围为[first,last],这个序列由两个排好序的子表构成,以索引中点(mid)
jai包 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-core</artifactId> <version>1.2.1</version> </dependency> 2.x以后
1类型自动匹配(模式匹配) 2函数是有值的(匿名函数是函数的常态) 递归函数需要指定返回值 3.内部类隶属于外部类的实例本身,而java内部类属于外部类,对外部类的依赖路径依赖 4.object类似于java中的静态内部类 里面的所有成员都是静态的,适用于配置文件 静态都是用来修饰类的内部成员的。比如静态方法、静态成员变量。它唯一的作用就是随着类的加载(而不是随着对象的产生)而产生,以致可以
1.inline ,block,inline-block区别 替换元素 :几乎所有的可替换元素都是行内元素,例如<img>、<input>等。 替换元素一般有内在尺寸,所以具有width和height,可以设定。例如你不指定img的width和height时,就按其内在尺寸显示,也就是图片被保存的时候的宽度和高度。 对于表单元素,浏览器也有默认的样式,包括宽度和高度。
摘要: 在数据仓库的数据模型设计过程中,经常会遇到文内所提到的这样的需求。而历史拉链表,既能满足对历史数据的需求,又能很大程度的节省存储资源。 在数据仓库的数据模型设计过程中,经常会遇到这样的需求:1. 数据量比较大;2. 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;3. 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这 将会消耗很长的时间去执行。 这里跟传统的sql
Slots是Hadoop的一个重要概念。然而在Hadoop相关论文,slots的阐述难以理解。网上关于slots的概念介绍也很少,而对于一个有经验的Hadoop开发者来说,他们可能脑子里已经理解了slots的真正含义,但却难以清楚地表达出来,Hadoop初学者听了还是云里雾里。我来尝试讲解一下,以期抛砖引玉。 首先,slot不是CPU的Core,也不是memory chip,它是一个逻辑概念
HBase架构是一个Master与多个RegionServer,Master负责维护Region等一些工作,但是客户端访问Hbase并不需要通过Master。ZK通过监控选举Master来保证集群始终有一个可用的Master,即访问Master需要通过ZK,当ZK发现Master挂掉之后,会从其他机器中进行选举产出新的Master提供服务。 Zookeeper作用 通过选举,保证任何时候,集群
public class Test { private String readOnly; public String getReadOnly() { return readOnly; } public static void main(String[] args) throws SecurityException, NoSuchFieldException, IllegalArg
Commons DbUtils是Apache组织提供的一个对JDBC进行简单封装的开源工具类库,使用它能够简化JDBC应用程序的开发,同时也不会影响程序的性能。 DBUtils是java编程中的数据库操作实用工具,小巧简单实用, 1.对于数据表的读操作,他可以把结果转换成List,Array,Set等java集合,便于程序员操作; 2.对于数据表的写操作,也变得很简单(只需写sql语句)