哈沙给_高分内容_个人页-阿里云开发者社区

发表了文章 2017-11-02

数据处理不等式：Data Processing Inequality

我是在差分隐私下看到的，新解决方案的可用性肯定小于原有解决方案的可用性，也就是说信息的后续处理只会降低所拥有的信息量。那么如果这么说的话为什么还要做特征工程呢，这是因为该不等式有一个巨大的前提就是数据处理方法无比的强大，比如很多的样本要分类，我们做特征提取后，SVM效果很好，但是如果用DNN之类的CNN、AuToEncoder，那么效果反而不如原来特征。

发表了文章 2017-04-12

JSP显示页面和数据库乱码

页面和数据库编码都是UTF-8，但就是奇怪。指定Tomcat的编码为UTF-8 就行了

发表了文章 2017-03-17

Sqoop导入到hdfs

1.注意win下直接复制进linux 改一下--等 sqoop-list-databases --connect jdbc:mysql://122.206.79.212:3306/ --username root -P 　　先看一下有什么数据库，发现有些数据库，能查询到的数据库才能导入，很奇怪。

发表了文章 2017-03-17

sqoop导出到hdfs

./sqoop export --connect jdbc:mysql://192.168.58.180/db --username root --password 123456 --export-dir '/path' --table t_detail -m 用单引号不保留原有的变量意思否则如果原来有个变量叫path 那么就会引用path所知带的意思。

发表了文章 2017-03-15

Sqoop: ERROR manager.SqlManager: Error reading from database: java.sql.SQLException:

sqoop import --connect jdbc:mysql://122.206.79.212:3306/dating --username root --password 123456 --table t_rec_top --driver com.

发表了文章 2017-03-15

Sqoop找不到主类 Error: Could not find or load main class org.apache.sqoop.Sqoop

最近由于要使用Sqoop来到出数据到hdfs，可是发现Sqoop1.4.5跟hadoop2.X不兼容，需要对Sqoop1.4.5进行编译，编译的具体方法见：http://my.codeweblog.com/AlbertHa/blog/318551 如果一切都顺利的话需要就不会遇到什么问题，但是有一...

发表了文章 2017-03-04

[YARN] 2.2 GB of 2.1 GB virtual memory used. Killing container.

Spark程序在yarn的集群运行，出现 Current usage: 105.9 MB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Killing Container. 错误。

发表了文章 2017-03-04

设置Tab键缩进2字符

默认是1.74cm，是1.5字符。论文是4个空格显示为4个点，或者全角下2个空格，显示为2个空格框。看上方的首航缩进标志是否在2. 看图在段落格式里面进行设置！点上图的制表位打开下图选默认制表位为两个字符……如果你的系统显示单位不是字符那么在选项中先...

发表了文章 2017-03-03

linux中apt-get和yum和wget的区别

1.RedHat系列：Redhat、Centos、Fedora等 yum2.Debian系列：Debian、Ubuntu等 apt-get wget类似迅雷

发表了文章 2017-03-02

linux命令行下修改系统时间、时区

date查看时间以及时区图a是est时区，和HONGkong时间查了一个小时。 # 保存设置$ sudo mv /etc/localtime /etc/localtime.

发表了文章 2017-02-27

linux设置命令行启动

做spark，内存大的话运行很快，否则运行很慢，主节点用界面，其他用命令行，然后scp，或者ssh 去其他主机最访问 1, 关闭图形界面： [root@bogon ~]# init 3 // 关闭图形界面（XServer服务也会关闭） 2.

发表了文章 2017-02-27

linux下授予某用户对某文件夹的读写权限

发表了文章 2017-02-27

如何运行Hadoop自带的例子

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar wordcount /WordCount/WordCount /WCOutput 　　输出文件不能实现存在，比如说/WordCount这样...

发表了文章 2017-02-26

Visio中如何绘制黑白图像

发表了文章 2017-02-25

Word中如何从某一页重新开始页码

发表了文章 2017-02-25

如何用visio（word）绘制图片表格

1.用visio是插入excel表格，但是不能差如公示了，修改的话也是进入了excel修改。 2.在word里修改即可，word表格可以插入公式，然后阿银玉兰或者转给pdf截图就好

发表了文章 2017-02-25

如何调整word中表格某一列占半分比

1.可以拖动，但是不准确 2.

发表了文章 2017-01-10

win开启远程链接（可以被连接）

电脑-属性，这样打开了控制面板，坐车选择远程设置，选择允许任何人链接，然后关闭防火墙即可。

发表了文章 2017-01-06

Office2016打开doc字符间距过小

缺少字体。。。。。。。。。装上就行，放到windows/fonts目录下，自动安装了

发表了文章 2016-12-26

word中公式居中标号没有右对齐

打开视图-标尺，调整右侧标尺就行了。

发表了文章 2016-12-23

MathType6.9按章节插入编号

先插入Chapter，然后修改break主要是该起始编号。这样话会用一行红色红代码，选中，邮件字体，然后在格式里选择隐藏就好了，这个不能删除。

发表了文章 2016-12-23

word中表格加粗某一行

选中表格后选择线条粗细。然后重新绘制一遍就行了。

发表了文章 2016-12-22

Eclipse安装scala

Scala官方提供了三种插件，分别支持Eclipse、NetBeans和Intellij IDEA开发环境。要在Eclipse IDE下安装Scala插件：选择Eclipse的菜单项Help-->Install New Software...，点击”Add按钮“，在Name和Location分别填入下面的值：Name：ScalaIDELocation：http://download.scala-ide.org/releases-29/stable/site然后一步步按步骤安装，直至安装完成。

发表了文章 2016-12-22

SSH免密码登陆原理

　　Master作为客户端，要实现无密码公钥认证，连接到服务器Salve上时，需要在Master上生成一个密钥对，包括一个公钥和一个私钥，而后将公钥复制到所有的Salve上。当Master通过SSH链接到Salve上时，Salve会生成一个随机数并用Master的公钥对随机数进行加密，并发送给Master。

发表了文章 2016-12-22

Hadoop中pid文件存储

　　我的hadoop集群部署在自己电脑虚拟机上，有时候我是挂起虚拟机，第二天再打开发现有些线程就挂了，比如namenode，好奇怪，当时看了一些帖子说是和pid存储有关，找到log看到找不到pid。因为基于java开发的程序，想要停止程序，必须通过进程pid来确定，而hadoop和hbase默认的情况下，会把pid文件存储在Linux上的/tmp目录的某个目录，进程名命令规则一般是框架名-用户名-角色名.pid，而默认情况下，linux的tmp里面的东西，一天会删除一次。

发表了文章 2016-12-15

ResourceManager里面Trackingui需要手动该ip

C:\Windows\System32\drivers\etc 　　这个路径下配置了ip和主机名，不过是大小写，ping不同，不论ping大小写还是全部小写都不行，我看地址栏是小写所以想着把hosts里CentOSMaster改成centosmaster，然后还是不行，备份原来的文件，然后删除其他主食就ok了，中间用空格，同一半角。

发表了文章 2016-12-15

Hbase集群master.HMasterCommandLine: Master exiting

2016-12-15 17:01:57,473 INFO [main] impl.MetricsSystemImpl: HBase metrics system started 2016-12-15 17:01:59,649 ERROR [main] master.

发表了文章 2016-12-15

zookeeper启动后没有相关进程

查看状态报错，报错，百度硕士nc问题，让看.out文件，但是这哥文件是空的，那就看log 016-12-15 14:08:19,355 [myid:] - INFO [main:QuorumPeer$QuorumServer@149] - Resolved hostname: StandByNameNode to address: StandByNameNode/192.

发表了文章 2016-12-14

MapReduce实现倒排索引（类似协同过滤）

一、问题背景　　倒排索引其实就是出现次数越多，那么权重越大，不过我国有凤巢....zf为啥不管，总局回应推广是不是广告有争议... 　　eclipse里ctrl+t找接口或者抽象类的实现类，看看都有啥方法，有时候hadoop的抽象类返回的接口没有需要的方法，那么我们返回他的实现类。

发表了文章 2016-12-14

MapReduce实现手机上网日志分析（排序）

一、背景 1.1 流程　　实现排序，分组拍上一篇通过Partitioner实现了。　　实现接口，自动产生接口方法，写属性，产生getter和setter，序列化和反序列化属性，写比较方法，重写toString，为了方便复制写够着方法，不过重写够着方法map里需要不停地new，发现LongWritable有set方法，text也有，可以用，产生默认够着方法。

发表了文章 2016-12-12

MapReduce实现手机上网日志分析（分区）

一、问题背景　　实际业务的需要，比如以移动为例，河南的用户去了北京上网，那么他的上网信息默认保存在了北京的基站，那么我们想要查询北京地区的上网日志信息默认也包含了其他地区用户的在本区的上网信息，否则只能扫描日志找到北京，很慢，所以分区很需要。

发表了文章 2016-12-08

MapReduce实现手机上网流量分析（业务逻辑）

一、问题背景　　现在的移动刚一通话就可以在网站上看自己的通话记录，以前是本月只能看上一个月。不过流量仍然是只能看上一月的。　　目的就是找到用户在一段时间内的上网流量。　　本文并没有对时间分组。

发表了文章 2016-12-08

Cannot initialize Cluster. Please check your configuration for mapreduce.framework.name and the co

log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).

发表了文章 2016-12-08

Input path does not exist: file:/.......

注意看是file不存在并不是hdfs，好奇怪，突然明白应该是路径不对，必须加上hdfs://hostname:port/file。我为什么饭这样的错误是因为前一阵谢了HDFS的曹组，谢了全局FileSystem，那么下面就不比要hdfs://hostname:port/了。

发表了文章 2016-12-08

基于Maven引入Hadoop包报Missing artifact jdk.tools:jdk.tools:jar:1.6

一、问题来源 org.apache.hadoop hadoop-mapreduce-client-core 2.4.0 二、解决方案　　尝试update Project，不行；去找本地仓库的相关路径“”jdk/toos...“”eclipse显示这个路径，但是仓库根本没用，我就启动蓝灯，强制更新，仍然不行，然后百度报错信息。

发表了文章 2016-12-07

论文格式注意事项

1.数据集的写法，大小写，前后要统一，比如Movielens100k，应该是MovieLens100k，L是大写。 2.“”其中u是“”，改为“”其中，u是“”，同时首行缩进。 3.注意变量和语句之间是否有逗号等。

发表了文章 2016-12-06

Eclipse中Jquery报错

在网上看到很多 jQuery-xxx.js 在eclipse中报错的解决方案大多是说项目右键 Properties->Validation->JSP Content Validator 这项的右边点击 ... 按钮，然后点 Add Exclude Group->在 Exclude Group 点 Add Rule->Folder or file name 然后选到 jquery-xxxx.js 文件。

发表了文章 2016-12-06

Java反射机制的作用

　　假如我们有两个程序员，一个程序员在写程序的时候，需要使用第二个程序员所写的类，但第二个程序员并没完成他所写的类。那么第一个程序员的代码能否通过编译呢？这是不能通过编译的。利用Java反射的机制，就可以让第一个程序员在没有得到第二个程序员所写的类的时候，来完成自身代码的编译。

发表了文章 2016-12-06

Hadoop的RPC分析

一、基础知识　　原理 http://www.cnblogs.com/edisonchou/p/4285817.html，这个谢了一些rpc与hadoop的例子。　　用到了java的动态代理，服务端实现一个接口，客户端得到这个接口的实现类，客户端通过自定义的versionID来标志一对服务端和客户端。

发表了文章 2016-12-06

Hdfs常用操作

一、linux rm是删除，不是del 二、常用操作 package hdfs; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.

发表了文章 2016-12-05

hdfs创建级联文件夹

一个文件夹 hdfs dfs -mkdir /out 　　/一定要有级联 hdfs dfs -mkdir -p /out/ags 　　需要家-p

发表了文章 2016-12-03

MapReduce多重MR如何实现

一、每次输出文件存在很烦人 // 判断output文件夹是否存在，如果存在则删除 Path path = new Path(otherArgs[1]);// 取第1个表示输出目录参数（第0个参数是输入目录） FileSystem fileSystem = path.

发表了文章 2016-12-03

MapReduce实现二度好友关系

一、问题定义我在网上找了些，关于二度人脉算法的实现，大部分无非是通过广度搜索算法来查找，犹豫深度已经明确了2以内；这个算法其实很简单，第一步找到你关注的人；第二步找到这些人关注的人，最后找出第二步结果中出现频率最高的一个或多个人（频率这块没完成），即完成。

发表了文章 2016-12-02

MapReduce设置输出分隔符

conf.set("mapred.textoutputformat.ignoreseparator","true"); conf.set("mapred.textoutputformat.separator",","); 　　默认是tab

发表了文章 2016-12-02

MapReduce实现数据去重

一、原理分析　　Mapreduce的处理过程，由于Mapreduce会在Map~reduce中，将重复的Key合并在一起，所以Mapreduce很容易就去除重复的行。Map无须做任何处理，设置Map中写入context的东西为不作任何处理的行，也就是Map中最初处理的value即可，而Reduce同样无须做任何处理，写入输出文件的东西就是，最初得到的Key。

发表了文章 2016-12-02

MapReduce实现协同过滤中每个用户看过的项目集合

一、知识准备　　hadoop自带的例子在　　D:\HADOOP_HOME\hadoop-2.6.4\share\hadoop\mapreduce\sources\hadoop-mapreduce-examples 2.6.0-source.jar 　　我记得当年面试的时候就问中位数的问题不过是数据流下的中位数，一问便知是否搞过hadoop。

发表了文章 2016-12-02

启动Hadoop HA Hbase zookeeper spark

服务器角色服务器 192.168.58.180 192.168.58.181 192.168.58.182 192.168.58.183 Name CentOSMaster Slvae1 Slave2 StandByNameNode NameNode Yes ...

发表了文章 2016-11-30

HA模式下历史服务器配置

笔者的集群是 HA 模式的( HDFS 和 ResourceManager HA)。在 ” Hadoop-2.5.0-cdh5.3.2 HA 安装＂中详细讲解了关于 HA 模式的搭建，这里就不再赘述。

发表了文章 2016-11-30

HA模式强制手动切换：IPC's epoch [X] is less than the last promised epoch [X+1]

016-11-30 21:13:14,637 WARN org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager: Remote journal 192.

发表了文章 2016-11-30

设置CentOS6.5时钟同步

一、测试ntp服务 # rpm -q ntp ntp-4.2.4p8-2.el6.x86_64 // 这表示已安装了，如果没有安装，这是空白。二、/etc/ntp.conf 　　红色部分是修改的。

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

哈沙给_个人页

个人介绍

擅长的技术

数据处理不等式：Data Processing Inequality

JSP显示页面和数据库乱码

Sqoop导入到hdfs

sqoop导出到hdfs

Sqoop: ERROR manager.SqlManager: Error reading from database: java.sql.SQLException:

Sqoop找不到主类 Error: Could not find or load main class org.apache.sqoop.Sqoop

[YARN] 2.2 GB of 2.1 GB virtual memory used. Killing container.

设置Tab键缩进2字符

linux中apt-get和yum和wget的区别

linux命令行下修改系统时间、时区

linux设置命令行启动

linux下授予某用户对某文件夹的读写权限

如何运行Hadoop自带的例子

Visio中如何绘制黑白图像

Word中如何从某一页重新开始页码

如何用visio（word）绘制图片表格

如何调整word中表格某一列占半分比

win开启远程链接（可以被连接）

Office2016打开doc字符间距过小

word中公式居中标号没有右对齐

MathType6.9按章节插入编号

word中表格加粗某一行

Eclipse安装scala

SSH免密码登陆原理

Hadoop中pid文件存储

ResourceManager里面Trackingui需要手动该ip

Hbase集群master.HMasterCommandLine: Master exiting

zookeeper启动后没有相关进程

MapReduce实现倒排索引（类似协同过滤）

MapReduce实现手机上网日志分析（排序）

MapReduce实现手机上网日志分析（分区）

MapReduce实现手机上网流量分析（业务逻辑）

Cannot initialize Cluster. Please check your configuration for mapreduce.framework.name and the co

Input path does not exist: file:/.......

基于Maven引入Hadoop包报Missing artifact jdk.tools:jdk.tools:jar:1.6

论文格式注意事项

Eclipse中Jquery报错

Java反射机制的作用

Hadoop的RPC分析

Hdfs常用操作

hdfs创建级联文件夹

MapReduce多重MR如何实现

MapReduce实现二度好友关系

MapReduce设置输出分隔符

MapReduce实现数据去重

MapReduce实现协同过滤中每个用户看过的项目集合

启动Hadoop HA Hbase zookeeper spark

HA模式下历史服务器配置

HA模式强制手动切换：IPC&#39;s epoch [X] is less than the last promised epoch [X+1]

设置CentOS6.5时钟同步

数据处理不等式：Data Processing Inequality

JSP显示页面和数据库乱码

Sqoop导入到hdfs

sqoop导出到hdfs

Sqoop: ERROR manager.SqlManager: Error reading from database: java.sql.SQLException:

Sqoop找不到主类 Error: Could not find or load main class org.apache.sqoop.Sqoop

[YARN] 2.2 GB of 2.1 GB virtual memory used. Killing container.

设置Tab键缩进2字符

linux中apt-get和yum和wget的区别

linux命令行下修改系统时间、时区

linux设置命令行启动

HA模式强制手动切换：IPC's epoch [X] is less than the last promised epoch [X+1]