Hive过滤脏数据的一些经验
如下文件需要处理,每个文件大概13G,其中字段以空格(32)分隔的7个字段;最麻烦的是中间有脏数据:
-rw-r--r-- 1 hadoop ifengdev 1895843464 May 6 14:56 feedback201503_201.
0基础搭建Hadoop大数据处理-环境
由于Hadoop需要运行在Linux环境中,而且是分布式的,因此个人学习只能装虚拟机,本文都以VMware Workstation为准,安装CentOS7,具体的安装此处不作过多介绍,只作需要用到的知识介绍。
Hadoop1.X 与 Hadoop2.X比较
鉴于好久没有更新博客,且最近开始找工作,所以对以往的相关知识进行整理
一:Haddop版本介绍
0.20.x版本最后演化成了现在的1.0.x版本
0.23.x版本最后演化成了现在的2.