基于EMR离线数据分析
在2月28日 动手实战-基于EMR离线数据分析这一课程体验中,我遇到了如下问题:
1.使用hive创建表后对表进行操作时,查看5行表的数据显示NULL
执行以下代码查看5行表数据
select * from emrusers limit 5;
这和下列教程中给出的数据不相符。
2.查询数据表中评级最高的三个电影时显示NULL
执行以下代码查询数据表中评级最高的三个电影:
select movieid,sum(rating) as rat from emrusers group by movieid order by rat desc limit 3;
这和下列教程中给出的数据不相符。
针对以上两个问题,我首先想到的是,是否是从hadoop文件系统加载数据到hive数据表这一过程失败了呢?但是查看历史,都显示OK。
而且在查询数据表中共有多少条数据时,查询到106条数据,这表明的确加载数据了。
所以我最后也没有搞清楚NULL的原因