CREATE DATABASE IF NOT EXISTS test; use test;
创建数据库
create external table MBGAnalyse (dm_time STRING,send_date STRING,send_month STRING,send_time STRING,text STRING,user_id STRING) row format delimited fields terminated by ','; load data inpath '/user/hive/warehouse/ababaaba/biliMBG.csv' into table MBGAnalyse;
创建表导入关于马老师的B站弹幕数据
SELECT word ,count(1) as count FROM (SELECT explode(split(regexp_replace(ma.text,'[^A-Za-z0-9\\u4e00-\\u9fa5]',''),' '))as word FROM mbganalyse ma) W GROUP BY word ORDER BY word desc ;
正则匹配马老师的中文弹幕,
最后对筛选的数据做词频统计
词频第一竟然不是脱口而出的"不讲武德"
而是"鳎目说"
第二,第三的分别是鳎蟆说,鸪鹧
关于鸪鹧是什么,笔者特意搜狗了一下
原来如此,学费了学费了