使用Flink sql insert 数据 to hive 之乱码问题怎么解决？

各位大佬，大家好！帮看一下这个问题：我使用flink sql 基于Hive 进行批计算（目的是替换spark sql 的批计算），具体是从hive 中读数据，然后insert 回hive 的表，然后select 看数据时，出现乱码。软件版本：hadoop2.9.1和hadoop2.8.5、hive-2.3.3和hive-2.3.4、flink1.10.0、zeppelin0.9.0、Flink SQL gateway 0.1

切换了多个hadoop、hive版本（各版本软件均来自官方下载），以及测试了Flink Sql Cli、Zeppelin、Flink SQL gateway等Flink sql运行环境，均没解决问题。Flink 是Run on Yarn的，下面是测试使用的sql 脚本：

//hive 中 CREATE TABLE IF NOT EXISTS temp_h1( id VARCHAR(50), lac VARCHAR(50), ci VARCHAR(50), flux_m VARCHAR(50), nums VARCHAR(50), sno VARCHAR(50), cdate VARCHAR(50) ) row format delimited FIELDS TERMINATED BY ',' stored as textfile LOCATION '/tmp/hive/temp_h1';

CREATE TABLE IF NOT EXISTS temp_h2( id VARCHAR(50), lac VARCHAR(50), ci VARCHAR(50), flux_m VARCHAR(50), nums VARCHAR(50), sno VARCHAR(50), cdate VARCHAR(50) ) row format delimited FIELDS TERMINATED BY ',' stored as textfile LOCATION '/tmp/hive/temp_h2';

//测试数据(t.txt) 101,中国,100.02,123.001,1000020000,30,20200316 102,美国,100.02,123.001,1000020000,30,20200316 103,武汉,100.02,123.001,1000020000,30,20200316 104,北京,100.02,123.001,1000020000,30,20200316 105,俄罗斯,100.02,123.001,1000020000,30,20200316 106,海南,100.02,123.001,1000020000,30,20200316 107,香格里拉酒店,100.02,123.001,1000020000,30,20200316

//加载数据 load data local inpath '/home/hadoop/temp/t.txt' into table temp_h1;

//在FLink sql 中 insert into temp_h2 select * from temp_h1; select * from temp_h2; //出现乱码，而且数据不全

temp_h2 在hdfs 上的乱码文件见附件：cp-0-task-0-file-0 Flink sql 运行期间没有报错，yarn上运行的日志见附件：Executor.log

注，flink监控中显示信息：CsvTableSource(read fields: a, b) -> SourceConversion(table=[hive.test.temp_1, source: [CsvTableSource(read fields: a, b)]], fields=[a, b]) -> SinkConversionToRow -> Sink: Unnamed 。我有不清楚为啥使用的是SinkConversionToRow。

大家可以用我上面的代码也测试一下，帮验证一下，在你们的环境中，是否出现乱码问题，谢谢了！*来自志愿者整理的flink邮件归档

使用Flink sql insert 数据 to hive 之乱码问题怎么解决？

相关文章

相关解决方案

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

使用Flink sql insert 数据 to hive 之乱码问题怎么解决？

相关文章

相关解决方案