指定列的Spark sql问题-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

指定列的Spark sql问题

社区小助手 2018-12-21 10:54:29 2793

我们正在尝试将oracle db复制到hive中。我们从oracle获取查询并在hive中运行它们。所以,我们以这种格式得到它们:

INSERT INTO schema.table(col1,col2) VALUES ('val','val');
虽然此查询直接在Hive中工作,但当我使用spark.sql时,我收到以下错误:

org.apache.spark.sql.catalyst.parser.ParseException:
mismatched input 'emp_id' expecting {'(', 'SELECT', 'FROM', 'VALUES', 'TABLE', 'INSERT', 'MAP', 'REDUCE'}(line 1, pos 20)
== SQL ==
insert into ss.tab(emp_id,firstname,lastname) values ('1','demo','demo')
--------------------^^^

    at org.apache.spark.sql.catalyst.parser.ParseException.withCommand(ParseDriver.scala:217)
    at org.apache.spark.sql.catalyst.parser.AbstractSqlParser.parse(ParseDriver.scala:114)
    at org.apache.spark.sql.execution.SparkSqlParser.parse(SparkSqlParser.scala:48)
    at org.apache.spark.sql.catalyst.parser.AbstractSqlParser.parsePlan(ParseDriver.scala:68)
    at org.apache.spark.sql.SparkSession.sql(SparkSession.scala:623)
    at org.apache.spark.sql.SQLContext.sql(SQLContext.scala:691)
    at com.datastream.SparkReplicator.insertIntoHive(SparkReplicator.java:20)
    at com.datastream.App.main(App.java:67)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:755)
    at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:180)
    at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:205)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:119)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
SQL 分布式计算 Oracle 关系型数据库 Apache HIVE Spark
分享到
取消 提交回答
全部回答(1)
  • 社区小助手
    2019-07-17 23:23:17

    由于Spark SQL不支持insert语句中的列列表,因此出现此错误。所以从insert语句中排除列列表。

    下面是我的hive表:

    0: jdbc:hive2://hpchdd2-zk-1.hpc.ford.com:218> select * from UDB.emp_details_table;
    emp_id emp_name emp_dept emp_joining_date
    1 AAA HR 2018-12-06
    1 BBB HR 2017-10-26
    2 XXX ADMIN 2018-10-22
    2 YYY ADMIN 2015-10-19
    2 ZZZ IT 2018-05-14
    3 GGG HR 2018-06-30

    在这里我通过pyspark使用spark sql插入记录
    df = spark.sql("""insert into UDB.emp_details_table values ('6','VVV','IT','2018-12-18')""");
    您可以在下面看到给定记录已插入到我现有的配置单元表中。

    emp_id emp_name emp_dept emp_joining_date
    1 AAA HR 2018-12-06
    1 BBB HR 2017-10-26
    2 XXX ADMIN 2018-10-22
    2 YYY ADMIN 2015-10-19
    2 ZZZ IT 2018-05-14
    3 GGG HR 2018-06-30
    6 VVV IT 2018-12-18

    将您的spark sql查询更改为:spark.sql(“”“插入ss.tab值('1','demo','demo')”“”);

    注意:我使用spark 2.3,如果你使用的是spark 1.6版本,你需要使用hive上下文。

    0 0
数据库
使用钉钉扫一扫加入圈子
+ 订阅

分享数据库前沿,解构实战干货,推动数据库技术变革

推荐文章
相似问题