在尝试将数据插入Oracle DB时，在运行以下程序时获得unicodeerror。

-- coding: utf-8 --

import unicodedata

from pyspark.sql import SparkSession
from pyspark.sql import SQLContext
from pyspark.sql.types import *
from pyspark.sql.functions import udf
import sys
print(sys.getdefaultencoding())

u = 'abcdé'
a = 'Austròalia'
print(u)
print(a)

spark = SparkSession.builder.master("local") \

    .appName("Unicode_Error") \
    .getOrCreate()

sqlContext = SQLContext(spark)

l = [(340, 'India',1),(340, 'Canada',2),(341, u'abcdé',3),(340, 'Japan',4),(341, u'Austròalia',5),(341, 'China',6)]
df = sqlContext.createDataFrame(l, ['CUSTOMER_ID', 'COUNTRY', 'LINENUMBER'])
df.show()

data_tuples = [tuple(x) for x in df.rdd.collect()]

print(str(data_tuples))

print(type(data_tuples))

query = "INSERT INTO CUSTOMERS VALUES (:1, :2, :3)"
cur = con.cursor()
cur.prepare(query)
cur.executemany(None, data_tuples)
con.commit()
cur.close()
con.close()
在设置PYTHONIOENCODING=utf8之前设置了Spark作业，解决了dataframe.show（）的问题。并且还# -- coding: utf-8 --帮助解决了python打印语句。

虽然现在我甚至在数据帧正确显示数据后出现错误。将数据框转换为列表是问题倾向于发生的地方，请您指出还需要做些什么。

ascii
abcdé

Austròalia
CUSTOMER_ID	COUNTRY	LINENUMBER
340	India	1
340	Canada	2
341	abcdé	3
340	Japan	4
341	Austròalia	5
341	China	6

[(340, u'India', 1), (340, u'Canada', 2), (341, u'abcdxe9', 3), (340, u'Japan', 4), (341, u'Austrxf2alia', 5), (341, u'China', 6)]

Traceback (most recent call last): cur.executemany(None, data_tuples)
UnicodeEncodeError: 'ascii' codec can't encode character u'xe9' in
position 4: ordinal not in range(128)

元组列表有unicode数据，并且encode不能使用unicode数据，但打印出元组列表中的每个元素给了我确切的输出，如下所示

[('340', "u'India'", '1'), ('340', "u'Canada'", '2'), ('341', "u'abcd\xe9'", '3'), ('340', "u'Japan'", '4'), ('341', "u'Austr\xf2alia'", '5'), ('341', "u'China'", '6')]

India
340
India
1
340
Canada
2
341
abcdé
3
340
Japan
4
341
Austròalia
5
341
China
6

Pyspark - UnicodeEncodeError：'ascii'编解码器无法编码字符

-- coding: utf-8 --

import unicodedata

-- coding: utf-8 --

相关文章

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Pyspark - UnicodeEncodeError：'ascii'编解码器无法编码字符

-- coding: utf-8 --

import unicodedata

-- coding: utf-8 --

相关文章