如何通过Spark SQL连接BigQuery？_问答-阿里云开发者社区

data = pd.read_gbq(SampleQuery, project_id='XXXXXXXX', private_key='filename.json')
这里的filename.json具有以下格式：

{
"type": "service_account",
"project_id": "projectId",
"private_key_id": "privateKeyId",
"private_key": "privateKey",
"client_email": "clientEmail",
"client_id": "clientId",
"auth_uri": "https://accounts.google.com/o/oauth2/auth",
"token_uri": "https://oauth2.googleapis.com/token",
"auth_provider_x509_cert_url": "https://www.googleapis.com/oauth2/v1/certs",
"client_x509_cert_url": "https://www.googleapis.com/robot/v1/metadata/x509/clientEmail"
}
现在，我需要将此代码移植到pyspark。但是我很难找到如何使用Spark SQL进行查询。我正在使用AWS EMR集群来运行此查询！

由于需要使用SQLContext对象来使用Spark SQL，因此需要首先配置SparkContext以连接到BigQuery。从我的角度来看，BigQuery Connector（由sramalingam24和Kenneth Jung解决）可用于在BigQuery中查询数据。

请注意，sramalingam24提供了一个示例链接，以下是代码摘要：

bucket = sc._jsc.hadoopConfiguration().get('fs.gs.system.bucket')
project = sc._jsc.hadoopConfiguration().get('fs.gs.project.id')
input_directory = 'gs://{}/hadoop/tmp/bigquery/pyspark_input'.format(bucket)

conf = {

# Input Parameters.
'mapred.bq.project.id': project,
'mapred.bq.gcs.bucket': bucket,
'mapred.bq.temp.gcs.path': input_directory,
'mapred.bq.input.project.id': 'publicdata',
'mapred.bq.input.dataset.id': 'samples',
'mapred.bq.input.table.id': 'shakespeare',

}

table_data = sc.newAPIHadoopRDD(

'com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat',
'org.apache.hadoop.io.LongWritable',
'com.google.gson.JsonObject',
conf=conf)

word_counts = (

table_data
.map(lambda record: json.loads(record[1]))
.map(lambda x: (x['word'].lower(), int(x['word_count'])))
.reduceByKey(lambda x, y: x + y))

sql_context = SQLContext(sc)
(word_counts
.toDF(['word', 'word_count'])
.write.format('json').save(output_directory))
然后，您可以下载其他Hadoop集群的连接器jar。Kenneth Jung提供的链接信息表明选项--jar可用于包含连接符（--jars gs：//spark-lib/bigquery/spark-bigquery-latest.jar），这是一个包含的选项驱动程序和执行程序类路径上的jar。

如何通过Spark SQL连接BigQuery？

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

如何通过Spark SQL连接BigQuery？

相关课程

相关文章

相关电子书

相关实验场景