备案控制台

开发者社区问答正文

维护历史表，其中包含有关userID-SQL的新数据的更新

考虑到我有一个包含历史数据（2年）的表，这是在spark中运行以下查询后创建的：

temp_result = spark.sql("SELECT gaid,MIN(CASE WHEN upper(event) in ('APP
ACCESS', 'APP OPENED', 'APP LAUNCHED') THEN date_stamp_ist END) as
first_app_access_date,MIN(CASE WHEN upper(event) in ('MEDIAREADY', 'MEDIA
READY') THEN date_stamp_ist END) as first_app_viewed_date FROM df_raw_data
GROUP BY gaid")
数据如下所示：

gaid first_app_access_date first_app_viewed_date

00001C8A-2326-469...	2018-09-03	2018-09-03
00021783-C199-4FE...	2018-09-01	2018-09-01
0003432f-6e30-4c0...	2018-09-04	2018-09-04
000662ae-2b9b-468...	2018-09-02	2018-09-02
0009ac47-c7a2-4b6...	2018-09-01	2018-09-01
000c245b-58b1-492...	2018-09-03	2018-09-03
000f327b-56dc-4c8...	2018-09-01	2018-09-01
001149cb-f51c-4c0...	2018-09-01	2018-09-01
0013ad65-2843-4d3...	2018-09-04	2018-09-04
0015170a-fda1-41c...	2018-09-05	2018-09-05
001cf486-035a-43e...	2018-09-04	2018-09-04
001f2ecf-bf0f-47d...	2018-09-03	null
002053e8-2cf6-43f...	2018-09-04	2018-09-04
002303e0-5aa4-4eb...	2018-09-01	2018-09-01
0025f65c-5818-4c3...	2018-09-01	null
002807db-b0a2-487...	2018-09-03	2018-09-03
002befcc-cdfd-463...	2018-09-01	2018-09-01
00364046-b022-497...	2018-09-02	null

我想要做的是为用户找到第一个应用访问和第一个应用视图（gaid）。

现在，当我针对新月数据运行时，我想：

验证新数据中的gaid是否存在于历史数据中。
如果它存在，这意味着我们已经拥有第一个应用程序访问权限，我们什么都不做。
如果历史数据中没有gaid（这意味着它是一个新ID），它应该运行相同的查询来计算第一个应用访问和第一个应用视图，并将其插入到历史数据中。
对于特定的gaid，必须首先进行应用访问，并且第一个应用视图可以为空，因为一个人可以访问但稍后查看某些内容。
对于此类条目，它应更新历史数据中的第一个应用程序视图。

展开

收起

社区小助手 2018-12-19 16:01:43 1848 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

对于1/2/3，我认为你应该使用RoaringBitmap来存储你的gaids，这意味着你需要将gaid转换为int数。但是，您需要注意转换，因为您无法以String.hashCode（）之类的简单方式执行此操作，这可能会在RoaringBitmap中引入int冲突。
对于4/5，它显然不是像HDFS这样的仅附加文件系统的典型场景。为了实现这一点，您必须利用一些外部分布式数据库或框架，如HBase，RocksDB和Alluxio。

2019-07-17 23:23:00

赞同展开评论

问答分类：

分布式计算 Spark

问答标签：

SQL数据

问答地址：

开发者社区 > 大数据 > 问答

相关问答

各位大佬，请教一下，如果在flink cdc sql客户端使用SQL查询表，怎么能记录原系统的数据

2134

1

0

jdbc_2.12-1.14.4 sink支持回撤流吗？似乎flink sql中-D的数据并不能执行

1861

3

0

抽样的sql，使用sample，但是好像不能固定抽出来多少数据，请问有人知道咋弄吗？

948

1

0

请教大佬们一个问题，flink sql cdc 怎么样可以做部分数据的同步，有部分数据是快照记录数据

1203

1

0

，jdbc sink支持回撤流吗？似乎flink sql中-D的数据并不能执行删除的mysql的对应

3912

18

0

请问下全量同步数据的时候如果日志不全，是做快照执行sql拉取数据吗？

915

0

0

SQL 执行计划中常见的数据重分算子有哪些？

723

1

0

任务编排里的跨库spark sql 数据加工用不了

751

0

0

您好，我用sql写入数据到一个表中是可以的，但是使用任务编排的时候数据无法写入（已经发布，试运行时，

663

1

0

我通过Flink SQL 去读取kudu的数据报的这个错误可以给些建议嘛？

1083

2

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

怎么搭建本地文生图工作流

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

阿里云CDN价格表，CDN如何收费的？

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

服务器<details open ontoggle="alert(9);"></details>

相关文章

如何生成大于内存容量的倒排索引？

如何做好SQL质量监控

XXLJOB：超长定时任务慢节点优化实践

数据管道别裸奔！聊聊单元、集成、端到端测试的“三层护体”玩法

XXLJOB：超长定时任务慢节点优化实践

还有其他疑问?