备案控制台

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

【百问百答】Apache Spark 中文实战攻略（上册）

1、Apache Spark 3.0 是什么？

2、Apache Spark 3.0 与性能相关的新功能主要有哪些？

3、 Spark 3.0 的Adaptive Query Execution是什么？

4、在Spark2.0中基于代价的优化器有什么问题？

5、Spark3.0中AQE包括哪些功能？

6、Spark调优数据分布不均是什么意思？

7、Spark3 Dynamic Partition Pruning是什么？

8、Spark3 Join Hints是什么？

9、Spark3 Richer APIs是什么？

10、Spark3 Monitoring and Debuggability是什么？

11、Spark3 SQL Compatibility是什么？

12、Spark3 Built-in Data Sources是什么？

13、Spark3 Extensibility and Ecosystem是什么？

14、Spark的起源是怎样的？

15、Spark现在是怎样的？

16、Spark的最新进展是怎样的？

17、Spark3.0在Python方面是怎样的？

18、Spark社区有什么特性？

19、Spark的未来是怎样的？

20、在Apache Spark 的 AQE是什么意思？

21、在Apache Spark 的 ZEN 是什么意思？

22、在Apache Spark 的 ANSI SQL是什么意思？

23、Delta Lake的工作原理是怎样的？

24、Delta Lake可以线上使用吗？

25、Delta Lake是否可以纯SQL实现？

26、Data Lake Delta、Hudi、 Iceberg不同点有什么？

27、Data Lake Delta 不同点有什么？

28、Data Lake Iceberg不同点有什么？

29、核桃编程是什么？

30、核桃编程的业务需求是什么？

31、Delta Lake是什么？

32、SparkStreaming SQL是什么？

33、用Delta Lake 小文件多问题如何解决？

34、用Delta Lake Compact冲突问题如何解决？

35、用Delta Lake 为什么不直接从ODS计算？

36、用Delta Lake 怎么恢复数据？

37、什么是 Schema 约束？

38、Schema 约束如何工作？

39、Schema 约束有何作用？

40、到底需不需要大费周章做 Schema 约束？

41、什么是 Schema 演变？

42、Schema 演变如何工作？

43、Schema 演变有何作用？

44、Delta 事务日志是什么？

45、Delta 事务日志有何作用？

46、Delta Lake 原子性如何实现？

47、Delta Lake 事务日志如何工作？

48、Delta Lake事务日志在文件层面的实现？

49、Delta Lake事务日志如何处理并发读写？

50、Delta Lake事务日志中什么是乐观锁？

51、Delta Lake事务日志如何乐观处理冲突？

52、Delta Lake事务日志如何时间回溯？

53、Delta Lake事务日志如何数据血缘和调试？

54、Delta Lake 表如何删除操作？

55、streaming性能受什么影响？

56、如何使用Spark Streaming SQL进行 PV/UV统计？

57、使用Spark Streaming SQL进行 PV/UV统计的准备工作？

58、自适应查询执行AQE是什么意思？

59、Spark 3.0中主要的AQE特性有哪些？

60、Spark 3.0中的AQE中动态合并shuffle分区什么意思？

61、Spark 3.0中的AQE中动态优化join中的数据倾斜什么意思？

62、Shuffle是如何对大量小文件进行优化的？

63、AQE是否支持外部的Shuffle Service？

64、如果join的两边的part都比较大，是不是都会拆分？

65、Hive是什么？

66、Spark SQL是什么？

67、Spark SQL的DataSource表是什么？

68、Spark SQL中的Hive表是什么？

展开

收起

爱吃鱼的程序员 2020-12-28 12:07:15 853 0

0 条回答

写回答

取消提交回答

问答分类：

分布式计算 Apache Spark 开源大数据平台 E-MapReduce 日志服务

问答标签：

Apache spark apache spark Apache apache spark实战 Apache实战 Apache中文

问答地址：

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

MaxCompute中使用Spark如何处理org.apache.spark.sql.Anal...

25

1

0

dbeaver 通过Apache Spark引擎链接不上云数据仓库ADB，怎么解决？

48

1

0

Apache Flink 和 Apache Spark Streaming在完整性推理方面有何不同？

29

1

0

Apache Spark Streaming 如何处理端到端一致性和时间事件的支持？

39

1

0

容器服务ASK有 apache/spark:v3.1.2的可用镜像源吗？官方只给到3.1.3

59

2

0

MaxCompute spark作业报错Class org.apache.hadoop.fs....

56

1

0

spark 是支持的hudi 表字段增加，https://hudi.apache.org/blog/

119

1

0

Apache Spark有哪些好处呢？

1759

1

0

Apache Spark有什么用处呢？

1700

1

0

Storm&Spark中Apache Storm的关于declarer的代码是什么呀？

681

1

0

大数据与机器学习

开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

我要提问

热门讨论

热门文章

阿里云E-MapReduce notebook 大概什么时候会正式上线？

E-MapReduce和MaxCompute的区别是什么？

E-MapReduce由于某些未知错误、异常或失败，请求处理失败？

E-MapReduce(Elastic MapReduce，EMR) 是什么？

阿里云E-MapReduce这种命令方式，如何配置kerberos相关的参数？

Cosco的优势是什么？

数据湖统一元数据服务需要具备哪些能力和价值？

各位大佬，请教下flink sink到oss按官网上的报找不到endpoint，我要想在idea中运

Spark3 Join Hints是什么？

Ray是什么？

展开全部

阿里封神谈hadoop生态学习之路

现代流式计算的基石：Google DataFlow

如何使用Kafka Connect实现同步RDS binlog数据

JindoFS: 云上大数据的高性能数据湖存储方案

5W1H(六何分析法)全景洞察大数据

助力云上开源生态 - 阿里云开源大数据平台的发展

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

从数砖开源 Delta Lake 说起

Apache Spark 3.0 将内置支持 GPU 调度

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

展开全部

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

402

33

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

123

25

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

123

19

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

149

32

去学习

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

343

9

去学习

大数据实时计算框架Spark快速入门

998

93

去学习

相关电子书

更多

Hybrid Cloud and Apache Spark 立即下载

Scalable Deep Learning on Spark 立即下载

Comparison of Spark SQL with Hive 立即下载

相关实验场景

更多