开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

【百问百答】Apache Spark 中文实战攻略(上册)

1、Apache Spark 3.0 是什么?

2、Apache Spark 3.0 与性能相关的新功能主要有哪些?

3、 Spark 3.0 的Adaptive Query Execution是什么?

4、在Spark2.0中基于代价的优化器有什么问题?

5、Spark3.0中AQE包括哪些功能?

6、Spark调优数据分布不均是什么意思?

7、Spark3 Dynamic Partition Pruning是什么?

8、Spark3 Join Hints是什么?

9、Spark3 Richer APIs是什么?

10、Spark3 Monitoring and Debuggability是什么?

11、Spark3 SQL Compatibility是什么?

12、Spark3 Built-in Data Sources是什么?

13、Spark3 Extensibility and Ecosystem是什么?

14、Spark的起源是怎样的?

15、Spark现在是怎样的?

16、Spark的最新进展是怎样的?

17、Spark3.0在Python方面是怎样的?

18、Spark社区有什么特性?

19、Spark的未来是怎样的?

20、在Apache Spark 的 AQE是什么意思?

21、在Apache Spark 的 ZEN 是什么意思?

22、在Apache Spark 的 ANSI SQL是什么意思?

23、Delta Lake的工作原理是怎样的?

24、Delta Lake可以线上使用吗?

25、Delta Lake是否可以纯SQL实现?

26、Data Lake Delta、Hudi、 Iceberg不同点有什么?

27、Data Lake Delta 不同点有什么?

28、Data Lake Iceberg不同点有什么?

29、核桃编程是什么?

30、核桃编程的业务需求是什么?

31、Delta Lake是什么?

32、SparkStreaming SQL是什么?

33、用Delta Lake 小文件多问题如何解决?

34、用Delta Lake Compact冲突问题如何解决?

35、用Delta Lake 为什么不直接从ODS计算?

36、用Delta Lake 怎么恢复数据?

37、什么是 Schema 约束?

38、Schema 约束如何工作?

39、Schema 约束有何作用?

40、到底需不需要大费周章做 Schema 约束?

41、什么是 Schema 演变?

42、Schema 演变如何工作?

43、Schema 演变有何作用?

44、Delta 事务日志 是什么?

45、Delta 事务日志有何作用?

46、Delta Lake 原子性如何实现?

47、Delta Lake 事务日志如何工作?

48、Delta Lake事务日志在文件层面的实现?

49、Delta Lake事务日志如何处理并发读写?

50、Delta Lake事务日志中什么是乐观锁?

51、Delta Lake事务日志如何乐观处理冲突?

52、Delta Lake事务日志如何时间回溯?

53、Delta Lake事务日志如何数据血缘和调试?

54、Delta Lake 表如何删除操作?

55、streaming性能受什么影响?

56、如何使用Spark Streaming SQL进行 PV/UV统计?

57、使用Spark Streaming SQL进行 PV/UV统计的准备工作?

58、自适应查询执行AQE是什么意思?

59、Spark 3.0中主要的AQE特性有哪些?

60、Spark 3.0中的AQE中动态合并shuffle分区什么意思?

61、Spark 3.0中的AQE中动态优化join中的数据倾斜什么意思?

62、Shuffle是如何对大量小文件进行优化的?

63、AQE是否支持外部的Shuffle Service?

64、如果join的两边的part都比较大,是不是都会拆分?

65、Hive是什么?

66、Spark SQL是什么?

67、Spark SQL的DataSource表是什么?

68、Spark SQL中的Hive表是什么?

展开
收起
爱吃鱼的程序员 2020-12-28 12:07:15 853 0
0 条回答
写回答
取消 提交回答

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载

相关镜像