开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

【百问百答】Apache Spark 中文实战攻略

1、Apache Spark 3.0 是什么?

2、Apache Spark 3.0 与性能相关的新功能主要有哪些?

3、 Spark 3.0 的Adaptive Query Execution是什么?

4、在Spark2.0中基于代价的优化器有什么问题?

5、Spark3.0中AQE包括哪些功能?

6、Spark调优数据分布不均是什么意思?

7、Spark3 Dynamic Partition Pruning是什么?

8、Spark3 Join Hints是什么?

9、Spark3 Richer APIs是什么?

10、Spark3 Monitoring and Debuggability是什么?

11、Spark3 SQL Compatibility是什么?

12、Spark3 Built-in Data Sources是什么?

13、Spark3 Extensibility and Ecosystem是什么?

14、Spark的起源是怎样的?

15、Spark现在是怎样的?

16、Spark的最新进展是怎样的?

17、Spark3.0在Python方面是怎样的?

18、Spark社区有什么特性?

19、Spark的未来是怎样的?

20、在Apache Spark 的 AQE是什么意思?

21、在Apache Spark 的 ZEN 是什么意思?

22、在Apache Spark 的 ANSI SQL是什么意思?

23、Delta Lake的工作原理是怎样的?

24、Delta Lake可以线上使用吗?

25、Delta Lake是否可以纯SQL实现?

26、Data Lake Delta、Hudi、 Iceberg不同点有什么?

27、Data Lake Delta 不同点有什么?

28、Data Lake Iceberg不同点有什么?

29、核桃编程是什么?

30、核桃编程的业务需求是什么?

31、Delta Lake是什么?

32、SparkStreaming SQL是什么?

33、用Delta Lake 小文件多问题如何解决?

34、用Delta Lake Compact冲突问题如何解决?

35、用Delta Lake 为什么不直接从ODS计算?

36、用Delta Lake 怎么恢复数据?

37、什么是 Schema 约束?

38、Schema 约束如何工作?

39、Schema 约束有何作用?

40、到底需不需要大费周章做 Schema 约束?

41、什么是 Schema 演变?

42、Schema 演变如何工作?

43、Schema 演变有何作用?

44、Delta 事务日志 是什么?

45、Delta 事务日志有何作用?

46、Delta Lake 原子性如何实现?

47、Delta Lake 事务日志如何工作?

48、Delta Lake事务日志在文件层面的实现?

49、Delta Lake事务日志如何处理并发读写?

50、Delta Lake事务日志中什么是乐观锁?

51、Delta Lake事务日志如何乐观处理冲突?

52、Delta Lake事务日志如何时间回溯?

53、Delta Lake事务日志如何数据血缘和调试?

54、Delta Lake 表如何删除操作?

55、streaming性能受什么影响?

56、如何使用Spark Streaming SQL进行 PV/UV统计?

57、使用Spark Streaming SQL进行 PV/UV统计的准备工作?

58、自适应查询执行AQE是什么意思?

59、Spark 3.0中主要的AQE特性有哪些?

60、Spark 3.0中的AQE中动态合并shuffle分区什么意思?

61、Spark 3.0中的AQE中动态优化join中的数据倾斜什么意思?

62、Shuffle是如何对大量小文件进行优化的?

63、AQE是否支持外部的Shuffle Service?

64、如果join的两边的part都比较大,是不是都会拆分?

65、Hive是什么?

66、Spark SQL是什么?

67、Spark SQL的DataSource表是什么?

68、Spark SQL中的Hive表是什么?

69、Spark 为什么要用到平台 ?

70、Spark 平台中有什么?

71、Databricks如何获取数据?

72、Databricks如何集群管理?

73、Databricks如何ETL Workflow 的自动化?

74、Databricks 和 Dataworks 都是一站式的数据分析平台,两者的区别是什么?

75、目前 Zeppelin、Jupyter、Databricks 产品的分析功能有些类似,他们有什么特别推荐的使用场景 吗?

76、领英 Spark 生态系统有什么特征?

77、领英的 Spark 是一个什么样的生态系统?

78、为什么我的 Spark 应用失败了?

79、sprak如何找到运行时的性能瓶颈?

80、sprak如何调参,使得应用运行的更快?

81、Spark Shuffle Service 问题 有哪些?

82、Cosco的优势是什么?

83、Cosco 产生背景是什么?

84、Cosco 是什么?

85、Cosco 为什么用 Flash 替换内存缓冲?

86、基于内存和闪存混合的缓存优化的技术有什么?

87、基于内存和闪存混合的缓存优化的技术有什么好处?

88、EMR E-Learning 平台是什么?

89、AI 开发的现状是怎么样的?

90、EMR 有什么特性?

91、E-MapReduce的组成是什么?

92、E-MapReduce的磁盘容量不足怎么办?

93、E-MapReduce的磁盘容量过剩怎么办?

94、E-MapReduce的计算能力不足怎么办?

95、E-MapReduce的计算能力过剩怎么办?

96、E-MapReduce的组件版本过低怎么办?

97、E-MapReduce的转化非HA集群为HA集群怎么办?

98、E-MapReduce产品的费用怎么样?

99、为什么集群已续费但还是会收到没有续费的通知?

100、E-MapReduce是否支持自动续费?

101、集群创建失败需要处理吗?

102、集群机器如何分工?

103、E-MapReduce是否支持竞价实例?

104、E-MapReduce和MaxCompute的区别是什么?

105、EMR如何查看作业日志?

106、EMR作业和执行计划的区别是什么?

107、EMR如何在OSS上查看日志?

108、Data Mechanics是什么?

109、Spark on k8s的核心概念是什么?

110、Shuffle service 解决什么问题?

111、EMR Spark 云原生规划是什么样的?

112、Ray是什么?

113、RayOnSpark 如何使用?

114、NeuSoft是什么?

115、EMR的发展历程是什么样的?

116、EMR云上现状是什么样的?

117、EMR的IaaS 层升级是什么样的?

118、EMR的存储访问优化方案 JindoFS是什么样的?

119、什么是DataWorks?

点击下载《Apache Spark 中文实战攻略》: https://developer.aliyun.com/topic/download?id=821 https://developer.aliyun.com/topic/download?id=822

展开
收起
爱吃鱼的程序员 2020-12-28 14:33:40 2945 0
0 条回答
写回答
取消 提交回答

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
Apache Flink技术进阶 立即下载
Apache Spark: Cloud and On-Prem 立即下载
Hybrid Cloud and Apache Spark 立即下载

相关镜像