文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 正文

【百问百答】Apache Spark 中文实战攻略

1、Apache Spark 3.0 是什么？

2、Apache Spark 3.0 与性能相关的新功能主要有哪些？

3、 Spark 3.0 的Adaptive Query Execution是什么？

4、在Spark2.0中基于代价的优化器有什么问题？

5、Spark3.0中AQE包括哪些功能？

6、Spark调优数据分布不均是什么意思？

7、Spark3 Dynamic Partition Pruning是什么？

8、Spark3 Join Hints是什么？

9、Spark3 Richer APIs是什么？

10、Spark3 Monitoring and Debuggability是什么？

11、Spark3 SQL Compatibility是什么？

12、Spark3 Built-in Data Sources是什么？

13、Spark3 Extensibility and Ecosystem是什么？

14、Spark的起源是怎样的？

15、Spark现在是怎样的？

16、Spark的最新进展是怎样的？

17、Spark3.0在Python方面是怎样的？

18、Spark社区有什么特性？

19、Spark的未来是怎样的？

20、在Apache Spark 的 AQE是什么意思？

21、在Apache Spark 的 ZEN 是什么意思？

22、在Apache Spark 的 ANSI SQL是什么意思？

23、Delta Lake的工作原理是怎样的？

24、Delta Lake可以线上使用吗？

25、Delta Lake是否可以纯SQL实现？

26、Data Lake Delta、Hudi、 Iceberg不同点有什么？

27、Data Lake Delta 不同点有什么？

28、Data Lake Iceberg不同点有什么？

29、核桃编程是什么？

30、核桃编程的业务需求是什么？

31、Delta Lake是什么？

32、SparkStreaming SQL是什么？

33、用Delta Lake 小文件多问题如何解决？

34、用Delta Lake Compact冲突问题如何解决？

35、用Delta Lake 为什么不直接从ODS计算？

36、用Delta Lake 怎么恢复数据？

37、什么是 Schema 约束？

38、Schema 约束如何工作？

39、Schema 约束有何作用？

40、到底需不需要大费周章做 Schema 约束？

41、什么是 Schema 演变？

42、Schema 演变如何工作？

43、Schema 演变有何作用？

44、Delta 事务日志是什么？

45、Delta 事务日志有何作用？

46、Delta Lake 原子性如何实现？

47、Delta Lake 事务日志如何工作？

48、Delta Lake事务日志在文件层面的实现？

49、Delta Lake事务日志如何处理并发读写？

50、Delta Lake事务日志中什么是乐观锁？

51、Delta Lake事务日志如何乐观处理冲突？

52、Delta Lake事务日志如何时间回溯？

53、Delta Lake事务日志如何数据血缘和调试？

54、Delta Lake 表如何删除操作？

55、streaming性能受什么影响？

56、如何使用Spark Streaming SQL进行 PV/UV统计？

57、使用Spark Streaming SQL进行 PV/UV统计的准备工作？

58、自适应查询执行AQE是什么意思？

59、Spark 3.0中主要的AQE特性有哪些？

60、Spark 3.0中的AQE中动态合并shuffle分区什么意思？

61、Spark 3.0中的AQE中动态优化join中的数据倾斜什么意思？

62、Shuffle是如何对大量小文件进行优化的？

63、AQE是否支持外部的Shuffle Service？

64、如果join的两边的part都比较大，是不是都会拆分？

65、Hive是什么？

66、Spark SQL是什么？

67、Spark SQL的DataSource表是什么？

68、Spark SQL中的Hive表是什么？

69、Spark 为什么要用到平台？

70、Spark 平台中有什么？

71、Databricks如何获取数据？

72、Databricks如何集群管理？

73、Databricks如何ETL Workflow 的自动化？

74、Databricks 和 Dataworks 都是一站式的数据分析平台，两者的区别是什么？

75、目前 Zeppelin、Jupyter、Databricks 产品的分析功能有些类似，他们有什么特别推荐的使用场景吗？

76、领英 Spark 生态系统有什么特征？

77、领英的 Spark 是一个什么样的生态系统？

78、为什么我的 Spark 应用失败了？

79、sprak如何找到运行时的性能瓶颈？

80、sprak如何调参，使得应用运行的更快？

81、Spark Shuffle Service 问题有哪些？

82、Cosco的优势是什么？

83、Cosco 产生背景是什么？

84、Cosco 是什么？

85、Cosco 为什么用 Flash 替换内存缓冲？

86、基于内存和闪存混合的缓存优化的技术有什么？

87、基于内存和闪存混合的缓存优化的技术有什么好处？

88、EMR E-Learning 平台是什么？

89、AI 开发的现状是怎么样的？

90、EMR 有什么特性？

91、E-MapReduce的组成是什么？

92、E-MapReduce的磁盘容量不足怎么办？

93、E-MapReduce的磁盘容量过剩怎么办？

94、E-MapReduce的计算能力不足怎么办？

95、E-MapReduce的计算能力过剩怎么办？

96、E-MapReduce的组件版本过低怎么办？

97、E-MapReduce的转化非HA集群为HA集群怎么办？

98、E-MapReduce产品的费用怎么样？

99、为什么集群已续费但还是会收到没有续费的通知？

100、E-MapReduce是否支持自动续费？

101、集群创建失败需要处理吗？

102、集群机器如何分工？

103、E-MapReduce是否支持竞价实例？

104、E-MapReduce和MaxCompute的区别是什么？

105、EMR如何查看作业日志？

106、EMR作业和执行计划的区别是什么？

107、EMR如何在OSS上查看日志？

108、Data Mechanics是什么？

109、Spark on k8s的核心概念是什么？

110、Shuffle service 解决什么问题？

111、EMR Spark 云原生规划是什么样的？

112、Ray是什么？

113、RayOnSpark 如何使用？

114、NeuSoft是什么？

115、EMR的发展历程是什么样的？

116、EMR云上现状是什么样的？

117、EMR的IaaS 层升级是什么样的？

118、EMR的存储访问优化方案 JindoFS是什么样的？

119、什么是DataWorks？

点击下载《Apache Spark 中文实战攻略》： https://developer.aliyun.com/topic/download?id=821 https://developer.aliyun.com/topic/download?id=822

展开

收起

爱吃鱼的程序员 2020-12-28 14:33:40 3047 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

0 条回答

写回答

取消提交回答

问答分类：

分布式计算 Apache Spark 开源大数据平台 E-MapReduce 大数据开发治理平台 DataWorks 容器服务Kubernetes版云原生大数据计算服务 MaxCompute 对象存储日志服务

问答标签：

apache spark实战 Apache实战 Apache spark apache spark Apache Apache中文

问答地址：

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 问答

相关问答

MaxCompute中使用Spark如何处理org.apache.spark.sql.Anal...

206

1

0

容器服务ASK有 apache/spark:v3.1.2的可用镜像源吗？官方只给到3.1.3

310

2

0

dbeaver 通过Apache Spark引擎链接不上云数据仓库ADB，怎么解决？

415

1

0

Apache Flink 和 Apache Spark Streaming在完整性推理方面有何不同？

212

1

0

Apache Spark Streaming 如何处理端到端一致性和时间事件的支持？

242

1

0

MaxCompute spark作业报错Class org.apache.hadoop.fs....

454

1

0

spark 是支持的hudi 表字段增加，https://hudi.apache.org/blog/

219

1

0

Apache Spark有哪些好处呢？

1873

1

0

Apache Spark有什么用处呢？

1816

1

0

Storm&Spark中Apache Storm的关于declarer的代码是什么呀？

795

1

0

大数据与机器学习

开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

我要提问

相关文章

阿里云OSS对象存储！前端JS无后端直传文件完整代码实战

百炼多模态实战：happyhorse-prompt-studio 如何用 4 步引导解决 AI 视频提示词难题

从问题库到AI回答样本：数据清洗与指标聚合流程

阿里云人工智能平台PAI对接完全指南：从入门到生产级部署

Apache Doris 在 AgentLogsBench 中领先，支撑 Agent 可观测性生产负载

热门讨论

热门文章

请教下EMR的DataLake集群，如果我自己装Zeppelin和Hue，会有兼容性问题么

阿里云E-MapReduce在 SPARK 任務在不知道 EMR master ip addres

我想1159087087316311这个国内站账户适用EMR Notebook和Workflow服

分区删除后回收站的数据已经超过了设置的24小时，一直没有清理是什么原因？

阿里云E-MapReduce我如果把roll的参数调小点，就可以切分均匀，日志有大量的这个，正常吗？

hdfs 文件块过多（1亿）每个datanode 占3000万块(分16G内),某时刻内存陡然增加？

有大佬在阿里云E-MapReduce线上用过Flink cdc CDAS 同步数据到SR的吗？

咨询一个问题， jindofs 可以提供本地 oss api 接口吗？相当于在本地提供一个 oss

《Databricks数据洞悉》这本书从哪里下载？

文件在oss上不应该有网络传输时间吗[捂脸哭]

展开全部

分布式快照算法: Chandy-Lamport

现代流式计算的基石：Google DataFlow

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS解析 - 云上大数据高性能数据湖存储方案

基于Alluxio系统的Spark DataFrame高效存储管理技术

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

漫谈分布式计算框架

从数砖开源 Delta Lake 说起

使用Hive进行OSS数据处理的一个最佳实践

E-MapReduce的HBase集群使用Hue

展开全部

还有其他疑问?