更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。
本讲义出自Ed Barnes与Ruslan Vaulin在Spark Summit East 2017上的演讲,我们都害怕“失去的任务”和“容器由于超出内存限制被Yarn关闭”的消息在Spark Yarn的应用程序出现的比例增多。甚至在分布式Yarn环境中,回答“应用程序使用了多少内存?”这个问题都是非常棘手的。为观察Spark的重要统计工作,包括executor-by-executor内存和CPU使用,JDK以及pySpark Yarn容器中的python的部分,Sqrrl已经开发了一个测试框架。