更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。
本讲义出自Piotr Szul在Spark Summit East 2017上的演讲,主要介绍了基于Spark的实现了对于高维度的数据集进行优化的RandomForestHD,目前已经成功地将RandomForestHD运用到其他工具无法处理的数据集上,并且发现数据集越小其性能表现就会越好,演讲中还介绍了 WGAS相关方面的挑战,表现了RandomForestHD基于Spark的设计原则和实现细节。