【Spark Summit East 2017】使用“宽”随机森林在基因组的大草堆中寻针-阿里云开发者社区

开发者社区> 大数据> 正文

【Spark Summit East 2017】使用“宽”随机森林在基因组的大草堆中寻针

简介: 本讲义出自Piotr Szul在Spark Summit East 2017上的演讲,主要介绍了基于Spark的实现了对于高维度的数据集进行优化的RandomForestHD,目前已经成功地将RandomForestHD运用到其他工具无法处理的数据集上,并且发现数据集越小其性能表现就会越好,演讲中还介绍了 WGAS相关方面的挑战,表现了RandomForestHD基于Spark的设计原则和实现细节。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Piotr Szul在Spark Summit East 2017上的演讲,主要介绍了基于Spark的实现了对于高维度的数据集进行优化的RandomForestHD,目前已经成功地将RandomForestHD运用到其他工具无法处理的数据集上,并且发现数据集越小其性能表现就会越好,演讲中还介绍了 WGAS相关方面的挑战,表现了RandomForestHD基于Spark的设计原则和实现细节。


dc02d7507fda3e5cccfc7623caafae0dac39038e

67a600c44dd10c89f29930a4862f026d01d8443c

824273c640b29a2a41146c066f28e72f87118c46

2228821d08c0ee941b9d1435587b480875f52a65

1b884db4fa89d403ee062b5f015d2ca94bb50fa7

91501230e6e0163478e4077bbd56db255e516958

149c620bbf046bc9f383abd1911a24feef39565c

d7a19b76d8984f06054a9ca8a76c0e589ccf03db

788dfc6d449da91d0a4c1e3dbeeb00293a4c7eeb

3ccc1d14da6de848c8e6f4f29368f4356d11eaa7

2e0cfec3311792720d2170d4b7066281944ce1f4

e52836fdadbc739f09bead80d311dd1ead9eb48f

b1c1c7fbd9505ac68928e7c3da39a07497da7970

f2c9f2b5df820c4bd7443ae233c5af9df11d756b

d9e080df4d11dbdbc4fa37274e0cbbfcb4c308e9

351d9bb500b17571a35e80d3526a911cdcb26303

4b6a386491efe6f3addf1d774a71559ea413eb11

06863cb99bf64edddc36da642bffb183d8acf50c

a00e57ba3a206111c4f2940f0c21fbe96ba00e9b

25c934a82cb34c5ae329a9d68ee411182f92831c

bea3ff9e4f843f8d1ac94510f5b6083926237afc

bcf4bd31cb86c89d9e986d7b0e1d80cb29ca5b1c

9c62622762c161a2b75826023235c50795e9a60d

fbbb0e43d14b7e38e4f9e566ba50f37f5ab759ec

f6f2d109ffbbf8f90e479f83c946b17c58b2a7ed

c7d76fa26ab73d2886f7331101f70cd542090911

9a8a86dd9a194f4937c40d5e03c1f49dee6148bf

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
大数据
使用钉钉扫一扫加入圈子
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

其他文章