【Spark Summit East 2017】使用“宽”随机森林在基因组的大草堆中寻针

简介: 本讲义出自Piotr Szul在Spark Summit East 2017上的演讲,主要介绍了基于Spark的实现了对于高维度的数据集进行优化的RandomForestHD,目前已经成功地将RandomForestHD运用到其他工具无法处理的数据集上,并且发现数据集越小其性能表现就会越好,演讲中还介绍了 WGAS相关方面的挑战,表现了RandomForestHD基于Spark的设计原则和实现细节。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Piotr Szul在Spark Summit East 2017上的演讲,主要介绍了基于Spark的实现了对于高维度的数据集进行优化的RandomForestHD,目前已经成功地将RandomForestHD运用到其他工具无法处理的数据集上,并且发现数据集越小其性能表现就会越好,演讲中还介绍了 WGAS相关方面的挑战,表现了RandomForestHD基于Spark的设计原则和实现细节。


dc02d7507fda3e5cccfc7623caafae0dac39038e

67a600c44dd10c89f29930a4862f026d01d8443c

824273c640b29a2a41146c066f28e72f87118c46

2228821d08c0ee941b9d1435587b480875f52a65

1b884db4fa89d403ee062b5f015d2ca94bb50fa7

91501230e6e0163478e4077bbd56db255e516958

149c620bbf046bc9f383abd1911a24feef39565c

d7a19b76d8984f06054a9ca8a76c0e589ccf03db

788dfc6d449da91d0a4c1e3dbeeb00293a4c7eeb

3ccc1d14da6de848c8e6f4f29368f4356d11eaa7

2e0cfec3311792720d2170d4b7066281944ce1f4

e52836fdadbc739f09bead80d311dd1ead9eb48f

b1c1c7fbd9505ac68928e7c3da39a07497da7970

f2c9f2b5df820c4bd7443ae233c5af9df11d756b

d9e080df4d11dbdbc4fa37274e0cbbfcb4c308e9

351d9bb500b17571a35e80d3526a911cdcb26303

4b6a386491efe6f3addf1d774a71559ea413eb11

06863cb99bf64edddc36da642bffb183d8acf50c

a00e57ba3a206111c4f2940f0c21fbe96ba00e9b

25c934a82cb34c5ae329a9d68ee411182f92831c

bea3ff9e4f843f8d1ac94510f5b6083926237afc

bcf4bd31cb86c89d9e986d7b0e1d80cb29ca5b1c

9c62622762c161a2b75826023235c50795e9a60d

fbbb0e43d14b7e38e4f9e566ba50f37f5ab759ec

f6f2d109ffbbf8f90e479f83c946b17c58b2a7ed

c7d76fa26ab73d2886f7331101f70cd542090911

9a8a86dd9a194f4937c40d5e03c1f49dee6148bf

相关文章
|
5月前
|
机器学习/深度学习 分布式计算 算法
基于Spark中随机森林模型的天气预测系统
基于Spark中随机森林模型的天气预测系统
116 1
|
机器学习/深度学习 缓存 分布式计算
一种基于Spark深度随机森林的网络入侵检测模型
一种基于Spark深度随机森林的网络入侵检测模型
|
人工智能 分布式计算 大数据
Spark + AI Summit 2020 中文议题有奖征集
北美 Spark + AI Summit 2020 盛会在即,Apache Spark 中国技术交流社区在此诚邀各位,代表国内开发者选择您最希望听到的主题,届时社区将联合国内顶尖技术专家一一展开中文形式分享。
Spark + AI Summit 2020 中文议题有奖征集
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
|
机器学习/深度学习 人工智能 分布式计算
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
|
分布式计算 Prometheus Kubernetes
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
|
SQL 人工智能 缓存
Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光
在Spark + AI Summit 2020上, Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰,在性能上大幅超越 Presto。在过去几年,我们见过了太多的 benchmark,大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心,可谓及时雨。
Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光
|
SQL 存储 分布式计算
【译】使用Spark SQL 运行大规模基因组工作流
将数据提取到Spark中是大多数大数据作业的第一步,但这并不是大数据旅途的终点。
|
分布式计算 Spark SQL
【译】使用Spark SQL 运行大规模基因组工作流
原文链接:https://databricks.com/blog/2019/06/26/scaling-genomic-workflows-with-spark-sql-bgen-and-vcf-readers.html
1760 0