【Spark Summit EU 2016】基于SparkML整体模型的预测服务,看每天10亿张机票的价格如何变化

简介: 本讲义出自Josef Habdank在Spark Summit EU上的演讲,主要介绍了对于大规模数据科学的整体模型方法,基于DataBricks的每天几十亿行数据的机器学习模型系统架构,以及基于Spark Streaming的并行训练模型,分享了基于SparkML整体模型的对于机票价格的预测服务。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自Josef Habdank在Spark Summit EU上的演讲,主要介绍了对于大规模数据科学的整体模型方法,基于DataBricks的每天几十亿行数据的机器学习模型系统架构,以及基于Spark Streaming的并行训练模型,分享了基于SparkML整体模型的对于机票价格的预测服务。


39fc8ca1c9e40629510c9a2f01431321c2bf67cb

2388b309f6f95b68b2174d91380ce5993cfb399d

46c952c64d107c75987b33bd576b6feecc33b4d1

5286bfe070ce3b61fc9b6d2df80b159ab553485a

3214ba1b0e7924973274d1780bedf73a851b33dc

8e154e5ee6e5a94c136174b059820f2b2852e401

1137001346969395dc1e74d4f2c95ed3f6e99a82

e3308b5bc06fde8993272a8e739680a93ee0975d

1f88a772755670c5b544931339cf8c61bb048d71

9d7a2c156e97df5e424dddb86bd9eb359e3f0e19

1dd68bc078f085e9a28ec717a0188cfba7c4e2cf

fb69718ec896d8ad0373527b9323bd47e1e246fa

90a98c5ced2605cbdba49a9380d947ce3d7b9ae0

3d549cbc428c5093272b266ceb1d77a088c006c0

3afa7a2e19f859b59407eb197e34a263012b5b1c

460a5ea28156150f215209e0faf79fe3845e450c

26cf6ecd27a1a9d0ebdb901a0bf75ac2f6a6d5b7

6467886eaa13fb5f2f5a14a0cdc20f3e86725bf5

a5c5f6ba3bb53256c629d43c3bfd24fc5dfb46b4

483ad11b83af61e3611eef5d1ab0b455cb2836e3

55088ea540ec02e70cdcdab2fb48d00aacaba557

相关文章
|
7月前
|
Java Shell 分布式数据库
【大数据技术Hadoop+Spark】HBase数据模型、Shell操作、Java API示例程序讲解(附源码 超详细)
【大数据技术Hadoop+Spark】HBase数据模型、Shell操作、Java API示例程序讲解(附源码 超详细)
163 0
|
7月前
|
SQL 存储 分布式计算
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
1138 0
|
7月前
|
存储 分布式计算 负载均衡
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
239 0
|
2月前
|
存储 缓存 分布式计算
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
44 4
|
5月前
|
分布式计算 运维 Serverless
EMR Serverless Spark服务和EMR Serverless StarRocks服务的比较
**EMR Serverless Spark** 以其出色的稳定性、高效性能、减轻运维负担及成本优化著称,适合大规模数据处理。**EMR Serverless StarRocks** 则以高速查询、存算分离架构和灵活扩缩容见长,侧重企业级功能。两者在不同应用场景中有各自优势,选择应基于具体需求。更多详情,参考阿里云官方资源。
|
1月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
5月前
|
存储 分布式计算 运维
EMR Serverless Spark服务最佳实践测评
EMR Serverless Spark服务最佳实践测评
146 2
|
6月前
|
分布式计算 运维 Serverless
EMR Serverless Spark服务体验评测报告
EMR Serverless Spark服务体验评测报告
78 2
|
6月前
|
机器学习/深度学习 分布式计算 算法
基于Spark中随机森林模型的天气预测系统
基于Spark中随机森林模型的天气预测系统
151 1
|
6月前
|
分布式计算 Serverless 数据处理
Serverless Spark计算服务
Serverless Spark计算服务
下一篇
DataWorks