【Spark Summit East 2017】构建于高维文档数据集上的基于时间戳的实时分析查询处理与预测模型

简介: 本讲义出自Debasish Das在Spark Summit East 2017上的演讲,主要介绍了对于LuceneDAO进行的扩展,允许其从文档术语的观点来使用时间戳进行搜索和时间过滤,演讲中展示了对于一整套查询生成的API,核心观点是通过理解如何使得 Lucene能够意识到在Spark中时间意识是非常重要的,进而构建交互式分析查询处理和时间序列预测算法。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Debasish Das在Spark Summit East 2017上的演讲,主要介绍了对于LuceneDAO进行的扩展,允许其从文档术语的观点来使用时间戳进行搜索和时间过滤,演讲中展示了对于一整套查询生成的API,核心观点是通过理解如何使得 Lucene能够意识到在Spark中时间意识是非常重要的,进而构建交互式分析查询处理和时间序列预测算法。


15771b7b0fd7b6cf51955724c2a974feaf71db5f

3672cb7ed80289d4bda4758867ebbc173ebc7084

dc8a0e29d1e7b5f107335268e4a7b8968d689d44

b84acc051865bc0eaf38f92ddcc319a7a3b53d3a

5ae3d00cf5370c7d908d1dffdbe7e8e7deda9b08

9d983a0c2cdfba7587b43de5f3d845378d88916c

7ae17bae6b211f6e84b708c9abb888da718afcc9

361e184a4851e2e372805570d6b9088f5db709e9

b3da5bdce4c85db2129d20ba8fe27d4e6b821e78

78ca602bf81c263f0775bd2e2c6cb421876604eb


ccb19e3962c24c9e1a915d1ec99fc434b19f1b84

a117023549e35e8b965ec6cb4b734db36df781b3

c570640b83b07fdff4cd0856d9a398457ac7db8f

741fba8c64e4ff9ca9c017daf046ae6e667d87d0

1fd49db80c43b27255488cc99e9823cb76368f7e

bd0e665b1aa08f7ab86b1cd9e5fd3b09f49f14c2

d215858cb9e9c98dea0faf2510619cc513c14ab4

17aa8ad1f2d2e464598ae043b58c3cd70b500e2d

9c7197512485af0260c9109c9775ac23c4a8872f

2adf079094c47ead73729facb29c72c2e2b878a9

85e1a2b8bb4b804dfc0d3a61b54ebcd841639ef4

58b9ad772a76e5e1d0b62431077428cd72cc9494

dba816c61c961979065b7536b7ba736bf8bf9d04

相关文章
|
机器学习/深度学习 分布式计算 算法
Spark快速大数据分析PDF下载读书分享推荐
《Spark快速大数据分析》适合初学者,聚焦Spark实用技巧,同时深入核心概念。作者团队来自Databricks,书中详述Spark 3.0新特性,结合机器学习展示大数据分析。Spark是大数据分析的首选工具,本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center
464 1
Spark快速大数据分析PDF下载读书分享推荐
|
移动开发 分布式计算 Spark
Spark的几种去重的原理分析
Spark的几种去重的原理分析
418 0
|
存储 缓存 分布式计算
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
183 4
|
SQL 分布式计算 Serverless
EMR Serverless Spark:一站式全托管湖仓分析利器
本文根据2024云栖大会阿里云 EMR 团队负责人李钰(绝顶) 演讲实录整理而成
757 58
|
10月前
|
SQL 分布式计算 Serverless
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
260 0
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
设计模式 数据采集 分布式计算
企业spark案例 —出租车轨迹分析
企业spark案例 —出租车轨迹分析
500 0
|
弹性计算 分布式计算 Serverless
全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测
【7月更文挑战第6天】全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测
23918 42
|
SQL 分布式计算 监控
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
本文演示了使用 EMR Serverless Spark 产品搭建一个日志分析应用的全流程,包括数据开发和生产调度以及交互式查询等场景。
56930 7
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
|
机器学习/深度学习 分布式计算 算法
基于Spark中随机森林模型的天气预测系统
基于Spark中随机森林模型的天气预测系统
469 1