【Spark Summit East 2017】构建于高维文档数据集上的基于时间戳的实时分析查询处理与预测模型

简介: 本讲义出自Debasish Das在Spark Summit East 2017上的演讲,主要介绍了对于LuceneDAO进行的扩展,允许其从文档术语的观点来使用时间戳进行搜索和时间过滤,演讲中展示了对于一整套查询生成的API,核心观点是通过理解如何使得 Lucene能够意识到在Spark中时间意识是非常重要的,进而构建交互式分析查询处理和时间序列预测算法。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Debasish Das在Spark Summit East 2017上的演讲,主要介绍了对于LuceneDAO进行的扩展,允许其从文档术语的观点来使用时间戳进行搜索和时间过滤,演讲中展示了对于一整套查询生成的API,核心观点是通过理解如何使得 Lucene能够意识到在Spark中时间意识是非常重要的,进而构建交互式分析查询处理和时间序列预测算法。


15771b7b0fd7b6cf51955724c2a974feaf71db5f

3672cb7ed80289d4bda4758867ebbc173ebc7084

dc8a0e29d1e7b5f107335268e4a7b8968d689d44

b84acc051865bc0eaf38f92ddcc319a7a3b53d3a

5ae3d00cf5370c7d908d1dffdbe7e8e7deda9b08

9d983a0c2cdfba7587b43de5f3d845378d88916c

7ae17bae6b211f6e84b708c9abb888da718afcc9

361e184a4851e2e372805570d6b9088f5db709e9

b3da5bdce4c85db2129d20ba8fe27d4e6b821e78

78ca602bf81c263f0775bd2e2c6cb421876604eb


ccb19e3962c24c9e1a915d1ec99fc434b19f1b84

a117023549e35e8b965ec6cb4b734db36df781b3

c570640b83b07fdff4cd0856d9a398457ac7db8f

741fba8c64e4ff9ca9c017daf046ae6e667d87d0

1fd49db80c43b27255488cc99e9823cb76368f7e

bd0e665b1aa08f7ab86b1cd9e5fd3b09f49f14c2

d215858cb9e9c98dea0faf2510619cc513c14ab4

17aa8ad1f2d2e464598ae043b58c3cd70b500e2d

9c7197512485af0260c9109c9775ac23c4a8872f

2adf079094c47ead73729facb29c72c2e2b878a9

85e1a2b8bb4b804dfc0d3a61b54ebcd841639ef4

58b9ad772a76e5e1d0b62431077428cd72cc9494

dba816c61c961979065b7536b7ba736bf8bf9d04

相关文章
|
6月前
|
Java Shell 分布式数据库
【大数据技术Hadoop+Spark】HBase数据模型、Shell操作、Java API示例程序讲解(附源码 超详细)
【大数据技术Hadoop+Spark】HBase数据模型、Shell操作、Java API示例程序讲解(附源码 超详细)
154 0
|
6月前
|
SQL 存储 分布式计算
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
1067 0
|
6月前
|
存储 分布式计算 负载均衡
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
215 0
|
1月前
|
存储 缓存 分布式计算
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
35 4
|
9天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
3月前
|
SQL 存储 分布式计算
|
4月前
|
SQL 分布式计算 数据处理
MaxCompute操作报错合集之使用Spark查询时函数找不到的原因是什么
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
4月前
|
分布式计算 数据处理 流计算
实时计算 Flink版产品使用问题之使用Spark ThriftServer查询同步到Hudi的数据时,如何实时查看数据变化
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
5月前
|
机器学习/深度学习 分布式计算 算法
基于Spark中随机森林模型的天气预测系统
基于Spark中随机森林模型的天气预测系统
116 1
|
6月前
|
存储 缓存 分布式计算
Spark【基础知识 02】【弹性式数据集RDDs】(部分图片来源于网络)
【2月更文挑战第13天】Spark【基础知识 02】【弹性式数据集RDDs】(部分图片来源于网络)
73 1