【Spark Summit East 2017】下一代存档:使用Hadoop进行存档、电子取证和监管

简介: 本讲义出自Jordan Volzn在Spark Summit East 2017上的演讲,存档、电子取证和监管这样几个合规的案例,这些看上去天生就适合使用Hadoop进行处理,但是却没有被广泛采用,演讲中讨论了几者之间共同的局限,以及Spark如何帮助构建新的蓝图并打破原有的解决方案将架构现代化。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Jordan Volzn在Spark Summit East 2017上的演讲,存档、电子取证和监管这样几个合规的案例,这些看上去天生就适合使用Hadoop进行处理,但是却没有被广泛采用,演讲中讨论了几者之间共同的局限,以及Spark如何帮助构建新的蓝图并打破原有的解决方案将架构现代化。


29e7f3bda58955f31f4e79a14b8a6b875309d87d

55ef44657c06b82fac1b96fa3ccd57be33fd421f

58e9ca051ed986d9dfd733e03fc78d1435f763fd

42b8e31bf76501fc7296a45ed8ba85de0bb5729b

6a04150a0e32c07afb708f8f0f98e9d0f65e26f0

a1a20f26341e8ead47596bd0e2481920cc4916e8

fc80d19bce1aa61f85f1df9c381cd720ae4c8d99

db102c4d38b3c1601e598812d22617b7d024596c

bc78115a1d66c6a3e4f3bda398f56723a7cc8128

1937c7b7144b3a30530975a582ef199771cd9ec3

17af44df0bc7344151b6ae3e9a957ceea2575ee7

72b89f562506cb66b97db13b4fb420eefedb4d78

8fc9152406f5ec33604cc3904a0928488605c65c


相关文章
|
2月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
192 6
|
2月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
83 2
|
1月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
115 2
|
1月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
84 1
|
4月前
|
存储 分布式计算 资源调度
Hadoop生态系统概览:从HDFS到Spark
【8月更文第28天】Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。它由多个组件构成,旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件,包括HDFS、MapReduce、YARN,并探讨它们如何与现代大数据处理工具如Spark集成。
358 0
|
分布式计算 Hadoop Spark
《Spark与Hadoop大数据分析》——3.7 小结
本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章,第3.7节,作者 [美]文卡特·安卡姆(Venkat Ankam),译 吴今朝,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1121 0
|
分布式计算 资源调度 Hadoop
《Spark与Hadoop大数据分析》——3.6 Spark 资源管理器:Standalone、YARN和Mesos
本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章,第3.6节,作者 [美]文卡特·安卡姆(Venkat Ankam),译 吴今朝,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
2684 0
|
存储 缓存 分布式计算
《Spark与Hadoop大数据分析》——3.5 持久化与缓存
本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章,第3.5节,作者 [美]文卡特·安卡姆(Venkat Ankam),译 吴今朝,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1222 0
|
分布式计算 Java Shell
《Spark与Hadoop大数据分析》——3.4 Spark 应用程序
本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章,第3.4节,作者 [美]文卡特·安卡姆(Venkat Ankam),译 吴今朝,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1382 0

相关实验场景

更多