【Hadoop Summit Tokyo 2016】企业数据分类和治理

简介: 本讲义出自Shwetha Shivalingamurthy与Suma Shivaprasad在Hadoop Summit Tokyo 2016上的演讲,主要分享了企业数据分类和治理的案例并且深入地讲解了大数据治理的相关内容,并介绍了Atlas的概览和架构设计以及其特性和发展路线。

本讲义出自Shwetha Shivalingamurthy与Suma Shivaprasad在Hadoop Summit Tokyo 2016上的演讲,主要分享了企业数据分类和治理的案例并且深入地讲解了大数据治理的相关内容,并介绍了Atlas的概览和架构设计以及其特性和发展路线。

2746127e4d8af44c93fa97bb7e0dd8cda63ca86f

a36ac91fa39eac9fba4d9409a499bb440e049c21

88b94a14cacd4431b066574df8abd43535a334dc

3d991ef0e2045f0bfe0fe03ddd8c3261054cd4c2

fe4a4ae73e7e1d9c29750fab40bd0d78e5d43ebc

39baa3e95aeecd0aa6d37aeb12566f4aefe53be3

e80d4a9d562de366fdedcc7e6892bc8714f3e572

90853942cd15ddfece86851b37f7bbc0409a6132

7785abac80ba26c709e93778866786921ad35f9d

2918c1c81baa6f2f95a0c1f57f7e562d903ca13f

6b57d1278b99ab6d3c70351a362153895b35ba4a

88ca6475bd0ff68574311d5cb3cec596322d8329

f9d9f37cb7c2f392ac09d475f7b57b58de6e890e

fbe0085f3880b0ae890267cfddaa961b4951d442

c186f5dab2e9028b4cf215d73a76e296aa6946e4

c4c7d511fc012952d6103fea0ea6a162347a3705

cfe6664e452880ece4b889fee158709e8a3c1014

a7365c2bafa03adc9ed6c2ed27dfbd286cb3c2a3

8e222fe0a1961aeeaa9a4c46557439bcf1751b7c

0e5e9b32c6c28609b11da1e15c86c6c5618b2440

cd97501eaaeec678902c052b8f8d32281f0069c8

0d2269f563fb4b240ad2a3910c899a5834830d74

b41e7f25e5df5f7a6a05098e095fd433188d7380

cc96e7f1c45a886ad6c8d0cefdaac48ec35e3832

dd8f711e3ad172c78080266ecd97d5c55a056dc9

a3023f341c1c96e94c90e48d3436f0acce1e81fb

5e6c75516924620ea9873030bc0bba864ecabde1

1ef3380562d283a8701ca368a76d101e893ae8af



相关文章
|
3月前
|
分布式计算 Java Hadoop
Hadoop-18 Flume HelloWorld 第一个Flume尝试!编写conf实现Source+Channel+Sink 控制台查看收集到的数据 流式收集
Hadoop-18 Flume HelloWorld 第一个Flume尝试!编写conf实现Source+Channel+Sink 控制台查看收集到的数据 流式收集
48 1
|
9天前
|
存储 分布式计算 Hadoop
基于Java的Hadoop文件处理系统:高效分布式数据解析与存储
本文介绍了如何借鉴Hadoop的设计思想,使用Java实现其核心功能MapReduce,解决海量数据处理问题。通过类比图书馆管理系统,详细解释了Hadoop的两大组件:HDFS(分布式文件系统)和MapReduce(分布式计算模型)。具体实现了单词统计任务,并扩展支持CSV和JSON格式的数据解析。为了提升性能,引入了Combiner减少中间数据传输,以及自定义Partitioner解决数据倾斜问题。最后总结了Hadoop在大数据处理中的重要性,鼓励Java开发者学习Hadoop以拓展技术边界。
34 7
|
1月前
|
数据采集 分布式计算 Hadoop
使用Hadoop MapReduce进行大规模数据爬取
使用Hadoop MapReduce进行大规模数据爬取
|
3月前
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
67 4
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
125 3
|
3月前
|
SQL
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
57 2
|
3月前
|
分布式计算 Java Hadoop
Hadoop-30 ZooKeeper集群 JavaAPI 客户端 POM Java操作ZK 监听节点 监听数据变化 创建节点 删除节点
Hadoop-30 ZooKeeper集群 JavaAPI 客户端 POM Java操作ZK 监听节点 监听数据变化 创建节点 删除节点
90 1
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
153 0
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
66 0
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
86 0

相关实验场景

更多