文档备案控制台

开发者社区大数据文章正文

满满的技术干货！Hadoop顶级会议Apache Hadoop Summit精华讲义分享

2017-03-03 6032

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Apache Hadoop Summit是Hadoop技术的顶级会议，这里大咖云集，一同探讨世界上最新的Hadoop发展动态以及产品应用和技术实践。本文整理了Apache Hadoop Summit Tokyo 2016上的精选演讲的讲义，无论是你想要的是Hadoop发展前沿，是Hadoop优化技

Apache Hadoop Summit是Hadoop技术的顶级会议，这里大咖云集，一同探讨世界上最新的Hadoop发展动态以及产品应用和技术实践。

本文整理了Apache Hadoop Summit Tokyo 2016上的精选演讲的讲义，无论是你想要的是Hadoop发展前沿，是Hadoop优化技巧，还是技术最佳实践，统统都在这里！

【Hadoop Summit Tokyo 2016】Apache NiFi速成课

【Hadoop Summit Tokyo 2016】重建大规模Web跟踪设施

【Hadoop Summit Tokyo 2016】利用电力公司智能电表数据比较Spark SQL与Hive

【Hadoop Summit Tokyo 2016】雅虎日本的大规模Hadoop集群网络

【Hadoop Summit Tokyo 2016】东日本可口可乐公司Hadoop之旅，从一滴到一瓶

【Hadoop Summit Tokyo 2016】基于容器规格的Apache Hadoop/Spark集群框架

【Hadoop Summit Tokyo 2016】为什么我的Hadoop集群运行这么慢？

【Hadoop Summit Tokyo 2016】Apache Hive在完全支持SQL规范上取的主要进步

【Hadoop Summit Tokyo 2016】使用Apache Ambari简化Hadoop DevOps

【Hadoop Summit Tokyo 2016】Rakuten是如何解决由于大规模多租户Hadoop集群造成的迷之问题的

【Hadoop Summit Tokyo 2016】中型组织的数据基础设施架构：收集、存储和分析的技巧

【Hadoop Summit Tokyo 2016】Apache NiFi 1.0概论

【Hadoop Summit Tokyo 2016】Hivemall: Apache Hive/Spark/Pig 的可扩展机器学习库

【Hadoop Summit Tokyo 2016】上云还是回到服务器：混合分析一瞥

【Hadoop Summit Tokyo 2016】将HDFS演进成广义分布式存储子系统

【Hadoop Summit Tokyo 2016】Apache Phoenix与HBase：HBase之上SQL的过去，现在和未来

【Hadoop Summit Tokyo 2016】使用基于Lambda架构的Spark的近实时的网络异常检测和流量分析

【Hadoop Summit Tokyo 2016】使Apache Zeppelin与Spark赋能企业数据科学

【Hadoop Summit Tokyo 2016】在Apache Hadoop上保护企业数据

【Hadoop Summit Tokyo 2016】使用Hadoop来构建实时和批数据的数据质量服务

【Hadoop Summit Tokyo 2016】使用Apache Ranger和Apache Atlas进行数据治理

【Hadoop Summit Tokyo 2016】领英：4亿会员的数据赋能之旅

【Hadoop Summit Tokyo 2016】企业已经对于云上Hadoop集群做好了准备

【Hadoop Summit Tokyo 2016】Apache Hadoop 3.0 ：YARN和MapReduce有什么新特性？

【Hadoop Summit Tokyo 2016】构建信息平台：集成Hadoop与SAP HANA和HANA VORA

【Hadoop Summit Tokyo 2016】Hadoop Common与HDFS中有什么新特性？

【Hadoop Summit Tokyo 2016】LLAP：Hive上的次秒级分析查询

【Hadoop Summit Tokyo 2016】云上Hadoop——从专家的角度解释What、Why和How

【Hadoop Summit Tokyo 2016】Hadoop与云存储：在产品中集成对象存储

【Hadoop Summit Tokyo 2016】用于欺诈检测的深度学习

【Hadoop Summit Tokyo 2016】桌上的大数据与KNIME

【Hadoop Summit Tokyo 2016】Spark上可扩展的深度学习

【Hadoop Summit Tokyo 2016】基于Spark的高性能时空轨迹分析

【Hadoop Summit Tokyo 2016】当Spark邂逅智能电表

【Hadoop Summit Tokyo 2016】对于非文本的自然语言处理结构化数据调查

【Hadoop Summit Tokyo 2016】构建多租户平台

【Hadoop Summit Tokyo 2016】云上SQL-on-Hadoop的状态

【Hadoop Summit Tokyo 2016】Apache NiFi的先锋派

【Hadoop Summit Tokyo 2016】企业数据分类和治理

【Hadoop Summit Tokyo 2016】使用Amaterasu项目进行数据操作

【Hadoop Summit Tokyo 2016】现代化企业级数据仓库：数据湖泊

【Hadoop Summit Tokyo 2016】一个持续部署的Hadoop数据分析平台

【Hadoop Summit Tokyo 2016】文件格式的基准——Avro, JSON, ORC & Parquet

【Hadoop Summit Tokyo 2016】服务大众的Hadoop

【Hadoop Summit Tokyo 2016】以Apache Storm为例增强可靠性的流计算

【Hadoop Summit Tokyo 2016】云上的大象

【Hadoop Summit Tokyo 2016】欢迎来到Hadoop的青春时代

【Hadoop Summit Tokyo 2016】基于Apache Spark的数据科学

【Hadoop Summit Tokyo 2016】限制不断变化的多租户日志服务

【Hadoop Summit Tokyo 2016】追踪Hadoop与Storm资源与开销

【Hadoop Summit Tokyo 2016】数据流与Apache NiFi

【Hadoop Summit Tokyo 2016】基于成本的查询优化

【Hadoop Summit Tokyo 2016】一小时之内使用Apache Nifi从零到数据流

【Hadoop Summit Tokyo 2016】Columnar Era：利用Parquet，Arrow and Kudu获取高性能

【Hadoop Summit Tokyo 2016】Apache Storm中的资源感知调度

【Hadoop Summit Tokyo 2016】Apache Spark & Apache Zeppelin的安全状态

【Hadoop Summit Tokyo 2016】将HDFS演化成为广义存储子系统

【Hadoop Summit Tokyo 2016】像搭乐高一样搭建Storm与Spark Streaming Pipelines块

【Hadoop Summit Tokyo 2016】如何构建成功的数据湖泊

【Hadoop Summit Tokyo 2016】操纵云上基于Hadoop 集群的YARN

文章标签：

分布式计算

Hadoop

机器学习/深度学习

Apache

流计算

SQL

Hbase

Spark

HIVE

存储

关键词：

Apache技术

hadoop技术

技术hadoop

Apache hadoop

hadoop apache

小猫吃鱼569

目录

相关文章

SelectDB

|

11月前

|

消息中间件 OLAP Kafka

Apache Doris 实时更新技术揭秘：为何在 OLAP 领域表现卓越？

Apache Doris 为何在 OLAP 领域表现卓越？凭借其主键模型、数据延迟、查询性能、并发处理、易用性等多方面特性的表现，在分析领域展现了独特的实时更新能力。

SelectDB

868 9 9

JJLIN距离

|

10月前

|

消息中间件监控 Java

Apache Kafka 分布式流处理平台技术详解与实践指南

本文档全面介绍 Apache Kafka 分布式流处理平台的核心概念、架构设计和实践应用。作为高吞吐量、低延迟的分布式消息系统，Kafka 已成为现代数据管道和流处理应用的事实标准。本文将深入探讨其生产者-消费者模型、主题分区机制、副本复制、流处理API等核心机制，帮助开发者构建可靠、可扩展的实时数据流处理系统。

JJLIN距离

855 4 4

Echo_Wish

|

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

789 79 80

SelectDB

|

存储 SQL 缓存

Apache Doris & SelectDB 技术能力全面解析

本文将对 Doris & SelectDB 适合的分析场景和技术能力进行概述解析

SelectDB

2129 1 1

Apache Doris & SelectDB 技术能力全面解析

NineData

|

安全 Apache 数据库

【倒计时3天】NineData x Apache Doris x 阿里云联合举办数据库技术Meetup，5月24日深圳见！

5月24日，NineData联合Apache Doris与阿里云在深圳举办数据库技术Meetup。活动聚焦「数据实时分析」与「数据同步迁移」两大领域，邀请行业专家分享技术趋势、产品实践及解决方案，助力企业构建高效安全的数据管理体系。时间：14:00-17:30；地点：深圳新一代产业园2栋20楼会议室。线下名额有限（80人），速报名参与深度交流！

NineData

368 1 1

蚂蚁数据智能技术

|

人工智能自然语言处理测试技术

新晋社区PMC李攀：“在Apache Fory，技术实力是唯一的通行证”

一起走近开源项目的幕后英雄——PMC成员

蚂蚁数据智能技术

381 0 0

灵杰开发者

|

消息中间件资源调度 API

Apache Flink 流批融合技术介绍

本文源自阿里云高级研发工程师周云峰在Apache Asia Community OverCode 2024的分享，内容涵盖从“流批一体”到“流批融合”的演进、技术解决方案及社区进展。流批一体已在API、算子和引擎层面实现统一，但用户仍需手动配置作业模式。流批融合旨在通过动态调整优化策略，自动适应不同场景需求。文章详细介绍了如何通过量化指标（如isProcessingBacklog和isInsertOnly）实现这一目标，并展示了针对不同场景的具体优化措施。此外，还概述了社区当前进展及未来规划，包括将优化方案推向Flink社区、动态调整算子流程结构等。

灵杰开发者

1140 31 33

Apache Flink 流批融合技术介绍

武子康

|

存储分布式计算 druid

大数据-149 Apache Druid 基本介绍技术特点应用场景

大数据-149 Apache Druid 基本介绍技术特点应用场景

武子康

535 1 1

大数据-149 Apache Druid 基本介绍技术特点应用场景

土木林森

|

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第27天】在大数据时代，数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件，通过HDFS存储数据和Spark进行高效计算，实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践，包括数据存储、处理、安全和可视化等方面，展示了它们在实际应用中的协同效应。

土木林森

770 2 2

土木林森

|

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用，通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理，确保高可靠性和容错性；Spark则凭借其高性能和丰富的API，进行深度分析和机器学习，实现高效的批处理和实时处理。

土木林森

702 1 1

热门文章

最新文章

Linux系统下pid与pid文件及Hadoop更改pid文件存储位置

hadoop集群常见问题解决

大数据 | Hadoop HA高可用搭建保姆级教程（大二学长的万字笔记）（上）

Hadoop深入学习：Combiner

Hadoop入门之WordCount运行详解

hadoop伪分布式2.4.1安装

大数据hadoop常见端口

Docker 上部署一主两从Hadoop集群 | [Centos8]（下）

Docker 上部署一主两从Hadoop集群 | [Centos7]（上）

Hadoop2.7实战v1.0之Linux参数调优

2025 OSCAR丨与创新者同频！Apache RocketMQ 邀您共赴开源之约

Confluent 首席架构师万字剖析 Apache Fluss（三）：湖流一体

Confluent 首席架构师万字剖析 Apache Fluss（二）：核心架构

Apache ShenYu 架构学习指南

阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新，共筑基于 Apache Flink Agents 的智能体 AI 未来

Apache Doris 与 ClickHouse：运维与开源闭源对比

Confluent 首席架构师万字剖析 Apache Fluss（一）：核心概念

Apache Doris 4.0 AI 能力揭秘（二）：为企业级应用而生的 AI 函数设计与实践

Apache Doris 3.1 正式发布：半结构化分析全面升级，湖仓一体能力再跃新高

Apache Kafka 分布式流处理平台技术详解与实践指南

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据Hadoop快速入门

Hadoop快速入门

Hadoop企业优化及扩展案例

相关电子书

更多

《构建Hadoop生态批流一体的实时数仓》

零基础实现hadoop 迁移 MaxCompute 之数据

CIO 指南:如何在SAP软件架构中使用Hadoop

相关实验场景

更多

搭建Hadoop环境

推荐镜像

更多

apache

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！