满满的技术干货!Hadoop顶级会议Apache Hadoop Summit精华讲义分享

简介: Apache Hadoop Summit是Hadoop技术的顶级会议,这里大咖云集,一同探讨世界上最新的Hadoop发展动态以及产品应用和技术实践。本文整理了Apache Hadoop Summit Tokyo 2016上的精选演讲的讲义,无论是你想要的是Hadoop发展前沿,是Hadoop优化技

Apache Hadoop Summit是Hadoop技术的顶级会议,这里大咖云集,一同探讨世界上最新的Hadoop发展动态以及产品应用和技术实践。


本文整理了Apache Hadoop Summit  Tokyo 2016上的精选演讲的讲义,无论是你想要的是Hadoop发展前沿,是Hadoop优化技巧,还是技术最佳实践,统统都在这里!


【Hadoop Summit Tokyo 2016】Apache NiFi速成课

【Hadoop Summit Tokyo 2016】重建大规模Web跟踪设施

【Hadoop Summit Tokyo 2016】利用电力公司智能电表数据比较Spark SQL与Hive

【Hadoop Summit Tokyo 2016】雅虎日本的大规模Hadoop集群网络

【Hadoop Summit Tokyo 2016】东日本可口可乐公司Hadoop之旅,从一滴到一瓶

【Hadoop Summit Tokyo 2016】基于容器规格的Apache Hadoop/Spark集群框架

【Hadoop Summit Tokyo 2016】为什么我的Hadoop集群运行这么慢?

【Hadoop Summit Tokyo 2016】Apache Hive在完全支持SQL规范上取的主要进步

【Hadoop Summit Tokyo 2016】使用Apache Ambari简化Hadoop DevOps

【Hadoop Summit Tokyo 2016】Rakuten是如何解决由于大规模多租户Hadoop集群造成的迷之问题的

【Hadoop Summit Tokyo 2016】中型组织的数据基础设施架构:收集、存储和分析的技巧

【Hadoop Summit Tokyo 2016】Apache NiFi 1.0概论

【Hadoop Summit Tokyo 2016】Hivemall: Apache Hive/Spark/Pig 的可扩展机器学习库

【Hadoop Summit Tokyo 2016】上云还是回到服务器:混合分析一瞥

【Hadoop Summit Tokyo 2016】将HDFS演进成广义分布式存储子系统

【Hadoop Summit Tokyo 2016】Apache Phoenix与HBase:HBase之上SQL的过去,现在和未来

【Hadoop Summit Tokyo 2016】使用基于Lambda架构的Spark的近实时的网络异常检测和流量分析

【Hadoop Summit Tokyo 2016】使Apache Zeppelin与Spark赋能企业数据科学

【Hadoop Summit Tokyo 2016】在Apache Hadoop上保护企业数据

【Hadoop Summit Tokyo 2016】使用Hadoop来构建实时和批数据的数据质量服务

【Hadoop Summit Tokyo 2016】使用Apache Ranger和Apache Atlas进行数据治理

【Hadoop Summit Tokyo 2016】领英:4亿会员的数据赋能之旅

【Hadoop Summit Tokyo 2016】企业已经对于云上Hadoop集群做好了准备

【Hadoop Summit Tokyo 2016】Apache Hadoop 3.0 :YARN和MapReduce有什么新特性?

【Hadoop Summit Tokyo 2016】构建信息平台:集成Hadoop与SAP HANA和HANA VORA

【Hadoop Summit Tokyo 2016】Hadoop Common与HDFS中有什么新特性?

【Hadoop Summit Tokyo 2016】LLAP:Hive上的次秒级分析查询

【Hadoop Summit Tokyo 2016】云上Hadoop——从专家的角度解释What、Why和How

【Hadoop Summit Tokyo 2016】Hadoop与云存储:在产品中集成对象存储

【Hadoop Summit Tokyo 2016】用于欺诈检测的深度学习

【Hadoop Summit Tokyo 2016】桌上的大数据与KNIME

【Hadoop Summit Tokyo 2016】Spark上可扩展的深度学习

【Hadoop Summit Tokyo 2016】基于Spark的高性能时空轨迹分析

【Hadoop Summit Tokyo 2016】当Spark邂逅智能电表

【Hadoop Summit Tokyo 2016】对于非文本的自然语言处理结构化数据调查

【Hadoop Summit Tokyo 2016】构建多租户平台

【Hadoop Summit Tokyo 2016】云上SQL-on-Hadoop的状态

【Hadoop Summit Tokyo 2016】Apache NiFi的先锋派

【Hadoop Summit Tokyo 2016】企业数据分类和治理

【Hadoop Summit Tokyo 2016】使用Amaterasu项目进行数据操作

【Hadoop Summit Tokyo 2016】现代化企业级数据仓库:数据湖泊

【Hadoop Summit Tokyo 2016】一个持续部署的Hadoop数据分析平台

【Hadoop Summit Tokyo 2016】文件格式的基准——Avro, JSON, ORC & Parquet

【Hadoop Summit Tokyo 2016】服务大众的Hadoop

【Hadoop Summit Tokyo 2016】以Apache Storm为例增强可靠性的流计算

【Hadoop Summit Tokyo 2016】云上的大象

【Hadoop Summit Tokyo 2016】欢迎来到Hadoop的青春时代

【Hadoop Summit Tokyo 2016】基于Apache Spark的数据科学

【Hadoop Summit Tokyo 2016】限制不断变化的多租户日志服务

【Hadoop Summit Tokyo 2016】追踪Hadoop与Storm资源与开销

【Hadoop Summit Tokyo 2016】数据流与Apache NiFi

【Hadoop Summit Tokyo 2016】基于成本的查询优化

【Hadoop Summit Tokyo 2016】一小时之内使用Apache Nifi从零到数据流

【Hadoop Summit Tokyo 2016】Columnar Era:利用Parquet,Arrow and Kudu获取高性能

【Hadoop Summit Tokyo 2016】Apache Storm中的资源感知调度

【Hadoop Summit Tokyo 2016】Apache Spark & Apache Zeppelin的安全状态

【Hadoop Summit Tokyo 2016】将HDFS演化成为广义存储子系统

【Hadoop Summit Tokyo 2016】像搭乐高一样搭建Storm与Spark Streaming Pipelines块

【Hadoop Summit Tokyo 2016】如何构建成功的数据湖泊

【Hadoop Summit Tokyo 2016】操纵云上基于Hadoop 集群的YARN

相关文章
|
2月前
|
消息中间件 分布式计算 Hadoop
Apache Flink 实践问题之Flume与Hadoop之间的物理墙问题如何解决
Apache Flink 实践问题之Flume与Hadoop之间的物理墙问题如何解决
38 3
|
19天前
|
消息中间件 资源调度 API
Apache Flink 流批融合技术介绍
本文源自阿里云高级研发工程师周云峰在Apache Asia Community OverCode 2024的分享,内容涵盖从“流批一体”到“流批融合”的演进、技术解决方案及社区进展。流批一体已在API、算子和引擎层面实现统一,但用户仍需手动配置作业模式。流批融合旨在通过动态调整优化策略,自动适应不同场景需求。文章详细介绍了如何通过量化指标(如isProcessingBacklog和isInsertOnly)实现这一目标,并展示了针对不同场景的具体优化措施。此外,还概述了社区当前进展及未来规划,包括将优化方案推向Flink社区、动态调整算子流程结构等。
285 31
Apache Flink 流批融合技术介绍
|
24天前
|
分布式计算 Java Apache
Apache Spark Streaming技术深度解析
【9月更文挑战第4天】Apache Spark Streaming是Apache Spark生态系统中用于处理实时数据流的一个重要组件。它将输入数据分成小批次(micro-batch),然后利用Spark的批处理引擎进行处理,从而结合了批处理和流处理的优点。这种处理方式使得Spark Streaming既能够保持高吞吐量,又能够处理实时数据流。
57 0
|
2月前
|
分布式计算 Hadoop 大数据
大数据处理框架在零售业的应用:Apache Hadoop与Apache Spark
【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持
44 0
|
4月前
|
Java 数据库连接 Apache
深入理解Apache Commons Pool2池化技术
深入理解Apache Commons Pool2池化技术
|
4月前
|
分布式计算 Hadoop
关于hadoop搭建的问题org.apache.hadoop.io.nativeio.NativeIO.java
关于hadoop搭建的问题org.apache.hadoop.io.nativeio.NativeIO.java
60 5
|
4月前
|
分布式计算 Hadoop 大数据
大数据技术:Hadoop与Spark的对比
【6月更文挑战第15天】**Hadoop与Spark对比摘要** Hadoop是分布式系统基础架构,擅长处理大规模批处理任务,依赖HDFS和MapReduce,具有高可靠性和生态多样性。Spark是快速数据处理引擎,侧重内存计算,提供多语言接口,支持机器学习和流处理,处理速度远超Hadoop,适合实时分析和交互式查询。两者在资源占用和生态系统上有差异,适用于不同应用场景。选择时需依据具体需求。
|
4月前
|
监控 NoSQL 数据建模
使用Apache Cassandra进行分布式数据库管理的技术实践
【6月更文挑战第5天】本文探讨了使用Apache Cassandra进行分布式数据库管理的技术实践。Cassandra是一款高性能、可扩展的NoSQL数据库,适合大规模、高并发场景。文章介绍了其高可扩展性、高性能、高可用性和灵活数据模型等核心特性,并详细阐述了环境准备、安装配置、数据建模与查询以及性能优化与监控的步骤。通过本文,读者可掌握Cassandra的运用,适应不断增长的数据需求。
|
4月前
|
存储 大数据 分布式数据库
使用Apache HBase进行大数据存储:技术解析与实践
【6月更文挑战第7天】Apache HBase,一个基于HDFS的列式存储NoSQL数据库,提供高可靠、高性能的大数据存储。其特点是列式存储、可扩展至PB级数据、低延迟读写及多版本控制。适用场景包括大规模数据存储、实时分析、日志存储和推荐系统。实践包括集群环境搭建、数据模型设计、导入、查询及性能优化。HBase在大数据存储领域扮演关键角色,未来有望在更多领域发挥作用。
|
4月前
|
监控 数据处理 调度
使用Apache Airflow进行工作流编排:技术详解与实践
【6月更文挑战第5天】Apache Airflow是开源的工作流编排平台,用Python定义复杂数据处理管道,提供直观DAGs、强大调度、丰富插件、易扩展性和实时监控。本文深入介绍Airflow基本概念、特性,阐述安装配置、工作流定义、调度监控的步骤,并通过实践案例展示如何构建数据获取、处理到存储的工作流。Airflow简化了复杂数据任务管理,适应不断发展的数据技术需求。

推荐镜像

更多