Apache Doris Broker快速体验之Hadoop安装部署(1)1

简介: Apache Doris Broker快速体验之Hadoop安装部署(1)1

Apache Doris Broker快速体验之Hadoop安装部署(1)

环境信息

VM镜像及Hadoop版本说明。

硬件信息

  1. 1.CPU :4C
  2. 2.CPU型号:ARM64
  3. 3.内存 :10GB
  4. 4.硬盘 :66GB SSD

软件信息

  1. 1.VM镜像版本 :CentOS-7
  2. 2.Hadoop版本:3.3.4

前置准备

防火墙关闭

#查看防火墙状态 
systemctl status firewalld
#关闭防火墙 
systemctl stop firewalld 

新增hadoop用户

#新增hadoop用户
useradd hadoop
passwd hadoop
#hadoop用户新增sudo权限 
vi /etc/sudoers
#在root    ALL=(ALL)       ALL下加入一行
hadoop    ALL=(ALL)       ALL

Hadoop安装部署

#创建安装目录
mkdir -p /usr/hadoop
#进入到安装目录
cd /usr/hadoop
#根据需要选择版本:https://dlcdn.apache.org/hadoop/common/
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
#解压
tar -zxvf hadoop-3.3.4.tar.gz 
#重置路径
mv hadoop-3.3.4/* ./
#清除压缩包
rm -rf hadoop-3.3.4*

Hadoop初始化

配置环境变量

 vi /etc/profile
#hadoop
export HADOOP_HOME=/usr/hadoop
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
source /etc/profile

配置JAVA环境

vim ./etc/hadoop/hadoop-env.sh
#新增java home
JAVA_HOME=/usr/local/java/jdk1.8.0_361

配置 core-site.xml 配置文件

vim ./etc/hadoop/core-site.xml 
#在配置文件中添加:hdfs 的数据访问地址和设置临时数据存放目录
<configuration>
 <property>
  <name>fs.defaultFS</name>
  <value>hdfs://doris:9000</value>
 </property>
 <property>
  <name>hadoop.tmp.dir</name>
  <value>/home/hadoop_data/tmp</value>
 </property>
</configuration>
#后续需要创建对应hadoop级别的目录

配置 hdfs-site.xml 配置文件

vim ./etc/hadoop/hdfs-site.xml
#在配置文件添加:文件副本数量、
#hdfs 的 namenode 数据存储目录、
#hdfs 的 datanode 数据 存储目录、hdfs 的 web 访问地址
<configuration>
 <property>
  <name>dfs.replication</name>
  <value>1</value>
 </property>
 <property>
  <name>dfs.namenode.name.dir</name>
  <value>/home/hadoop_data/dfs/nn</value>
 </property>
 <property>
  <name>dfs.datanode.data.dir</name>
  <value>/home/hadoop_data/dfs/dn</value>
 </property>
 <property>
  <name>dfs.namenode.http-address</name>
  <value>0.0.0.0:50070</value>
 </property>
</configuration>

配置 yarn-site.xml 配置文件

vim ./etc/hadoop/yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
 <property>
  <name>yarn.resourcemanager.hostname</name>
  <value>doris</value>
 </property>
 <property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
 </property>
<!-- 避免与doris的一些默认端口冲突 -->
 <property>  
  <name>yarn.resourcemanager.scheduler.address</name>  
  <value>doris:8035</value>  
 </property> 
 <property>  
   <name>yarn.nodemanager.localizer.address</name>  
   <value>doris:8046</value>  
 </property>  
</configuration>

配置 mapred.site.xml 配置文件

#在配置文件中添加:mapreduce 框架名字、mapreduce 历史任务地址、
#mapreduce 历史任务 web 访问地址
<configuration>
 <property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
 </property>
 <property>
  <name>mapreduce.jobhistory.address</name>
  <value>doris:10020</value>
 </property>
 <property>
  <name>mapreduce.jobhistory.webapp.address</name>
  <value>doris:19888</value>
 </property>
</configuration>

配置 workers 文件

vim ./etc/hadoop/workers
#在配置文件里面添加 datanode 数据节点的主机名 
doris


相关文章
|
7月前
|
消息中间件 OLAP Kafka
Apache Doris 实时更新技术揭秘:为何在 OLAP 领域表现卓越?
Apache Doris 为何在 OLAP 领域表现卓越?凭借其主键模型、数据延迟、查询性能、并发处理、易用性等多方面特性的表现,在分析领域展现了独特的实时更新能力。
689 9
|
6月前
|
存储 自然语言处理 分布式计算
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
Apache Doris 3.1 正式发布!全面升级半结构化分析,支持 VARIANT 稀疏列与模板化 Schema,提升湖仓一体能力,增强 Iceberg/Paimon 集成,优化存储引擎与查询性能,助力高效数据分析。
840 4
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
|
7月前
|
存储 分布式计算 Apache
湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃
小米通过将 Apache Doris(数据库)与 Apache Paimon(数据湖)深度融合,不仅解决了数据湖分析的性能瓶颈,更实现了 “1+1>2” 的协同效应。在这些实践下,小米在湖仓数据分析场景下获得了可观的业务收益。
1286 9
湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃
|
7月前
|
人工智能 运维 监控
智能运维与数据治理:基于 Apache Doris 的 Data Agent 解决方案
本文基于 Apache Doris 数据运维治理 Agent 展开讨论,如何让 AI 成为 Doris 数据运维工程师和数据治理专家的智能助手,并在某些场景下实现对人工操作的全面替代。这种变革不仅仅是技术层面的进步,更是数据运维治理思维方式的根本性转变:从“被动响应”到“主动预防”,从“人工判断”到“智能决策”,从“孤立处理”到“协同治理”。
1175 11
智能运维与数据治理:基于 Apache Doris 的 Data Agent 解决方案
|
6月前
|
SQL 人工智能 数据挖掘
Apache Doris 4.0 AI 能力揭秘(二):为企业级应用而生的 AI 函数设计与实践
Apache Doris 4.0 原生集成 LLM 函数,将大语言模型能力深度融入 SQL 引擎,实现文本处理智能化与数据分析一体化。通过十大函数,支持智能客服、内容分析、金融风控等场景,提升实时决策效率。采用资源池化管理,保障数据一致性,降低传输开销,毫秒级完成 AI 分析。结合缓存复用、并行执行与权限控制,兼顾性能、成本与安全,推动数据库向 AI 原生演进。
627 0
Apache Doris 4.0 AI 能力揭秘(二):为企业级应用而生的 AI 函数设计与实践
|
5月前
|
人工智能 数据处理 API
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
Apache Flink Agents 是由阿里云、Ververica、Confluent 与 LinkedIn 联合推出的开源子项目,旨在基于 Flink 构建可扩展、事件驱动的生产级 AI 智能体框架,实现数据与智能的实时融合。
946 6
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
|
存储 Cloud Native 数据处理
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
本文整理自阿里云资深技术专家、Apache Flink PMC 成员梅源在 Flink Forward Asia 新加坡 2025上的分享,深入解析 Flink 状态管理系统的发展历程,从核心设计到 Flink 2.0 存算分离架构,并展望未来基于流批一体的通用增量计算方向。
488 0
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
|
7月前
|
SQL 人工智能 数据挖掘
Apache Flink:从实时数据分析到实时AI
Apache Flink 是实时数据处理领域的核心技术,历经十年发展,已从学术项目成长为实时计算的事实标准。它在现代数据架构中发挥着关键作用,支持实时数据分析、湖仓集成及实时 AI 应用。随着 Flink 2.0 的发布,其在流式湖仓、AI 驱动决策等方面展现出强大潜力,正推动企业迈向智能化、实时化的新阶段。
872 9
Apache Flink:从实时数据分析到实时AI
|
7月前
|
SQL 人工智能 API
Apache Flink 2.1.0: 面向实时 Data + AI 全面升级,开启智能流处理新纪元
Apache Flink 2.1.0 正式发布,标志着实时数据处理引擎向统一 Data + AI 平台迈进。新版本强化了实时 AI 能力,支持通过 Flink SQL 和 Table API 创建及调用 AI 模型,新增 Model DDL、ML_PREDICT 表值函数等功能,实现端到端的实时 AI 工作流。同时增强了 Flink SQL 的流处理能力,引入 Process Table Functions(PTFs)、Variant 数据类型,优化流式 Join 及状态管理,显著提升作业稳定性与资源利用率。
765 0
|
6月前
|
人工智能 运维 Java
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
本文基于Apache Flink PMC成员宋辛童在Community Over Code Asia 2025的演讲,深入解析Flink Agents项目的技术背景、架构设计与应用场景。该项目聚焦事件驱动型AI智能体,结合Flink的实时处理能力,推动AI在工业场景中的工程化落地,涵盖智能运维、直播分析等典型应用,展现其在AI发展第四层次——智能体AI中的重要意义。
2187 27
Flink Agents:基于Apache Flink的事件驱动AI智能体框架

相关实验场景

更多

推荐镜像

更多