Apache Doris Broker快速体验之Hadoop安装部署(1)1

本文涉及的产品
云防火墙,500元 1000GB
简介: Apache Doris Broker快速体验之Hadoop安装部署(1)1

Apache Doris Broker快速体验之Hadoop安装部署(1)

环境信息

VM镜像及Hadoop版本说明。

硬件信息

  1. 1.CPU :4C
  2. 2.CPU型号:ARM64
  3. 3.内存 :10GB
  4. 4.硬盘 :66GB SSD

软件信息

  1. 1.VM镜像版本 :CentOS-7
  2. 2.Hadoop版本:3.3.4

前置准备

防火墙关闭

#查看防火墙状态 
systemctl status firewalld
#关闭防火墙 
systemctl stop firewalld 

新增hadoop用户

#新增hadoop用户
useradd hadoop
passwd hadoop
#hadoop用户新增sudo权限 
vi /etc/sudoers
#在root    ALL=(ALL)       ALL下加入一行
hadoop    ALL=(ALL)       ALL

Hadoop安装部署

#创建安装目录
mkdir -p /usr/hadoop
#进入到安装目录
cd /usr/hadoop
#根据需要选择版本:https://dlcdn.apache.org/hadoop/common/
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
#解压
tar -zxvf hadoop-3.3.4.tar.gz 
#重置路径
mv hadoop-3.3.4/* ./
#清除压缩包
rm -rf hadoop-3.3.4*

Hadoop初始化

配置环境变量

 vi /etc/profile
#hadoop
export HADOOP_HOME=/usr/hadoop
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
source /etc/profile

配置JAVA环境

vim ./etc/hadoop/hadoop-env.sh
#新增java home
JAVA_HOME=/usr/local/java/jdk1.8.0_361

配置 core-site.xml 配置文件

vim ./etc/hadoop/core-site.xml 
#在配置文件中添加:hdfs 的数据访问地址和设置临时数据存放目录
<configuration>
 <property>
  <name>fs.defaultFS</name>
  <value>hdfs://doris:9000</value>
 </property>
 <property>
  <name>hadoop.tmp.dir</name>
  <value>/home/hadoop_data/tmp</value>
 </property>
</configuration>
#后续需要创建对应hadoop级别的目录

配置 hdfs-site.xml 配置文件

vim ./etc/hadoop/hdfs-site.xml
#在配置文件添加:文件副本数量、
#hdfs 的 namenode 数据存储目录、
#hdfs 的 datanode 数据 存储目录、hdfs 的 web 访问地址
<configuration>
 <property>
  <name>dfs.replication</name>
  <value>1</value>
 </property>
 <property>
  <name>dfs.namenode.name.dir</name>
  <value>/home/hadoop_data/dfs/nn</value>
 </property>
 <property>
  <name>dfs.datanode.data.dir</name>
  <value>/home/hadoop_data/dfs/dn</value>
 </property>
 <property>
  <name>dfs.namenode.http-address</name>
  <value>0.0.0.0:50070</value>
 </property>
</configuration>

配置 yarn-site.xml 配置文件

vim ./etc/hadoop/yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
 <property>
  <name>yarn.resourcemanager.hostname</name>
  <value>doris</value>
 </property>
 <property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
 </property>
<!-- 避免与doris的一些默认端口冲突 -->
 <property>  
  <name>yarn.resourcemanager.scheduler.address</name>  
  <value>doris:8035</value>  
 </property> 
 <property>  
   <name>yarn.nodemanager.localizer.address</name>  
   <value>doris:8046</value>  
 </property>  
</configuration>

配置 mapred.site.xml 配置文件

#在配置文件中添加:mapreduce 框架名字、mapreduce 历史任务地址、
#mapreduce 历史任务 web 访问地址
<configuration>
 <property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
 </property>
 <property>
  <name>mapreduce.jobhistory.address</name>
  <value>doris:10020</value>
 </property>
 <property>
  <name>mapreduce.jobhistory.webapp.address</name>
  <value>doris:19888</value>
 </property>
</configuration>

配置 workers 文件

vim ./etc/hadoop/workers
#在配置文件里面添加 datanode 数据节点的主机名 
doris


相关文章
|
2月前
|
消息中间件 OLAP Kafka
Apache Doris 实时更新技术揭秘:为何在 OLAP 领域表现卓越?
Apache Doris 为何在 OLAP 领域表现卓越?凭借其主键模型、数据延迟、查询性能、并发处理、易用性等多方面特性的表现,在分析领域展现了独特的实时更新能力。
199 9
|
10天前
|
存储 自然语言处理 分布式计算
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
Apache Doris 3.1 正式发布!全面升级半结构化分析,支持 VARIANT 稀疏列与模板化 Schema,提升湖仓一体能力,增强 Iceberg/Paimon 集成,优化存储引擎与查询性能,助力高效数据分析。
112 3
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
|
6天前
|
SQL 人工智能 数据挖掘
Apache Doris 4.0 AI 能力揭秘(二):为企业级应用而生的 AI 函数设计与实践
Apache Doris 4.0 原生集成 LLM 函数,将大语言模型能力深度融入 SQL 引擎,实现文本处理智能化与数据分析一体化。通过十大函数,支持智能客服、内容分析、金融风控等场景,提升实时决策效率。采用资源池化管理,保障数据一致性,降低传输开销,毫秒级完成 AI 分析。结合缓存复用、并行执行与权限控制,兼顾性能、成本与安全,推动数据库向 AI 原生演进。
41 0
Apache Doris 4.0 AI 能力揭秘(二):为企业级应用而生的 AI 函数设计与实践
|
2月前
|
存储 分布式计算 Apache
湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃
小米通过将 Apache Doris(数据库)与 Apache Paimon(数据湖)深度融合,不仅解决了数据湖分析的性能瓶颈,更实现了 “1+1>2” 的协同效应。在这些实践下,小米在湖仓数据分析场景下获得了可观的业务收益。
369 9
湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃
|
2月前
|
人工智能 运维 监控
智能运维与数据治理:基于 Apache Doris 的 Data Agent 解决方案
本文基于 Apache Doris 数据运维治理 Agent 展开讨论,如何让 AI 成为 Doris 数据运维工程师和数据治理专家的智能助手,并在某些场景下实现对人工操作的全面替代。这种变革不仅仅是技术层面的进步,更是数据运维治理思维方式的根本性转变:从“被动响应”到“主动预防”,从“人工判断”到“智能决策”,从“孤立处理”到“协同治理”。
279 11
智能运维与数据治理:基于 Apache Doris 的 Data Agent 解决方案
|
24天前
|
人工智能 运维 Java
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
本文基于Apache Flink PMC成员宋辛童在Community Over Code Asia 2025的演讲,深入解析Flink Agents项目的技术背景、架构设计与应用场景。该项目聚焦事件驱动型AI智能体,结合Flink的实时处理能力,推动AI在工业场景中的工程化落地,涵盖智能运维、直播分析等典型应用,展现其在AI发展第四层次——智能体AI中的重要意义。
322 27
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
|
10月前
|
存储 人工智能 大数据
The Past, Present and Future of Apache Flink
本文整理自阿里云开源大数据负责人王峰(莫问)在 Flink Forward Asia 2024 上海站主论坛开场的分享,今年正值 Flink 开源项目诞生的第 10 周年,借此时机,王峰回顾了 Flink 在过去 10 年的发展历程以及 Flink社区当前最新的技术成果,最后展望下一个十年 Flink 路向何方。
684 33
The Past, Present and Future of Apache Flink
|
12月前
|
SQL Java API
Apache Flink 2.0-preview released
Apache Flink 社区正积极筹备 Flink 2.0 的发布,这是自 Flink 1.0 发布以来的首个重大更新。Flink 2.0 将引入多项激动人心的功能和改进,包括存算分离状态管理、物化表、批作业自适应执行等,同时也包含了一些不兼容的变更。目前提供的预览版旨在让用户提前尝试新功能并收集反馈,但不建议在生产环境中使用。
1495 13
Apache Flink 2.0-preview released
|
7月前
|
SQL 存储 人工智能
Apache Flink 2.0.0: 实时数据处理的新纪元
Apache Flink 2.0.0 正式发布!这是自 Flink 1.0 发布九年以来的首次重大更新,凝聚了社区两年的努力。此版本引入分离式状态管理、物化表、流批统一等创新功能,优化云原生环境下的资源利用与性能表现,并强化了对人工智能工作流的支持。同时,Flink 2.0 对 API 和配置进行了全面清理,移除了过时组件,为未来的发展奠定了坚实基础。感谢 165 位贡献者的辛勤付出,共同推动实时计算进入新纪元!
823 1
Apache Flink 2.0.0: 实时数据处理的新纪元

相关实验场景

更多

推荐镜像

更多