实战|StarRocks 通过 JDBC Catalog 访问 MongoDB 的数据

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
简介: 本文章介绍如何通过 StarRocks 的 JDBC Catalog 功能,结合 MongoDB BI Connector,将 MongoDB 数据便捷接入 StarRocks,实现数据打通和 SQL 查询分析,以下是整体流程图。

0.jpg

方案介绍

本文档介绍如何通过 StarRocks 的 JDBC Catalog 功能,结合 MongoDB BI Connector,将 MongoDB 数据便捷接入 StarRocks,实现数据打通和 SQL 查询分析,以下是整体流程图。

前提条件

  • StarRocks 环境:版本 ≥ 3.0,支持 JDBC Catalog 功能。
  • MongoDB BI Connector:已安装并运行,版本需与 MongoDB 兼容(参考 MongoDB 官方文档)。
  • MySQL JDBC 驱动:推荐使用版本 5.1.X
  • MongoDB 权限:MongoDB 用户需具有目标数据库和集合的读取权限。
  • 网络环境:StarRocks 的 FE(前端)和 BE(后端)/CN(计算节点)需能访问 MongoDB BI Connector 的服务地址(默认端口 3307)。
  • 工具
    MongoDB BI Connector(mongosqld):将 MongoDB 数据转换为 SQL 兼容的格式,允许使用 MySQL JDBC 驱动进行连接
    MySQL JDBC 驱动(5.1.47)

如需使用认证:安装 MongoDB JDBC 认证插件(mongosql-auth-1.0.0-rc0.jar)

DEMO案例

本 demo 使用的版本,StarRocks 企业版本3.3.13, MongoDB 版本 MongoDB 7.0.22 Community Edition

准备工作

1 部署 StarRocks 集群

1.1 参考官网 StarRocks 部署文档:https://docs.starrocks.io/zh/docs/deployment/deploy_manually/

1.2 将 jdbc 驱动包 mysql-connector-java-5.1.49.jar 放在 StarRocks 的 FE 和 BE 的固定路径下,注意文件访问权限

2 部署 MongoDB 单机

2.1 下载 MongoDB 7.0.20 版本

wget https://repo.mongodb.org/yum/redhat/7/mongodb-org/7.0/x86_64/RPMS/mongodb-org-server-7.0.20-1.el7.x86_64.rpm

安装 Mongosh

wget https://downloads.mongodb.com/compass/mongodb-mongosh-2.5.1.x86_64.rpm

2.2 安装 MongoDB

rpm -ivh  mongodb-org-server-7.0.20-1.el7.x86_64.rpm

Tips: 如果是非 root 用户安装,需要提前创建好目录,MongoDB 默认将数据存储在 /var/lib/mongo,日志存储在 /var/log/mongodb,并确保这些目录存在且有权限

2.3 检查 MongoDB 配置文件

RPM 安装会自动生成默认配置文件 /etc/mongod.conf, 可以根据需要编辑此文件(例如,修改 bindIp 或 dbPath)

2.4 启动 MongoDB

sudo systemctl start mongod

验证是否启动

mongosh
Run in the mongosh shell: db.version()

2.5 创建测试数据库,插入数据

# 创建数据库
use student
# 插入数据
db.myCollection.insertOne({
  name: "John Doe",
  age: 30,
  city: "Beijing"
})
# 查询数据
db.myCollection.find().pretty()

2.6 其他操作

停止:sudo systemctl stop mongod
重启:sudo systemctl restart mongod

3安装 MongoDB BI Connector

3.1 下载 MongoDB BI Connector

wget  https://info-mongodb-com.s3.amazonaws.com/mongodb-bi/v2/mongodb-bi-linux-x86_64-rhel70-v2.14.23.tgz

3.2 配置文件

创建配置文件: 创建 /etc/mongosqld.conf

systemLog:
  path: '/logs/mongosqld.log'
mongodb:
  net:
    uri: 'mongodb://127.0.0.1:27017'
net:
  bindIp: '127.0.0.1'
  port: 3307

注意避开服务器上已被占用的端口

3.3 启动 BI Connector

启动方式有三种,推荐作为服务启动,参考官网:https://www.mongodb.com/zh-cn/docs/bi-connector/current/launch/

BI Connector 作为系统服务运行时,需要指定 mongosqld.systemLog.path 设置的配置文件。使用首选文本编辑器,创建 mongosqld.conf 文件。要查看配置文件选项,请参阅配置文件。例如:

systemLog:
  path: '/logs/mongosqld.log'
net:
  bindIp: '172.26.95.165'
  port: 3307

启动服务

sudo mongosqld install --config mongosqld.conf
sudo systemctl start mongosql.service
# 要启用该服务以使其在启动时自动启动,请运行以下命令
systemctl enable mongosql.service

3.4 检验状态

sudo systemctl status mongosqld

3.5 测试 JDBC 连接

mysql -h 172.26.95.165 -P 3307 -uadmin

4 在 StarRocks 中创建 MongoDB 的 JDBC Catalog

CREATE EXTERNAL CATALOG mongodb_bi_catalog
PROPERTIES (
    "type" = "jdbc",
    "user" = "admin",
    "password" = "123456",
    "jdbc_uri" = "jdbc:mysql://172.26.95.165:3307/student",
    "driver_url" = "file:///home/disk1/sr/mysql-connector-java-5.1.49.jar",
    "driver_class" = "com.mysql.cj.jdbc.Driver"
);

方案优势

用户可以利用 StarRocks 湖仓的特性很方便的访问 MongoDB 的数据,并且兼容 MySQL 语法,使用门槛低,对用户友好

相关文章
|
3月前
《仿盒马》app开发技术分享-- 兑换商品收货确认&已完成列表展示(79)
上一节我们实现了兑换商品订单的确认揽收功能,实现了tabs切换时的数据刷新,实现了待收货订单的列表展示。这一节我们要实现确认收货功能,并且实现待收货的列表展示功能
74 0
大模型应用开发-LangChain入门教程
大模型应用开发-LangChain入门教程
459 0
|
Java
Java实现图片转化为pdf
Java实现图片转化为pdf
653 0
|
搜索推荐 前端开发 JavaScript
什么是百度优化?百度SEO优化解决方案
百度优化的解决方案不仅可以帮助企业提升网站在百度PC端的收录与关键词排名,也可以获得更好的移动端收录与关键词排名,从而达到品牌SEO推广及引流的目的。接下来小编为你详细分享什么是百度优化以及实用的解决方案,一起来看看吧。
1478 0
|
7月前
|
Apache
Qwen2.5-Coder: 码无止境,学无止境!
Qwen2.5-Coder: 码无止境,学无止境!
|
存储 运维 关系型数据库
探索 Apache Paimon 在阿里智能引擎的应用场景
本文整理自Apache Yarn && Flink Contributor,阿里巴巴智能引擎事业部技术专家王伟骏(鸿历)老师在 5月16日 Streaming Lakehouse Meetup · Online 上的分享。
25950 34
探索 Apache Paimon 在阿里智能引擎的应用场景
|
11月前
|
机器学习/深度学习 人工智能 算法
Agent Q:具备自我学习、评估的智能体
近年来,人工智能领域取得了显著进步,特别是智能体技术备受瞩目。智能体作为AI系统核心,能自主学习、决策和执行任务,应用广泛。Agent Q作为一种具备自我学习和评估能力的智能体,通过强化学习算法,能自动优化行为策略,适应复杂环境,无需人工干预。此外,它还能根据评估指标调整策略,持续提升任务完成质量。尽管存在复杂环境适应性和计算资源消耗等挑战,Agent Q仍为智能机器人、自动驾驶等领域的应用提供了新思路,推动了AI技术的发展。论文详细内容可在此处获取:https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf
345 1
Hive学习---4、函数(单行函数、高级聚合函数、炸裂函数、窗口函数)(二)
Hive学习---4、函数(单行函数、高级聚合函数、炸裂函数、窗口函数)(二)
|
消息中间件 负载均衡 Kafka
Kafka 实现负载均衡与故障转移:深入分析 Kafka 的架构特点与实践
【8月更文挑战第24天】Apache Kafka是一款专为实时数据处理和流传输设计的高性能消息系统。其核心设计注重高吞吐量、低延迟与可扩展性,并具备出色的容错能力。Kafka采用分布式日志概念,通过数据分区及副本机制确保数据可靠性和持久性。系统包含Producer(消息生产者)、Consumer(消息消费者)和Broker(消息服务器)三大组件。Kafka利用独特的分区机制实现负载均衡,每个Topic可以被划分为多个分区,每个分区可以被复制到多个Broker上,确保数据的高可用性和可靠性。
474 2
|
SQL 分布式计算 数据库
离线数仓--大数据技术之DolphinScheduler
离线数仓--大数据技术之DolphinScheduler
1030 2