欧洲数字化养殖平台 Herdwatch 借力 Iceberg + StarRocks 提升分析能力

简介: 开源无国界,在本期“StarRocks 全球用户精选案例”专栏中,我们将介绍欧洲数字化养殖管理平台 Herdwatch。Herdwatch 以用户体验为核心,致力于为欧洲各地的农场主提供一站式服务。通过简便直观的操作,农场主不仅可以轻松完成牲畜记录与合规管理,还能集中追踪健康、用药计划和产能等核心数据,从而基于完整信息做出更科学、更高效的决策,全面提升运营效率。目前,这一平台已在全球超过 20,000 个农场和牧场中应用。本文将聚焦 Herdwatch 在构建现代化数据平台的探索历程,重点介绍其如何借助 Apache Iceberg 与 StarRocks,实现性能提升、成本优化与治理完善

1.png

作者:Alfred Johnson,Herdwatch 数据负责人

导读:

开源无国界,在本期“StarRocks 全球用户精选案例”专栏中,我们将介绍欧洲数字化养殖管理平台 Herdwatch。

Herdwatch 以用户体验为核心,致力于为欧洲各地的农场主提供一站式服务。通过简便直观的操作,农场主不仅可以轻松完成牲畜记录与合规管理,还能集中追踪健康、用药计划和产能等核心数据,从而基于完整信息做出更科学、更高效的决策,全面提升运营效率。目前,这一平台已在全球超过 20,000 个农场和牧场中应用。

本文将聚焦 Herdwatch 在构建现代化数据平台的探索历程,重点介绍其如何借助 Apache Iceberg 与 StarRocks,实现性能提升、成本优化与治理完善。


随着业务从爱尔兰和英国逐步拓展至更多国家,Herdwatch 需要一套能够统一管理、灵活扩展的数据平台,既能为客户提供实时洞察,又能支撑日益增长的分析需求。

挑战:数据割裂与仪表盘迟缓

在早期阶段,我们的分析工作负载依赖于分区域部署的 MySQL RDS 数据库,最初能够满足需求,但很快就暴露出明显问题:

  • 数据割裂:各区域数据库相互独立,用户必须切换多个仪表盘才能获取信息,难以实现统一报表分析。
  • 性能瓶颈:仪表盘在查询 RDS 只读副本时响应迟缓,常常超时,且缺乏扩展能力,无法满足客户对实时仪表盘的需求。

这些问题让我们意识到,是时候对现有架构进行一次彻底升级了。

探索 Apache Iceberg:打破数据孤岛

为了解决数据割裂与性能瓶颈,我们决定以 Apache Iceberg 为核心,重构数据基础架构。借助 Iceberg,可以将分散在各区域的数据统一整合,构建一个可扩展、高效的数据分析体系。

在引入 Iceberg 后,我们逐步搭建起湖仓一体架构,其中包括:

  • 集中式数据湖:所有区域的数据管道统一写入 AWS S3 上的 Iceberg 表,形成唯一可信的数据源。
  • 分层 ETL 管道:借助 AWS Glue 与 DBT,将原始数据加工为铜、银、金三层结构,确保数据在转换与聚合过程中得到充分优化。

探索 Athena:成效有限

在引入 Iceberg 之后,我们首先尝试使用 AWS Athena 作为查询引擎。其无服务器模式让我们能够快速上手,但很快暴露出如下问题:

  • 高延迟:仪表盘加载通常需要 2–5 分钟,无法满足面向客户的交互式分析需求。
  • 可控性不足:无服务器架构几乎没有可调优空间,限制了查询优化。
  • 成本高:在高频、复杂查询场景下,按扫描量计费的模式使成本越来越高。

很显然,我们需要找到一个更高效的方案,来兼顾性能与成本。

解决方案:构建现代化数据栈

于是,我们引入了 StarRocks —— 一款专为面向客户的分析场景打造的湖仓查询引擎,兼容 Apache Iceberg 与 Delta Lake 等开放表格式。经过充分验证,我们最终确定采用 Iceberg + StarRocks 的现代化架构,全面应对分析挑战:

  • 集中式数据湖:各区域数据管道统一汇入 AWS S3 上的 Iceberg 数据湖。
  • ETL 数据管道:借助 AWS Glue 与 DBT,将数据加工为铜、银、金三层,便于数据聚合与优化。
  • StarRocks 作为查询层:在金层数据之上,StarRocks 显著提升查询性能,同时支持内部 BI 工具和面向客户的应用。
  • 物化视图:对复杂查询进行预聚合,确保最佳性能。
  • 面向客户的仪表盘:通过 MySQL 兼容 API 直连 StarRocks,实现亚秒级响应。

成果:更快的分析、更低的成本、更完善的治理

凭借 StarRocks 多仓支持和高级安全控制等功能,新架构带来了显著提升:

统一分析

  • 将各区域的数据集整合为单一可信源,实现统一报表与简化治理。
  • 消除了区域化仪表盘的复杂性。
  • 同时流畅支持面向客户的仪表盘和内部 BI 场景。

性能提升

  • 查询延迟从 Athena 的 2–5 分钟降低至 StarRocks 的 700 毫秒–1.5 秒。
  • 多查询页面的仪表盘实现亚秒级加载。

成本节约

  • 从 Athena 的“按扫描计费模式”转向 StarRocks 的缓存能力,大幅减少 S3 扫描成本。
  • 借助物化视图优化计算资源,降低临时 Join 的需求。

可扩展性

  • 支持数百万条畜牧业记录、覆盖数千个农场的分析,并具备进一步扩展空间。

运维效率

  • 通过 Iceberg 与 StarRocks 的 MySQL 兼容性,实现架构统一,降低维护成本
  • 借助集中化的数据治理与血缘关系管理,简化开发者上手过程。

未来规划

展望未来,我们将继续拓展分析能力,重点方向包括:

  • IoT 集成:引入可穿戴畜牧设备的实时遥测数据,实时洞察牲畜健康、位置和生产力。
  • 直接查询 Iceberg:探索 StarRocks 直接查询 Iceberg 表的能力,进一步简化架构并降低延迟。
  • 高级应用场景:扩展支持更复杂的分析需求,以满足企业级客户。
相关文章
|
15天前
|
存储 SQL 大数据
告别 Count Distinct 慢查询:StarRocks 高效去重全攻略
在大数据分析中,去重计算(如 Count Distinct)因高计算开销常成为性能瓶颈,尤其在高基数和高并发场景下更为明显。本文以 StarRocks 为分析平台,深入探讨多种去重优化策略,包括使用函数、数据类型转换(如 String 转 Int)、高效数据结构(如 Bitmap 和 HLL),以及物化视图的预计算方案。通过实际案例分析,对比不同方法在性能、精度和易用性方面的优劣,帮助用户在不同业务场景下选择最合适的优化手段。此外,文章还详细解析了如何结合 SQL 查询构建物化视图,以提升去重计算效率,并讨论了精确与近似去重的适用场景。最终目标是为复杂数据分析提供高效、灵活的解决方案。
|
27天前
|
存储 弹性计算 安全
阿里云服务器2核8G与4核16G配置选购参考:价格、性能及适用场景
2核8G、4核16G配置是很多个人和企业用户搭建网站和中小型数据库系统等场景时首选的云服务器配置,现在购买2核8G配置最低年付价格只要652.32元/1年,4核16G配置短期租用可以选择月付,现在89元即可购买到经济型e实例4核16G10M带宽配置1个月,年付选择通用算力型u1实例价格为1196.64元/1年起。本文为大家解析阿里云服务器2核8G与4核16G配置的租用费用,热门实例适用场景,以供参考和选择。
|
5天前
|
运维 Linux 开发者
Linux系统中使用Python的ping3库进行网络连通性测试
以上步骤展示了如何利用 Python 的 `ping3` 库来检测网络连通性,并且提供了基本错误处理方法以确保程序能够优雅地处理各种意外情形。通过简洁明快、易读易懂、实操性强等特点使得该方法非常适合开发者或系统管理员快速集成至自动化工具链之内进行日常运维任务之需求满足。
46 18
|
5天前
|
传感器 机器学习/深度学习 监控
基于STM32的人体健康监测系统设计与实现(温度、心率、老人摔倒检测)【开源免费】
本文介绍了一个基于 STM32 微控制器 的健康监测系统,涵盖了 温度采集、心率监测、跌倒检测 等核心功能,并通过蓝牙实现数据传输与报警提醒。该系统在家庭养老、运动监控、医疗健康等场景具有广阔的应用前景。未来可以结合 AI+物联网 技术,进一步提升智能化和实用性。
|
5天前
|
关系型数据库 MySQL 数据库
MySQL用户创建及权限分配的步骤
通过以上步骤可以有效地在 MySQL 中管理不同层次、不同范围内对于数据与结构进行精确控制。
48 20
|
6天前
|
传感器 测试技术 人机交互
基于STM32的垃圾分类项目设计与实现【开源免费】
基于 STM32 的垃圾分类项目展示了如何使用微控制器、传感器和机械控制单元来实现自动化的垃圾分类。通过合理的硬件选型和模块化的软件设计,系统能够高效地完成垃圾的分类和投放任务。随着技术的发展,这样的智能垃圾分类系统将有助于提高垃圾分类的效率,为环境保护贡献力量。
|
24天前
|
SQL 存储 运维
从多引擎到统一平台:去哪儿网的 StarRocks 实践
在去哪儿网新一代数据平台架构中,StarRocks 作为统一 OLAP 引擎,替代了原有的 Trino、Presto、Druid、Impala、Kudu、Iceberg、ClickHouse 等多个引擎。如今,去哪儿网 StarRocks 集群覆盖全司业务线,支撑 7 大数据产品,集群规模达数十台,日 PV 突破百万,外表 P95 秒级、内表 P95 毫秒级,性能表现稳定高效。 本文将带你走进这一实践过程,解读架构升级背后的思路与成效。
|
26天前
|
SQL JSON 监控
JSON 日志分析的“正确姿势”:阿里云 SLS 高效实践指南
JSON 日志因灵活易扩展而广泛应用,但其海量数据也带来分析挑战。本文系统介绍阿里云日志服务(SLS)中处理 JSON 日志的最佳实践,涵盖数据预处理、索引配置、JSON 函数使用及 SQL 智能生成,助你高效挖掘日志价值。
274 23
|
7天前
|
数据采集 JSON 监控
Python高效工作必备:20个实用脚本推荐!
Python是提升效率的终极自动化利器!本文精选20个实用脚本,覆盖文件批量处理、数据清洗转换、网络爬取、邮件通知、系统监控等高频场景,每项均附完整代码,可直接复制使用。无需深厚编程基础,用几行代码就能节省数小时手动操作,让你的工作流全面自动化,轻松成为高效能人士!