【数据架构】面向初创公司的现代数据堆栈

简介: 【数据架构】面向初创公司的现代数据堆栈

“为工作使用正确的工具!”

这句话一开始听起来很简单,但在实际方面实施起来却非常复杂。

早期的初创公司发现很难选择生态系统中可用的各种工具,因为它们的数据将如何演变是非常不可预测的。

需要现代数据堆栈

在过去 10 年中,软件行业在以下方面有所增长:

  • 计算能力:AWS、Google Cloud 等公共云提供商以标准市场成本提供巨大的计算能力。
  • 数据源:物联网生态系统、智能设备的兴起导致每天产生的数据量呈指数级增长。2020 年,地球上的每个人每秒产生约 1.7MB 的数据。
  • 业务利益相关者的数据素养:在原始软件行业,分析师过去常常手动挖掘 excel 电子表格,以获得有关数据的一些有价值的见解。如今,事实证明,许多 BI 工具在利用数据的力量和提供有价值的见解方面很有用,从而在业务利益相关者中培养了素养。
  • 数据项目中的开源采用:在过去的 10 年中,行业已经看到开源社区的巨大增长。许多很酷的数据工具(~Apache Airflow、DBT、Metabase)在开源社区中蓬勃发展和发展。

从传统 ETL 到现代 ELT 的转变

在这个现代时代,大多数企业都在利用数据驱动的解决方案,我们看到了从原始的遗留 ETL 架构向 ELT 架构的一致转变。

由于以下原因,现代 ELT 处理比传统 ETL 更受欢迎:

  • 便宜、实惠且高效的云存储和分析服务。
  • 传统 ETL 管道没有那么灵活,无法根据指数数据增长轻松适应。
  • 与传统 ETL 相比,现代 ELT 速度更快,因为在将数据加载到仓库之前不涉及严格的转换阶段。
  • 鉴于不需要用户定义的转换,ELT 工具非常擅长将源数据简单地插入目标系统,而用户的手动工作最少。
  • 分析师可以根据需要使用 DBT 等工具对仓库中的数据执行转换,而无需事先考虑洞察力和数据类型。

初创公司的采用策略

正如本博客前面提到的,初创公司很难预测数据的演变,他们将要应对。

因此,早期初创公司在为其数据堆栈选择工具时应考虑以下事项:

  • 其他初创公司和客户的高采用率和意识。
  • 这适合数据堆栈的 ELT 模型。
  • 数据库范式(例如结构化、地理空间、实体关系、搜索引擎),适合存储和查询其领域和市场产生的数据的要求。
  • 付费 SaaS 工具的等效开源替代品。

提取和加载

从所有事件源(如 Web、应用程序、后端服务)收集数据,并将它们发送到数据仓库。

  • 付费 SaaS 工具:Stitch、Fivetran
  • 免费和开源替代品:Singer、Meltano、Airbyte

数据仓库

组织所有数据的结构化、非易失性、单一事实来源,我们可以在其中存储和查询所有数据。

  • 付费:AWS Redshift、Google BigQuery、Snowflake
  • 免费和开源替代品:Apache Druid

转换和建模

使用文档从原始数据创建模型以更好地使用。

  • 付费:Dataform、DBT
  • 免费和开源替代品:Talend Open Studio、Apache NiFi

编排

用于执行和编排处理数据流的作业的软件。

  • 付费:Prefect.io
  • 免费和开源替代品:Apache Airflow、Dagster

可视化和分析

为了更好地了解和解释来自不同数据源的数据。

  • 付费:Tableau、Microsoft PowerBI、Grafana
  • 免费和开源替代品:Metabase、D3js、DyGraphs
相关文章
|
4月前
|
存储 BI Shell
Doris基础-架构、数据模型、数据划分
Apache Doris 是一款高性能、实时分析型数据库,基于MPP架构,支持高并发查询与复杂分析。其前身是百度的Palo项目,现为Apache顶级项目。Doris适用于报表分析、数据仓库构建、日志检索等场景,具备存算一体与存算分离两种架构,灵活适应不同业务需求。它提供主键、明细和聚合三种数据模型,便于高效处理更新、存储与统计汇总操作,广泛应用于大数据分析领域。
437 2
|
3月前
|
数据采集 缓存 前端开发
如何开发门店业绩上报管理系统中的商品数据板块?(附架构图+流程图+代码参考)
本文深入讲解门店业绩上报系统中商品数据板块的设计与实现,涵盖商品类别、信息、档案等内容,详细阐述技术架构、业务流程、数据库设计及开发技巧,并提供完整代码示例,助力企业构建稳定、可扩展的商品数据系统。
|
4月前
|
SQL 缓存 前端开发
如何开发进销存系统中的基础数据板块?(附架构图+流程图+代码参考)
进销存系统是企业管理采购、销售与库存的核心工具,能有效提升运营效率。其中,“基础数据板块”作为系统基石,决定了后续业务的准确性与扩展性。本文详解产品与仓库模块的设计实现,涵盖功能概述、表结构设计、前后端代码示例及数据流架构,助力企业构建高效稳定的数字化管理体系。
|
2月前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
119 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
|
2月前
|
JSON 供应链 监控
1688商品详情API技术深度解析:从接口架构到数据融合实战
1688商品详情API(item_get接口)可通过商品ID获取标题、价格、库存、SKU等核心数据,适用于价格监控、供应链管理等场景。支持JSON格式返回,需企业认证。Python示例展示如何调用接口获取商品信息。
|
3月前
|
数据采集 监控 数据可视化
数据量暴涨时,抓取架构该如何应对?——豆瓣电影案例调研
本案例讲述了在豆瓣电影数据采集过程中,面对数据量激增和限制机制带来的挑战,如何通过引入爬虫代理、分布式架构与异步IO等技术手段,实现采集系统的优化与扩展,最终支撑起百万级请求的稳定抓取。
112 0
数据量暴涨时,抓取架构该如何应对?——豆瓣电影案例调研
|
4月前
|
数据采集 存储 分布式计算
一文读懂数据中台架构,高效构建企业数据价值
在数字化时代,企业面临数据分散、难以统一管理的问题。数据中台架构通过整合、清洗和管理数据,打破信息孤岛,提升决策效率。本文详解其核心组成、搭建步骤及常见挑战,助力企业高效用数。
1365 24
|
3月前
|
缓存 前端开发 BI
如何开发门店业绩上报管理系统中的门店数据板块?(附架构图+流程图+代码参考)
门店业绩上报管理是将门店营业、动销、人效等数据按标准化流程上报至企业中台或BI系统,用于考核、分析和决策。其核心在于构建“数据底座”,涵盖门店信息管理、数据采集、校验、汇总与对接。实现时需解决数据脏、上报慢、分析无据等问题。本文详解了实现路径,包括系统架构、数据模型、业务流程、开发要点、三大代码块(数据库、后端、前端)及FAQ,助你构建高效门店数据管理体系。
|
3月前
|
SQL 数据采集 数据处理
终于有人把数据架构讲清楚了!
本文深入浅出地解析了数据架构的核心逻辑,涵盖其定义、作用、设计方法及常见误区,助力读者构建贴合业务的数据架构。
|
7月前
|
存储 运维 Serverless
千万级数据秒级响应!碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践
碧桂园服务通过引入 EMR Serverless StarRocks 存算分离架构,解决了海量数据处理中的资源利用率低、并发能力不足等问题,显著降低了硬件和运维成本。实时查询性能提升8倍,查询出错率减少30倍,集群数据 SLA 达99.99%。此次技术升级不仅优化了用户体验,还结合AI打造了“一看”和“—问”智能场景助力精准决策与风险预测。
602 69

热门文章

最新文章

下一篇
开通oss服务