开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

基于 Hive 的数据仓库主要存在哪些痛点?

已解决

基于 Hive 的数据仓库主要存在哪些痛点?

展开
收起
游客lmkkns5ck6auu 2022-08-31 10:41:28 930 0
2 条回答
写回答
取消 提交回答
  • 推荐回答

    基于 Hive 的数据仓库主要存在以下几个痛点: • 首先是时效性,目前基于 Hive 的数仓绝大部分是 t+1,数据产生后至少要一个小时才能在数仓中查询到。 随着公司整体技术能力的提升,很多场景对数据的时效性要求越来越高,比如需要准实时的样本数据来

    支持模型训练,需要准实时的多维分析来帮助排查点击率下降的根因; • 其次是 Hive 2.0 无法支持 upsert 需求,业务库数据入仓只能 t+1 全量同步,数据修正成本很高,同时不支持 upsert 意味着存储层面无法实现批流一体;

    • 最后 Hive 的 Schema 属于写入型,一旦数据写入之后 Schema 就难以变更

    以上内容摘自《Apache Flink 案例集(2022版)》电子书,点击https://developer.aliyun.com/ebook/download/7718 可下载完整版

    2022-08-31 12:45:24
    赞同 展开评论 打赏
  • sf

    hive的数据仓缺点非常明显,就是效率比较低,比如一些场景自动生成MapReduce时候,通常情况下是不够智能化的;其次hive的调优比较困难、粒度较粗、在数据挖掘时不擅长以及迭代式算法的表达都是不太好的。

    2022-08-31 10:46:28
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关电子书

更多
PostgresChina2018_陶征霖_新一代数据仓库OushuDB架构剖析 立即下载
MaxCompute数据仓库数据转换实践 立即下载
基于数加的大数据仓库解决方案 立即下载