基于 Hive 的数据仓库主要存在哪些痛点?-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

基于 Hive 的数据仓库主要存在哪些痛点?

来自:阿里云实时计算Flink 2022-08-31 10:41:28 274 2

基于 Hive 的数据仓库主要存在哪些痛点?

取消 提交回答
全部回答(2)
  • 游客c3gxxcx6cqeyo
    2022-08-31 12:45:24

    基于 Hive 的数据仓库主要存在以下几个痛点: • 首先是时效性,目前基于 Hive 的数仓绝大部分是 t+1,数据产生后至少要一个小时才能在数仓中查询到。 随着公司整体技术能力的提升,很多场景对数据的时效性要求越来越高,比如需要准实时的样本数据来

    支持模型训练,需要准实时的多维分析来帮助排查点击率下降的根因; • 其次是 Hive 2.0 无法支持 upsert 需求,业务库数据入仓只能 t+1 全量同步,数据修正成本很高,同时不支持 upsert 意味着存储层面无法实现批流一体;

    • 最后 Hive 的 Schema 属于写入型,一旦数据写入之后 Schema 就难以变更

    以上内容摘自《Apache Flink 案例集(2022版)》电子书,点击https://developer.aliyun.com/ebook/download/7718 可下载完整版

    0 0
  • kunfire
    2022-08-31 10:46:28

    hive的数据仓缺点非常明显,就是效率比较低,比如一些场景自动生成MapReduce时候,通常情况下是不够智能化的;其次hive的调优比较困难、粒度较粗、在数据挖掘时不擅长以及迭代式算法的表达都是不太好的。

    0 0
添加回答
相关问答

0

回答

请问sql任务同步表的时候 Array 类型的数据怎么转为 String 呢 cast 函数好像

2022-07-07 15:12:03 208浏览量 回答数 0

1

回答

Hive的数据类型是什么?

2021-12-06 21:22:12 177浏览量 回答数 1

1

回答

Hive中的数据模型有哪些?

2021-12-06 22:57:55 208浏览量 回答数 1

1

回答

不能实时读取实时写入到 Hive 的数据

2021-12-07 15:37:08 535浏览量 回答数 1

1

回答

不能实时读取实时写入到 Hive 的数据

2021-12-06 15:47:37 500浏览量 回答数 1

1

回答

如何将canal json格式数据按操作类型过滤?

2021-12-02 15:17:33 870浏览量 回答数 1

1

回答

想请问一下朋友们,mysql实时同步数据到hive,成熟的中间件是什么呢? #PG

2020-05-15 18:58:15 769浏览量 回答数 1

1

回答

跨cube数据联动只能选择主表字段?

2019-11-25 16:08:08 1377浏览量 回答数 1

0

回答

hive建立分区表使用oss上的数据

2016-04-25 16:52:48 5084浏览量 回答数 0

1

回答

使用sqoop导入mysql中的表到hive中去,能否指定表存放在hive的数据库中吗?

2016-02-11 16:27:49 3100浏览量 回答数 1
文章
问答
来源圈子
更多
实时计算 Flink 版(Alibaba Cloud Realtime Compute for Apache Flink,Powered by Ververica)是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统,由 Apache Flink 创始团队官方出品,拥有全球统一商业化品牌,完全兼容开源 Flink API,提供丰富的企业级增值功能。
+ 订阅
相关文档: 实时计算(流计算)
问答排行榜
最热
最新
相关电子书
更多
海量数据分布式存储——Apache HDFS之最新进展
立即下载
AliSQL行业解决方案及案例
立即下载
大数据与机器学习支撑的个性化大屏
立即下载