HIVE

首页 标签 HIVE
# HIVE #
关注
5954内容
小红书如何实现高效推荐?解密背后的大数据计算平台架构
小红书作为生活分享类社区,目前有8500万用户,年同比增长为300%,大约每天有30亿条笔记在发现首页进行展示。推荐是小红书非常核心且重要的场景之一,本文主要分享在推荐业务场景中小红书的实时计算应用。
102万行代码,1270 个问题,Flink 新版发布了什么?(附最佳实践电子书)
2 月 12 日,Apache Flink 1.10.0 正式发布,在 Flink 的第一个双位数版本中正式完成了 Blink 向 Flink 的合并。在此基础之上,Flink 1.10 版本在生产可用性、功能、性能上都有大幅提升。本文将详细为大家介绍该版本的重大变更与新增特性。
使用Relational Cache加速EMR Spark数据分析
Relational Cache的强大功能赋予了Spark更多的可能,通过Relational Cache,用户可以提前将任意关系型数据(Table/View/Dataset)cache到任意Spark支持的DataSource中,并支持灵活的cache数据组织方式,基于此,Relational Cache可以在诸多应用场景中帮助用户加速Spark数据分析。
hadoop整体结构图及服务组件详解
hadoop服务组件简单解释 1、core  分布式系统和通用IO组件和接口(序列化、java远程调用等等服务) 2、avro  支持跨语言过程调用,持久数据存储的数据序列化系统 3、MapReduce  构建在廉价的pc机器上分布式数据处理模型和运行环境 4、hdfs  构建廉价的pc机器上分布式文件系统 5、pig  处理海量数据集的数据流语
Hive介绍与核心知识点
Hive Hive简介 Facebook为了解决海量日志数据的分析而开发了Hive,后来开源给了Apache软件基金会。 官网定义: The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Hive是一种用类SQL语句来协助读写、管理那些存储在分布式存储系统上大数据集的数据仓库软件。
一文读懂Apache Flink发展史
本文整理自开源大数据专场中阿里巴巴高级技术专家杨克特(鲁尼)先生的精彩演讲,主要讲解了Apache Flink过去和现在的发展情况,同时分享了对Apache Flink未来发展方向的理解。
sqoop 常用命令整理(二)
这些内容是从sqoop的官网整理出来的,是1.4.3版本的Document,如果有错误,希望大家指正。
免费试用