kng32f3vbngrm_社区达人页_第2页-阿里云开发者社区

kng32f3vbngrm

已加入开发者社区1662天

勋章更多

专家博主

星级博主

技术博主

初入江湖

成就

已发布67篇文章

20条评论

已回答0个问题

0条评论

已发布0个视频

github地址

我关注的人更多

粉丝更多

技术能力

兴趣领域

Shell
Hive
Spark
Flume
Hadoop
DataX
FineBI
Kafka

擅长领域

技术认证

暂时未有相关云产品技术能力~

大数据的坑，让我来踩吧！ -- moon_coder

精选

高分内容

最新动态

文章
问答
视频

暂无精选文章

暂无更多信息

2024年05月

05.26 11:21:55

发表了文章 2024-05-26 11:21:55

DolphinScheduler 调度工作流报错 Host key verification failed.

DolphinScheduler调度任务失败，错误显示"Host key verification failed."。问题可能在于SSH免密登录配置失效或租户不存在于Linux系统中。解决方案：检查SSH配置并确保调度用户有管理员权限；确认DolphinScheduler租户与Linux用户对应。如果日志仅显示主机键验证失败，可能忽略了租户与操作系统用户的对应关系。创建具备管理员权限的新租户可解决。此外，当失败策略设为"继续"时，可能无法查看失败日志，建议使用"结束"策略。
05.26 11:19:59

发表了文章 2024-05-26 11:19:59

数仓常用分层与维度建模

本文介绍了数据仓库的分层结构和维度建模。数仓通常分为ODS、DIM、DWD、DWS和ADS五层，各层负责不同的数据处理阶段。维度建模是数据组织方法，包括星型和雪花模型。星型模型简单直观，查询性能高，适合简单查询；雪花模型则通过规范化减少冗余，提高数据一致性和结构复杂性，但可能影响查询效率。选择模型需根据业务需求和数据复杂性来定。
05.26 11:17:44

发表了文章 2024-05-26 11:17:44

ClickHouse 数据类型、表引擎与TTL

ClickHouse数据类型包括UInt8、Int64等，对应Java的Short、Long等，支持数字、字符串、日期时间、数组、枚举、UUID和IP地址等多种类型。建表时需确定好数据类型，避免后期转换影响效率。不要使用Nullable类型，因其低效。合理设置分区和索引，避免轻量删除和修改操作。表引擎如TinyLog适合小规模数据，MergeTree适用于有序时间序列，ReplacingMergeTree用于替换更新数据，AggregatingMergeTree和SummingMergeTree做聚合计算，CollapsingMergeTree保留最新状态。
05.26 11:12:34

发表了文章 2024-05-26 11:12:34

ClickHouse 高可用之副本

ClickHouse 使用副本机制增强数据可用性，复制数据到多个节点以备故障转移。仅MergeTree系列引擎支持副本，需使用`Replicated`前缀。副本是表级别，需先创建对应表结构。配置高可用副本需借助Zookeeper协调。在三台机器上部署，每台有三份数据。创建副本表时，需指定Zookeeper路径和唯一副本名称。通过`CREATE TABLE`语句在每个节点创建副本表并插入数据，然后验证数据同步。还可以使用工具如PrettyZoo查看Zookeeper中的副本表元数据。
05.26 11:09:09

发表了文章 2024-05-26 11:09:09

索引！索引！！索引！！！到底什么是索引？

**索引是数据库中的数据结构，类似书籍目录，加速数据查找和访问。优点包括提升查询性能、数据检索速度、支持唯一性约束及优化排序和连接操作。缺点在于增加写操作开销、占用存储空间、高维护成本和过多索引可能降低性能。常见的索引类型有单值、复合、唯一、聚集和非聚集索引等，实现方式涉及B树、B+树和哈希表。B树和B+树适合磁盘存储，B+树尤其适用于范围查询，哈希索引则适用于快速等值查询。**
05.26 11:06:52

发表了文章 2024-05-26 11:06:52

ClickHouse 如何实现数据一致性

本文探讨了在 ClickHouse 中实现数据一致性的方法，主要关注 `ReplacingMergeTree` 引擎。该引擎允许更新已有数据，通过定期合并操作删除重复并保持最终一致性。然而，由于合并时间不可预测，单纯依赖此引擎无法确保实时一致性。为解决此问题，文章提出了四种策略：1）手动触发合并，但不建议频繁使用；2）使用 `FINAL` 查询，但在查询时合并数据，效率较低；3）通过标记和 `GroupBy` 查询实现一致性；4）在允许一定偏差的情况下，直接使用 `ReplacingMergeTree` 保持最终一致性。在实践中，推荐结合标记列和 `GroupBy` 以保证数据一致性。
05.26 11:05:28

发表了文章 2024-05-26 11:05:28

Spark 为什么比 Hive 快

Spark与Hive在数据处理上有显著区别。Spark以其内存计算和线程级并行提供更快的速度，但稳定性受内存限制。相比之下，Hive虽较慢，因使用MapReduce，其稳定性更高，对内存需求较小。在Shuffle方式上，Spark的内存 Shuffle 比Hive的磁盘 Shuffle 更高效。综上，Spark在处理速度和Shuffle上占优，Hive则在稳定性和资源管理上更胜一筹。
05.26 11:04:11

发表了文章 2024-05-26 11:04:11

Hive 特殊的数据类型 Array、Map、Struct

在Hive中，`Array`、`Map`和`Struct`是三种特殊的数据类型。`Array`用于存储相同类型的列表，如`select array(1, "1", 2, 3, 4, 5)`会产生一个整数数组。`Map`是键值对集合，键值类型需一致，如`select map(1, 2, 3, "4")`会产生一个整数到整数的映射。`Struct`表示结构体，有固定数量和类型的字段，如`select struct(1, 2, 3, 4)`创建一个无名结构体。这些类型支持嵌套使用，允许更复杂的结构数据存储。例如，可以创建一个包含用户结构体的数组来存储多用户信息
05.26 10:57:27

发表了文章 2024-05-26 10:57:27

HiveOnSpark 报错：java.lang.IllegalStateException(Connection to remote Spark driver was lost)‘ Last kno

Hive On Spark 测试时遇到`java.lang.IllegalStateException`和`FileNotFoundException`，问题根源是 Spark 缺少 `hive-exec-3.1.3.jar`。解决方法：从 `$HIVE_HOME/lib/`复制该 jar 到 `$SPARK_HOME/jars/`，并使用 `hdfs dfs -put`命令将其上传至 HDFS 的 `/spark-jars/`（根据实际情况调整路径）。重启 Hive 元数据服务后问题解决。
05.26 10:54:19

发表了文章 2024-05-26 10:54:19

【Hive SQL 每日一题】统计最近1天/7天/30天商品的销量

这段内容是关于SQL查询的示例，目标是统计`sales`表中最近1天、7天和30天的商品销量和销售次数。表结构包含`id`、`product_id`、`quantity`和`sale_date`字段。初始查询方法通过三个独立的子查询完成，但效率较低。优化后的查询使用了`lateral view explode`将数据炸裂，通过一次查询同时获取所有所需时间段的数据，提高了效率。示例中展示了优化前后的SQL代码及结果对比。
05.26 10:52:05

发表了文章 2024-05-26 10:52:05

【Hive SQL 每日一题】统计最近7天内连续下单3日的用户量

创建了一个名为`sales`的测试表，包含`user_id`、`product_id`、`quantity`和`sale_date`字段，插入了多条销售数据。需求是找出最近7天内连续下单3天的用户数量。SQL查询通过分组和窗口函数`row_number()`检查日期连续性，最终计算满足条件的唯一用户数。示例结果显示有3名用户符合条件。
05.26 10:50:14

发表了文章 2024-05-26 10:50:14

【Hive SQL 每日一题】统计用户留存率

用户留存率是衡量产品成功的关键指标，表示用户在特定时间内持续使用产品的比例。计算公式为留存用户数除以初始用户数。例如，游戏发行后第一天有10000玩家，第七天剩5000人，第一周留存率为50%。提供的SQL代码展示了如何根据用户活动数据统计每天的留存率。需求包括计算系统上线后的每日留存率，以及从第一天开始的累计N日留存率。通过窗口函数`LAG`和`COUNT(DISTINCT user_id)`，可以有效地分析用户留存趋势。
05.26 10:47:50

发表了文章 2024-05-26 10:47:50

【Hive SQL 每日一题】行列转换

该文介绍了如何使用SQL进行数据的行列转换。首先展示了行转列的例子，通过创建一个学生成绩表，利用`IF`和`SUM`函数按学生ID分组，将每个学生的各科成绩转换为独立列。然后，文章讲述了列转行的需求，利用`LATERAL VIEW`和`POSEXPLODE`将已转换的表格恢复为原始行格式，通过索引匹配过滤笛卡尔积避免错误结果。此外，还提到了使用`UNION ALL`的另一种列转行方法。
05.26 10:45:29

发表了文章 2024-05-26 10:45:29

【Hive SQL 每日一题】分组排名取值

创建了一个名为`sales_data`的测试表，包含商品ID、销售额和销售日期。展示了部分示例数据。接着，提供了三个SQL查询：1) 查找每个商品销售额最高的记录；2) 获取每个商品最近和最远的销售记录；3) 求每个商品距今第二近的销售记录。每个查询都利用了窗口函数来处理数据，并给出了相应的查询结果图。
05.26 10:42:00

发表了文章 2024-05-26 10:42:00

【Hive SQL 每日一题】在线课程学生行为数据分析

该数据分析师任务是分析在线学习平台的学生行为，以优化课程内容和学习体验。提供的数据包括`students`表（含学生ID、姓名、年龄和性别）和`course_activity`表（含活动ID、学生ID、课程ID、活动日期和学习时长）。分析涉及：1) 学生参加的课程数量，2) 课程总学习时长，3) 按性别分组的平均学习时长，4) 学生首次参加的课程及日期，5) 学生最近一次学习的时长，以及6) 参与学生最多的课程。所有查询都使用了SQL，部分涉及窗口函数和分组统计。数据集可在给定链接下载。
05.26 10:38:40

发表了文章 2024-05-26 10:38:40

【Hive SQL 每日一题】分析电商平台的用户行为和订单数据

作为一名数据分析师，你需要分析电商平台的用户行为和订单数据。你有三张表：`users`（用户信息），`orders`（订单信息）和`order_items`（订单商品信息）。任务包括计算用户总订单金额和数量，按月统计订单，找出最常购买的商品，找到平均每月最高订单金额和数量的用户，以及分析高消费用户群体的年龄和性别分布。通过SQL查询，你可以实现这些分析，例如使用`GROUP BY`、`JOIN`和窗口函数来排序和排名。
05.26 10:34:55

发表了文章 2024-05-26 10:34:55

手把手教你解决 Hive 的数据倾斜

数据倾斜是 Hive 中影响任务执行效率的现象，表现为某些任务处理的数据量或耗时远超其他任务。根本原因是 Shuffle 后 Key 分布不均，导致部分 Reduce 负载过高。常见场景包括空值聚合、不可拆分大文件、数值膨胀、不同数据类型 Join、Count(distinct) 计算以及表 Join 操作。解决方法包括过滤空值、转换数据类型、调整聚合策略、使用 MapJoin 等。通过合理优化，如设置 `hive.groupby.skewindata` 和 `hive.map.aggr` 参数，可以有效缓解数据倾斜问题。

发表了文章 2024-05-26

Spark 分析计算连续三周登录的用户数
发表了文章 2024-05-26

HBase 相关面试题
发表了文章 2024-05-26

Exception in thread “main“ java.io.IOException: No FileSystem for scheme: hdfs
发表了文章 2024-05-26

HBase Shell-org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet 已解决
发表了文章 2024-05-26

大数据之 Solr 集群搭建
发表了文章 2024-05-26

Hive 求多个字段的中位数（按行求中位数）
发表了文章 2024-05-26

大数据用户画像之基本概念
发表了文章 2024-05-26

Cannot request memory (Xms 65536 kb, Xmx 270336 kb) from system for job test, sleep for 60 secs and
发表了文章 2024-05-26

使用 Spark 抽取 MySQL 数据到 Hive 时某列字段值出现异常（字段错位）
发表了文章 2024-05-26

【机器学习】Spark ML 对数据特征进行 One-Hot 编码
发表了文章 2024-05-26

Caused by: java.lang.ClassNotFoundException: com.fasterxml.jackson.core.exc.InputCoercionException
发表了文章 2024-05-26

【指标计算】Spark 计算指定用户与其他用户购买的相同商品
发表了文章 2024-05-26

IDEA 提交代码到 GitHub 时发生错误
发表了文章 2024-05-26

Hadoop 集群一直处于安全模式，强制退出后出现数据丢失警告。解决方法
发表了文章 2024-05-26

【机器学习】Spark ML 对数据进行规范化预处理 StandardScaler 与向量拆分
发表了文章 2024-05-26

DataGrip 配置 HiveServer2 远程连接访问（含账号密码验证）
发表了文章 2024-05-26

Vmware 虚拟机挂起恢复后发现无法 Ping 通，无法连接到主机
发表了文章 2024-05-26

Hadoop Yarn 核心调优参数
发表了文章 2024-05-26

Hive Cli / HiveServer2 中使用 dayofweek 函数引发的BUG！
发表了文章 2024-05-26

NameNode 处理线程配置（心跳并发）

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

正在加载, 请稍后...

暂无更多信息

kng32f3vbngrm_社区达人页

探索云世界

热门

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

勋章 更多

成就

我关注的人 更多

粉丝 更多

技术能力

Spark 分析计算连续三周登录的用户数

HBase 相关面试题

Exception in thread “main“ java.io.IOException: No FileSystem for scheme: hdfs

HBase Shell-org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet 已解决

大数据之 Solr 集群搭建

Hive 求多个字段的中位数（按行求中位数）

大数据用户画像之基本概念

Cannot request memory (Xms 65536 kb, Xmx 270336 kb) from system for job test, sleep for 60 secs and

使用 Spark 抽取 MySQL 数据到 Hive 时某列字段值出现异常（字段错位）

【机器学习】Spark ML 对数据特征进行 One-Hot 编码

Caused by: java.lang.ClassNotFoundException: com.fasterxml.jackson.core.exc.InputCoercionException

【指标计算】Spark 计算指定用户与其他用户购买的相同商品

IDEA 提交代码到 GitHub 时发生错误

Hadoop 集群一直处于安全模式，强制退出后出现数据丢失警告。解决方法

【机器学习】Spark ML 对数据进行规范化预处理 StandardScaler 与向量拆分

DataGrip 配置 HiveServer2 远程连接访问（含账号密码验证）

Vmware 虚拟机挂起恢复后发现无法 Ping 通，无法连接到主机

Hadoop Yarn 核心调优参数

Hive Cli / HiveServer2 中使用 dayofweek 函数引发的BUG！

NameNode 处理线程配置（心跳并发）

勋章更多

我关注的人更多

粉丝更多