kng32f3vbngrm_社区达人页

个人头像照片
kng32f3vbngrm
已加入开发者社区1279

勋章 更多

个人头像照片
专家博主
专家博主
个人头像照片
星级博主
星级博主
个人头像照片
技术博主
技术博主
个人头像照片
初入江湖
初入江湖

成就

已发布67篇文章
18条评论
已回答0个问题
0条评论
已发布0个视频
github地址

我关注的人 更多

技术能力

兴趣领域
  • Shell
  • Hive
  • Spark
  • Flume
  • Hadoop
  • DataX
  • FineBI
  • Kafka
擅长领域
技术认证

暂时未有相关云产品技术能力~

大数据的坑,让我来踩吧! -- moon_coder

暂无精选文章
暂无更多信息

2024年05月

  • 05.26 11:21:55
    发表了文章 2024-05-26 11:21:55

    DolphinScheduler 调度工作流报错 Host key verification failed.

    DolphinScheduler调度任务失败,错误显示"Host key verification failed."。问题可能在于SSH免密登录配置失效或租户不存在于Linux系统中。解决方案:检查SSH配置并确保调度用户有管理员权限;确认DolphinScheduler租户与Linux用户对应。如果日志仅显示主机键验证失败,可能忽略了租户与操作系统用户的对应关系。创建具备管理员权限的新租户可解决。此外,当失败策略设为"继续"时,可能无法查看失败日志,建议使用"结束"策略。
  • 05.26 11:19:59
    发表了文章 2024-05-26 11:19:59

    数仓常用分层与维度建模

    本文介绍了数据仓库的分层结构和维度建模。数仓通常分为ODS、DIM、DWD、DWS和ADS五层,各层负责不同的数据处理阶段。维度建模是数据组织方法,包括星型和雪花模型。星型模型简单直观,查询性能高,适合简单查询;雪花模型则通过规范化减少冗余,提高数据一致性和结构复杂性,但可能影响查询效率。选择模型需根据业务需求和数据复杂性来定。
  • 05.26 11:17:44
    发表了文章 2024-05-26 11:17:44

    ClickHouse 数据类型、表引擎与TTL

    ClickHouse数据类型包括UInt8、Int64等,对应Java的Short、Long等,支持数字、字符串、日期时间、数组、枚举、UUID和IP地址等多种类型。建表时需确定好数据类型,避免后期转换影响效率。不要使用Nullable类型,因其低效。合理设置分区和索引,避免轻量删除和修改操作。表引擎如TinyLog适合小规模数据,MergeTree适用于有序时间序列,ReplacingMergeTree用于替换更新数据,AggregatingMergeTree和SummingMergeTree做聚合计算,CollapsingMergeTree保留最新状态。
  • 05.26 11:12:34
    发表了文章 2024-05-26 11:12:34

    ClickHouse 高可用之副本

    ClickHouse 使用副本机制增强数据可用性,复制数据到多个节点以备故障转移。仅MergeTree系列引擎支持副本,需使用`Replicated`前缀。副本是表级别,需先创建对应表结构。配置高可用副本需借助Zookeeper协调。在三台机器上部署,每台有三份数据。创建副本表时,需指定Zookeeper路径和唯一副本名称。通过`CREATE TABLE`语句在每个节点创建副本表并插入数据,然后验证数据同步。还可以使用工具如PrettyZoo查看Zookeeper中的副本表元数据。
  • 05.26 11:09:09
    发表了文章 2024-05-26 11:09:09

    索引!索引!!索引!!!到底什么是索引?

    **索引是数据库中的数据结构,类似书籍目录,加速数据查找和访问。优点包括提升查询性能、数据检索速度、支持唯一性约束及优化排序和连接操作。缺点在于增加写操作开销、占用存储空间、高维护成本和过多索引可能降低性能。常见的索引类型有单值、复合、唯一、聚集和非聚集索引等,实现方式涉及B树、B+树和哈希表。B树和B+树适合磁盘存储,B+树尤其适用于范围查询,哈希索引则适用于快速等值查询。**
  • 05.26 11:06:52
    发表了文章 2024-05-26 11:06:52

    ClickHouse 如何实现数据一致性

    本文探讨了在 ClickHouse 中实现数据一致性的方法,主要关注 `ReplacingMergeTree` 引擎。该引擎允许更新已有数据,通过定期合并操作删除重复并保持最终一致性。然而,由于合并时间不可预测,单纯依赖此引擎无法确保实时一致性。为解决此问题,文章提出了四种策略:1)手动触发合并,但不建议频繁使用;2)使用 `FINAL` 查询,但在查询时合并数据,效率较低;3)通过标记和 `GroupBy` 查询实现一致性;4)在允许一定偏差的情况下,直接使用 `ReplacingMergeTree` 保持最终一致性。在实践中,推荐结合标记列和 `GroupBy` 以保证数据一致性。
  • 05.26 11:05:28
    发表了文章 2024-05-26 11:05:28

    Spark 为什么比 Hive 快

    Spark与Hive在数据处理上有显著区别。Spark以其内存计算和线程级并行提供更快的速度,但稳定性受内存限制。相比之下,Hive虽较慢,因使用MapReduce,其稳定性更高,对内存需求较小。在Shuffle方式上,Spark的内存 Shuffle 比Hive的磁盘 Shuffle 更高效。综上,Spark在处理速度和Shuffle上占优,Hive则在稳定性和资源管理上更胜一筹。
  • 05.26 11:04:11
    发表了文章 2024-05-26 11:04:11

    Hive 特殊的数据类型 Array、Map、Struct

    在Hive中,`Array`、`Map`和`Struct`是三种特殊的数据类型。`Array`用于存储相同类型的列表,如`select array(1, "1", 2, 3, 4, 5)`会产生一个整数数组。`Map`是键值对集合,键值类型需一致,如`select map(1, 2, 3, "4")`会产生一个整数到整数的映射。`Struct`表示结构体,有固定数量和类型的字段,如`select struct(1, 2, 3, 4)`创建一个无名结构体。这些类型支持嵌套使用,允许更复杂的结构数据存储。例如,可以创建一个包含用户结构体的数组来存储多用户信息
  • 05.26 10:57:27
    发表了文章 2024-05-26 10:57:27

    HiveOnSpark 报错:java.lang.IllegalStateException(Connection to remote Spark driver was lost)‘ Last kno

    Hive On Spark 测试时遇到`java.lang.IllegalStateException`和`FileNotFoundException`,问题根源是 Spark 缺少 `hive-exec-3.1.3.jar`。解决方法:从 `$HIVE_HOME/lib/`复制该 jar 到 `$SPARK_HOME/jars/`,并使用 `hdfs dfs -put`命令将其上传至 HDFS 的 `/spark-jars/`(根据实际情况调整路径)。重启 Hive 元数据服务后问题解决。
  • 05.26 10:54:19
    发表了文章 2024-05-26 10:54:19

    【Hive SQL 每日一题】统计最近1天/7天/30天商品的销量

    这段内容是关于SQL查询的示例,目标是统计`sales`表中最近1天、7天和30天的商品销量和销售次数。表结构包含`id`、`product_id`、`quantity`和`sale_date`字段。初始查询方法通过三个独立的子查询完成,但效率较低。优化后的查询使用了`lateral view explode`将数据炸裂,通过一次查询同时获取所有所需时间段的数据,提高了效率。示例中展示了优化前后的SQL代码及结果对比。
  • 05.26 10:52:05
    发表了文章 2024-05-26 10:52:05

    【Hive SQL 每日一题】统计最近7天内连续下单3日的用户量

    创建了一个名为`sales`的测试表,包含`user_id`、`product_id`、`quantity`和`sale_date`字段,插入了多条销售数据。需求是找出最近7天内连续下单3天的用户数量。SQL查询通过分组和窗口函数`row_number()`检查日期连续性,最终计算满足条件的唯一用户数。示例结果显示有3名用户符合条件。
  • 05.26 10:50:14
    发表了文章 2024-05-26 10:50:14

    【Hive SQL 每日一题】统计用户留存率

    用户留存率是衡量产品成功的关键指标,表示用户在特定时间内持续使用产品的比例。计算公式为留存用户数除以初始用户数。例如,游戏发行后第一天有10000玩家,第七天剩5000人,第一周留存率为50%。提供的SQL代码展示了如何根据用户活动数据统计每天的留存率。需求包括计算系统上线后的每日留存率,以及从第一天开始的累计N日留存率。通过窗口函数`LAG`和`COUNT(DISTINCT user_id)`,可以有效地分析用户留存趋势。
  • 05.26 10:47:50
    发表了文章 2024-05-26 10:47:50

    【Hive SQL 每日一题】行列转换

    该文介绍了如何使用SQL进行数据的行列转换。首先展示了行转列的例子,通过创建一个学生成绩表,利用`IF`和`SUM`函数按学生ID分组,将每个学生的各科成绩转换为独立列。然后,文章讲述了列转行的需求,利用`LATERAL VIEW`和`POSEXPLODE`将已转换的表格恢复为原始行格式,通过索引匹配过滤笛卡尔积避免错误结果。此外,还提到了使用`UNION ALL`的另一种列转行方法。
  • 05.26 10:45:29
    发表了文章 2024-05-26 10:45:29

    【Hive SQL 每日一题】分组排名取值

    创建了一个名为`sales_data`的测试表,包含商品ID、销售额和销售日期。展示了部分示例数据。接着,提供了三个SQL查询:1) 查找每个商品销售额最高的记录;2) 获取每个商品最近和最远的销售记录;3) 求每个商品距今第二近的销售记录。每个查询都利用了窗口函数来处理数据,并给出了相应的查询结果图。
  • 05.26 10:42:00
    发表了文章 2024-05-26 10:42:00

    【Hive SQL 每日一题】在线课程学生行为数据分析

    该数据分析师任务是分析在线学习平台的学生行为,以优化课程内容和学习体验。提供的数据包括`students`表(含学生ID、姓名、年龄和性别)和`course_activity`表(含活动ID、学生ID、课程ID、活动日期和学习时长)。分析涉及:1) 学生参加的课程数量,2) 课程总学习时长,3) 按性别分组的平均学习时长,4) 学生首次参加的课程及日期,5) 学生最近一次学习的时长,以及6) 参与学生最多的课程。所有查询都使用了SQL,部分涉及窗口函数和分组统计。数据集可在给定链接下载。
  • 05.26 10:38:40
    发表了文章 2024-05-26 10:38:40

    【Hive SQL 每日一题】分析电商平台的用户行为和订单数据

    作为一名数据分析师,你需要分析电商平台的用户行为和订单数据。你有三张表:`users`(用户信息),`orders`(订单信息)和`order_items`(订单商品信息)。任务包括计算用户总订单金额和数量,按月统计订单,找出最常购买的商品,找到平均每月最高订单金额和数量的用户,以及分析高消费用户群体的年龄和性别分布。通过SQL查询,你可以实现这些分析,例如使用`GROUP BY`、`JOIN`和窗口函数来排序和排名。
  • 05.26 10:34:55
    发表了文章 2024-05-26 10:34:55

    手把手教你解决 Hive 的数据倾斜

    数据倾斜是 Hive 中影响任务执行效率的现象,表现为某些任务处理的数据量或耗时远超其他任务。根本原因是 Shuffle 后 Key 分布不均,导致部分 Reduce 负载过高。常见场景包括空值聚合、不可拆分大文件、数值膨胀、不同数据类型 Join、Count(distinct) 计算以及表 Join 操作。解决方法包括过滤空值、转换数据类型、调整聚合策略、使用 MapJoin 等。通过合理优化,如设置 `hive.groupby.skewindata` 和 `hive.map.aggr` 参数,可以有效缓解数据倾斜问题。
  • 发表了文章 2024-05-26

    Spark 分析计算连续三周登录的用户数

  • 发表了文章 2024-05-26

    HBase 相关面试题

  • 发表了文章 2024-05-26

    Exception in thread “main“ java.io.IOException: No FileSystem for scheme: hdfs

  • 发表了文章 2024-05-26

    HBase Shell-org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet 已解决

  • 发表了文章 2024-05-26

    大数据之 Solr 集群搭建

  • 发表了文章 2024-05-26

    Hive 求多个字段的中位数(按行求中位数)

  • 发表了文章 2024-05-26

    大数据用户画像之基本概念

  • 发表了文章 2024-05-26

    Cannot request memory (Xms 65536 kb, Xmx 270336 kb) from system for job test, sleep for 60 secs and

  • 发表了文章 2024-05-26

    使用 Spark 抽取 MySQL 数据到 Hive 时某列字段值出现异常(字段错位)

  • 发表了文章 2024-05-26

    【机器学习】Spark ML 对数据特征进行 One-Hot 编码

  • 发表了文章 2024-05-26

    Caused by: java.lang.ClassNotFoundException: com.fasterxml.jackson.core.exc.InputCoercionException

  • 发表了文章 2024-05-26

    【指标计算】Spark 计算指定用户与其他用户购买的相同商品

  • 发表了文章 2024-05-26

    IDEA 提交代码到 GitHub 时发生错误

  • 发表了文章 2024-05-26

    Hadoop 集群一直处于安全模式,强制退出后出现数据丢失警告。解决方法

  • 发表了文章 2024-05-26

    【机器学习】Spark ML 对数据进行规范化预处理 StandardScaler 与向量拆分

  • 发表了文章 2024-05-26

    DataGrip 配置 HiveServer2 远程连接访问(含账号密码验证)

  • 发表了文章 2024-05-26

    Vmware 虚拟机挂起恢复后发现无法 Ping 通,无法连接到主机

  • 发表了文章 2024-05-26

    Hadoop Yarn 核心调优参数

  • 发表了文章 2024-05-26

    Hive Cli / HiveServer2 中使用 dayofweek 函数引发的BUG!

  • 发表了文章 2024-05-26

    NameNode 处理线程配置(心跳并发)

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息