BIT_666_社区达人页

个人头像照片
BIT_666
已加入开发者社区729

勋章 更多

个人头像照片
专家博主
专家博主
个人头像照片
星级博主
星级博主
个人头像照片
技术博主
技术博主
个人头像照片
初入江湖
初入江湖

成就

已发布61篇文章
0条评论
已回答0个问题
0条评论
已发布0个视频
github地址

我关注的人 更多

技术能力

兴趣领域
擅长领域
技术认证

暂时未有相关云产品技术能力~

推荐算法工程师,日常使用 Spark、Flink、Python 以及其他大数据相关

暂无精选文章
暂无更多信息

2022年08月

  • 08.22 12:26:33
    发表了文章 2022-08-22 12:26:33

    Spark - 一文搞懂 Partitioner

    spark 处理 RDD 时提供了 foreachPartition 和 mapPartition 的方法对 partition 进行处理,一个 partition 内可能包含一个文件或者多个文件的内容,Partitioner 可以基于 pairRDD 的 key 实现自定义partition 的内容。
  • 08.22 12:25:50
    发表了文章 2022-08-22 12:25:50

    Spark - Task 与 Partition 一一对应与参数详解

    使用 spark 读取 parquet 文件,共有 M个 parquet 文件,于是启动了 PExecutor x QCores 进行如下 WordCount 代码测试,其中 P x Q = M 即 Core 数目与 parquet 文件数一一对应。
  • 08.22 12:25:05
    发表了文章 2022-08-22 12:25:05

    Spark - 一文搞懂 parquet

    parquet 文件常见于 Spark、Hive、Streamin、MapReduce 等大数据场景,通过列式存储和元数据存储的方式实现了高效的数据存储与检索,下面主要讲parquet 文件在 spark 场景下的存储,读取与使用中可能遇到的坑。......
  • 08.22 12:24:15
    发表了文章 2022-08-22 12:24:15

    Flink / Kafka - Recovery is suppressed by FixedDelayRestartBackoffTimeStrategy 排查与修复 ———————————————— 版权声明:本文为CSDN博主「BIT_666」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/BIT_666/article/details/125419738

    使用 Flink - Kafka 接数据 Source 时程序报错:org.apache.flink.runtime.JobException: Recovery is suppressed by FixedDelayRestartBackoffTimeStrategy,任务每次启动后持续10min左右,然后 RUNNING -> FAILED,如此重启失败了多次。
  • 08.22 12:23:27
    发表了文章 2022-08-22 12:23:27

    Spark - LeftOuterJoin 结果条数与左表条数不一致

    使用 spark lefOuterJoin 寻找下发的 gap,用原始下发 rdd 左join 真实下发后发现最终的结果数与左表不一致,左表数据: 20350,最终数据: 25721。一直以来使用 Hive 都是默认 leftJoin 左表应该与结果一致,所以开始排查。......
  • 08.22 12:22:52
    发表了文章 2022-08-22 12:22:52

    Spark - Executor 初始化 && 报警都进行1次

    程序启动 M个 Executor,每个 Executor 共 N core,即每个 Executor 上的 task = N,现在有一个 object 需要在每一个 task 上初始化公用变量,本文介绍如何只初始化一次以及异常情况下只报警一次的方法。
  • 08.22 12:22:01
    发表了文章 2022-08-22 12:22:01

    Executor - 一文搞懂 ThreadPoolExecutor 与 BlockingQueue

    ThreadPool 是 java 的一种多线程处理方式,和前面提到了 RedisPool 类似,即通过一个 pool 批量管理,ThreadPool 管理线程,RedisPool 管理 Jedis 连接。下面主要介绍 ThreadPool 的参数含义,BlockingQueue 的几种类型以及 Executors 下 newCachedThreadPool、newFixedThreadPool、newSingleThreadPool 以及 newScheduleThreadPool 的使用与不同。....
  • 08.22 12:21:12
    发表了文章 2022-08-22 12:21:12

    Jedis - SharedJedisPool 初始化与应用 & hash 算法详解

    使用SharedJedisPool 时注意到内部涉及到 hash 函数,其中对应的 hash 接口需要复写两个 hash 函数分别是 hash (String var1) 和 hash (Byte[] var1),默认使用Hashing.MURMUR_HASH 算法,除此之外也可以使用自带的 MD5,下面针对 SharedJedisPool 以及两个 Hash 函数的使用和含义进行分解。......
  • 08.22 12:19:46
    发表了文章 2022-08-22 12:19:46

    Executor - Shutdown、ShutdownNow、awaitTermination 详解与实战

    使用 executor 线程池时经常用到 shutdown / shutdownNow + awaitTermination 方法关闭线程池,下面看下几种方法的定义与常见用法。
  • 08.22 12:19:04
    发表了文章 2022-08-22 12:19:04

    Scala - 数值型特征分桶

    机器学习中最基础的一步就是数据的特征工程,这其中最常见的就是数值型特征的分桶,下面使用两种方法对数值型特征分桶并对比效率。
  • 08.22 12:10:09
    发表了文章 2022-08-22 12:10:09

    Flink / Scala - 使用 RedisSink 存储数据

    现在有一批流数据想要存储到 Redis 中,离线可以使用 Spark + foreach 搞定,由于是多流 join 且带状态,所以 SparkStreaming + foreach 也无法实现,而 Flink 不支持 foreach 操作触发 execute,这里采用 RedisSink 代替实现 foreach 逻辑。
  • 发表了文章 2022-08-22

    Scala/Java - Redis 连接检测与重试

  • 发表了文章 2022-08-22

    Maven - Scala/Java 项目添加自己的 jar 包

  • 发表了文章 2022-08-22

    Flink / Scala - DataSource 之 DataSet 获取数据总结

  • 发表了文章 2022-08-22

    Flink / Scala - DataSet Transformations 常用转换函数详解

  • 发表了文章 2022-08-22

    Flink / Scala - DataSet & DataStream Sink 输出数据详解

  • 发表了文章 2022-08-22

    Flink / Scala - DataSource 之 DataStream 获取数据总结

  • 发表了文章 2022-08-22

    Mac-Mini 外接三个显示器教程

  • 发表了文章 2022-08-22

    Flink / Scala - DataStream Broadcast State 模式示例详解

  • 发表了文章 2022-08-22

    Flink - The object probably contains or references non serializable fields 无法序列化问题

  • 发表了文章 2022-08-22

    Flink - 新增 BroadcastStream 无 watermark 导致数据流异常

  • 发表了文章 2022-08-22

    Spark - ml.dmlc.xgboost4j / spark 版本匹配与 NoSuchMethodError 解决

  • 发表了文章 2022-08-22

    Flink - 本地执行 Failed to start the Queryable State Data Server

  • 发表了文章 2022-08-22

    Flink - CountTrigger && ProcessingTimeTriger 详解

  • 发表了文章 2022-08-22

    Flink - CountAndProcessingTimeTrigger 基于 Count 和 Time 触发窗口

  • 发表了文章 2022-08-22

    Spark - ReturnStatementInClosureException: Return statements aren‘t allowed in Spark closures

  • 发表了文章 2022-08-22

    Flink / Scala - DataStream Transformations 常用转换函数详解

  • 发表了文章 2022-08-22

    MapReduce - 读取 ORC, RcFile 文件

  • 发表了文章 2022-08-22

    Java - MR 读写 orc 之 NoSuchMethodError: hive.ql.exec.vector.VectorizedRowBatch.getMaxSize()

  • 发表了文章 2022-08-22

    Spark/Scala - 读取 RcFile && OrcFile

  • 发表了文章 2022-08-22

    Python - openpyxl Excel 操作示例与实践

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息