亿级数据如何分钟级别写入缓存？-阿里云开发者社区

亿级数据如何分钟级别写入缓存？

2023-12-29 67

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

Redis 开源版，标准版 2GB

云数据库 Tair（兼容Redis），内存型 2GB

简介： 亿级数据如何分钟级别写入缓存？

1.背景

在做用户画像的过程中经常会遇到，需要将用户数据入缓存的需求，提供给线上服务进行调用，因为最终加工的画像数据普遍会存储在离线表(Hive)或者一些其他存储中(HDFS、Doris 等等)

但是这类数据存储的特点非常明显适合一些内部运营系统做数据分析，但是用来做线上系统的高QPS、低延迟的服务，显然是不能满足的。

因此就必须将画像数据写入到redis 这种类似的分布式缓存当中。

那么如此大量的数据(亿级)，如何能更快地写入到缓存当中呢？

2.系统架构设计

(1)利用Spark rdd 多分区的方式来进行并行写入缓存，提升写入缓存速度

(2)数据量太大，写入redis qps 较高，避免对redis 产生较大压力，进行限流控制

核心代码

result.foreachPartition(it -> {
            Jedis jedis = RedisInstance.getInstance(properties.getProperty("redis.ip"), Integer.parseInt(properties.getProperty("redis.port")), properties.getProperty("redis.pwd"));
            System.out.println(it.hashCode());
            Pipeline pipeline = jedis.pipelined();
            AtomicLong atomicLong = new AtomicLong();
            long start = System.currentTimeMillis();
            it.forEachRemaining(v -> {
                        //System.out.println(v.getString(0)+":"+v.getString(1));
                        atomicLong.incrementAndGet();
                        qpsControll(start, requiredQps, atomicLong, it.hashCode());
                        pipeline.sadd(v.getString(0), v.getString(1));
                        if (atomicLong.get() % 3 == 0) {
                            //每1000条提交一次
                            pipeline.sync();
                        }
                    }
            );
            pipeline.close();
            jedis.close();
        });

限流控制

private static void qpsControll(long start, int requiredQps, AtomicLong count, int x) {
        //System.out.println("current count:"+x+":"+ count.get());
        long actualQps = 1000 * count.get() / (System.currentTimeMillis() - start);
        System.out.println(x + ":" + actualQps);
        if (actualQps > (long) requiredQps) {
            System.out.println("=====stop =====");
            try {
                Thread.sleep(1000);
            } catch (InterruptedException e) {
                System.out.println(e);
            }
        }
    }

3.线上效果

能看到写入的qps 是在我们控制的范围内，一旦超过范围就会暂停一小段时间，项目源码已经开源，欢迎大家star，fork

https://gitee.com/ZhuGeZiFang/spark-redis

https://github.com/zhugezifang/hdfs-to-redis

相关实践学习

基于Redis实现在线游戏积分排行榜

本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。

云数据库 Redis 版使用教程

云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务，基于高可靠双机热备架构及可无缝扩展的集群架构，满足高读写性能场景及容量需弹性变配的业务需求。产品详情：https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验：数据库上云实战开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引，您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。点击下方链接，领取免费ECS&RDS资源，30分钟完成数据库上云实战！https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl

亿级数据如何分钟级别写入缓存？

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

亿级数据如何分钟级别写入缓存？

热门文章

最新文章

相关电子书