虎纠小老头_个人页

个人头像照片 虎纠小老头
个人头像照片
0
46
0

个人介绍

暂无个人介绍

擅长的技术

获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2020年10月

2020年07月

2020年05月

2019年12月

2019年11月

正在加载, 请稍后...
暂无更多信息
  • 回答了问题 2020-10-22

    为体验实验室取一个新名字。

    菜鸟实验室

    踩0 评论0
  • 回答了问题 2020-07-03

    postgis是不是不支持多进程呢?#PG

    前几天看书,可以通过执行计划判断是否走了多进程查询 image.png

    踩0 评论0
  • 回答了问题 2020-05-15

    哪位大神知道,flink 在新任务中,如何获取之前任务中已经创建过的表? #Flink

    flink的Table&SQL API 建表都会存在对应的 catalog 的 database 中。默认情况下,使用的是 org.apache.flink.table.catalog.GenericInMemoryCatalog 你注册的souce表也好,sink表也好,中间创建的table或者view也好,都会注册在这个catalog中,也就是内存中,任务结束,信息不会被保存

    如果你想跨flink session使用表。 比如我提前创建好source表的表结构,如kafakSource,然后其他任务就不用再很麻烦的重新注册这个kafkasource表的话。 需要自己实现一个 catalog 类,将注册的表信息写道mysql中或者其他持久化存储中。 这样任何的flink任务,只要使用你自己实现的catalog,就可以获取定义好的表。

    可以看下我这个flink与hive集成时的demo,flink自带的hive的catalog就是这么做的,只不过更复杂 https://github.com/935205406/flink-hive-integration-demo/blob/master/src/main/java/com/example/flink/HiveWriteDemo.java

    踩0 评论0
  • 回答了问题 2019-12-13

    想了解一下大家线上Flink作业一般开始的时候都分配多少内存?广播没办法改CEP

    我们也在研究这块、打算用groovy加aviatror的方案动态修改cep的规则、但是也要改flink源码

    踩0 评论0
  • 回答了问题 2019-12-12

    实时数仓用什么存储介质来存储维表,维表有大有小,大的大概5千万左右。 各位大神有什么建议和经验分享吗

    HBase也可以,kv格式都可以。

    踩0 评论0
  • 回答了问题 2019-12-11

    请问各位是怎么解决实时流数据倾斜的?

    可以keyby keyby之后还 是数据倾斜的话现在解决的方法一般是LocalGlobal

    可以看一下 相当于MapReduce的Combine+Reduce https://help.aliyun.com/document_detail/98981.html?spm=a2c4g.11186623.6.614.86286d163E6NmE

    踩0 评论0
  • 回答了问题 2019-12-10

    基于flink开发,需要具备什么条件?比如需要团队懂什么开发语言?属于研发性的工作内容是什么?属于非

    一般是 java 和 scala,现在社区也在发展 python。后期应该会有更好的支持

    踩0 评论0
  • 回答了问题 2019-12-10

    大佬们 这里为什么用的是flatmap 而不是 map 算子呢?

    map的话每个消息都需要有输出,flatMap的话过滤掉的不需要转换,flatMap相当于filter+map

    踩0 评论0
  • 回答了问题 2019-12-09

    大佬们,想问个cep的场景,监控用户的轨迹,用户的经纬度会上传到后台。我怎么用cep判断一定的时间间

    距离可以在where中做下判断吧,如果关闭定位数据不在上传,那么整个模式匹配失败,之前的事件就会被清理掉

    踩0 评论0
  • 回答了问题 2019-12-09

    请问下flink双流join的时候,用id做关联,右边的用户属性可能很久才来一条,左表的用户行为数据

    感觉你这种场景不适合双流jion,用户表可以认为维表吧 放在数据库里 行为数据来的时候再查询关联

    踩0 评论0
  • 回答了问题 2019-12-06

    求助各位大佬,一个sql里面包含有几个大的hop滑动窗口,如15个小时和24个小时,滑动步长为5分钟

    这种不可累加型的指标,全天数据几分钟产出一次,确实很烦人,而且state还得手动清,那个ttl不支持event time,说实话感觉用外部存储,比如redis 的hyperloglog会更好一些,uv这种不可累加的指标,放在state里面确实不太好维护

    踩0 评论0
  • 回答了问题 2019-12-06

    Flink是不是也是这样的?

    如果上游source组件支持重放,下游sink组件支持事务就可以实现端到端

    踩0 评论0
  • 回答了问题 2019-12-04

    请问Flink已经开启增量checkpoint,随着状态越来越大作业的checkpoint也越来越慢

    定位瓶颈在哪里,应该是磁盘io是瓶颈,可以关闭 local recovery,并且把 本地的 rocksdb 目录指定到多个磁盘

    踩0 评论0
  • 回答了问题 2019-12-03

    kafka是可以批量读取数据,但是flink是一条一条处理的,应该也可以一条一条提交吧。

    一条一条提交,Kafka的压力肯定山大。。。如果不想丢数据,只能尽量把checkpoint的周期设短一点

    踩0 评论0
  • 回答了问题 2019-12-02

    flink消费kafka,可以从指定时间消费的吗?目前提供的接口只是根据offset消费?有人知道怎

    https://mp.weixin.qq.com/s?__biz=MzU5Mzk3MDA3Mw==&mid=2247483866&idx=2&sn=6a3b458caf5bebf0171f9fbd834b7517&chksm=fe09172cc97e9e3a590f5ea2978d078b1b46d94f86bd344173fa69c1d63790b09d2fe173bffb&token=1856795336&lang=zh_CN#rd

    参考下

    踩0 评论0
  • 回答了问题 2019-11-29

    flink的反压为什么不加入metrics呢?只能通过api获取

    可以看下 flink_taskmanager_job_task_buffers_outPoolUsage 这个指标

    踩0 评论0
  • 回答了问题 2019-11-29

    各位大佬,Tumbling Window里的数据,是等窗口期内的数据到齐之后一次性处理,还是到了一条

    窗口自带trigger是在窗口结束时触发,如果想提早触发可以提供一个额外trigger,例如stream.tumblingWindow(...).trigger(new ContinuousTrigger(...)),如果需要每来条消息就触发就换用CountTrigger

    踩0 评论0
  • 回答了问题 2019-11-28

    滑动窗口 排序 报错这个是什么原因呢?

    这个可能是数据格式的问题

    踩0 评论0
  • 回答了问题 2019-11-26

    flink遇到The assigned slot container_1540803405745_0

    应该是你yarn配置container最大使用内存的原因

    踩0 评论0
  • 回答了问题 2019-11-26

    有大佬在吗,线上遇到个问题,但是明明内存还有200多G,然后呢任务cancel不了,后台也取消不了程

    shell 命令查看连接数撒,大概率是跟redis mysql 这类代码没释放连接有关系,取消不了任务 应该是临时文件呗自动删除了 设置修改一个参数路径应该就好了

    踩0 评论0
正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息