开发者社区> 问答> 正文

Apache Flink常见问题汇总【精品问答】

Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。开发者社区收集了社群提问频率最高的QA,欢迎大家查看~
1、 各位大佬,flink做filter,只过滤出指定字段属于某个列表的数据,但是这个列表有将近4万多条数据,有什么好的方法么?
2、 flink写hdfs任务 设置了checkpoint 每天一个新目录 服务正常运行 但是发现有不少处于inprogress状态的文件 未进行正常flush 是不是缺少什么配置呀?
3、 我的任务有checkpoint,跑了几天集群宕机导致任务掉了,可以从checkpoint启动,还是直接启动
4、 flink的sql能做实时计算吗?过来一条计算一条这样的
5、 请教一下,rocksdb checkpoint size不断增加有几种原因?跑了一个flink job,发现这一周checkpoint size在不断增加
6、 flink sql 支持trigger么?EMIT这个aliyun有 开源版本好像没有这个语法命令
7、 flink 的timewindow设置为24小时一天的话,怎么在第二天0点自动重新计算
8、 请教下 json嵌套的数据,如何抽取watermark 有人遇到找个问题么?
9、 用maven混编java和scala, 运行jar包说没有找到主类, 各位有遇到过吗, manifest 是有的
10、 checkpoint exactly once。 只有一个流, 多个并发之间会存在需要对齐的问题吗?
11、 敢问各位大佬 Caused by: java.util.concurrent.TimeoutExce
12、 想问下假设我要统计从一开始到现在的交易额,也就是一个aggregation,但是我希望他aggreg
13、 事件的的watermark是会有多个的吗
14、 有在yarn perjob模式 下遇到jm webUI访问结果为这个字符串的吗?
15、 flink sql 支持 视图吗?
16、 如果Kafka中存储的json中某个值是list类型的(不定长,list中的元素还是json) 那用flinksql创建source表的时候改如何解析,flinksql有lost类型对应的字段类型吗?
17、 想问下为什么kafka双流join的时候,每个流的算子都能执行,但是最后用flink sql join的时候没有执行sql呢?
18、 有谁知道 hadoop yarn模式 这个node http address怎么修改吗?
19、 pyflink 1.10 定义udf 的时候 result_type能返回多个列数据么,譬如我想根据输入字段做split 然后 变为两个字段数据 @udf(input_types=[DataTypes.STRING()], result_type=
20、 flink消费kafka的数据写入到hdfs中,我采用了BucketingSink 这个sink将operator出来的数据写入到hdfs文件上,并通过在hive中建外部表来查询这个。但现在有个问题,处于in-progress的文件,hive是无法识别出来该文件中的数据,可我想能在hive中实时查询进来的数据,且不想产生很多的小文件,这个该如何处理呢
21、 如果我flink程序挂掉了,我从checkpoint重启的话,会从source那里重新计算,还是从中间某个算子开始计算?
22、 Flink SQL Connect Kafka可以设置数据失效时间么,不然会一直append到直到内存爆炸么?
23、 咨询一个小问题,就是ProcessingTime有水印时间的概念么?
24、 自定义sink source 时候 出现了 log4j冲突 你们是怎么解决的 我搞半天没有弄出来
25、 大家有用ES做维表的吗?TransportClient 这个东东容易内存溢出呀
26、 消息有个字段是数组格式 需要统计数组中每个元素count 请教下 这个sql 如何写?
27、 flink sql写MySQL时能支持update吗 类似ON DUPLICATE KEY UPDATE 的语法?
28、 Flink 消费0.10的kafka,往0.8 的kafka里发是不是发不出去
29、 请教一下:ProcessWindowFunc里面context的globalState和windowState这两个的作用是什么和getRuntimeContext里面创建的state有什么区别 ?请大佬讲解一下
30、 flink 任务 在某个阶段 数据处理的时候调用了算法 消费速度很慢 任务一直处于背压 high 的状态 这个可以怎么解决啊
31、 有人碰过这种情况吗:有一台新的腾讯云测试机,CentOS7.6,腾讯云控制台中配置安全组只开放22,8080端口,一开始只用 yum install python3 python3-devel; pip3 install apache-flink 然后官网下载flink tar包 ./bin/start-cluster.sh 然后每次没多久就中kdevtmpfsi这挖矿病毒,把4核全占满
32、 大佬们,有没有搞过flink 完整 监控的,现在什么方式的监控更完善啊,公司要搞个flink 监控,不知道选择什么好
33、 哪位指点下,flink写tidb,模式是upsert,过一阵就会出现挤压,重启之后又可以追回来,能从哪方面排查呢,现在是一个topic 一个partion,主要为了保证有序,下游只能起一个并发,最开始或者重启处理很快,但是过几天就突然间出现挤压,消费不过来。
34、 请问一下 哪位大佬使用过datahub
35、 问个问题,一个有状态的flink程序消费kafka,如果切换kafka topic到一个新的topic,之前的状态是不是无法进行利用了?
36、 Flink 1.10这部分的源码从哪里下载?
37、 对某个模块提了jira , 怎么找合适的commiter 进行assign
38、 各位大佬,昨天我尝试从1.9.1升级到1.10.0时,提交任务出现OOM: Metaspace 异常,代码逻辑无任何变更,只是升级了pom依赖版本,有解决方案吗?
39、 flink 1.9.1现在是还不支持这样insert吗?哪位大佬知道呢
40、 请问一下 。min("key"), minBy("key") 这个区别说的啥意思啊? 我运行的结果一模一样呀
41、 状态的过期时间,哪里可以设置?现在项目上用到了flink,只会flink sql
42、 问下 flink 可以做到 只追加 不更新吗?比如:我mysql 中存在这个key就不更新数据,不存在这个key就 append 进去
43、 请教下大家在任务中是怎么对维表进行实时更新的?
44、 flink sql没法指定并行度。那kafka数据消费不过来,怎么办
45、 有没有大佬flink 整合spring boot成功的,能否发个pom借鉴学习下
46、 想问下,使用flinksql能否实时降kafka数据写入hive,有尝试的没有
47、 flink作业重启的时候,能不能设置自动读取最新的checkpoint数据
48、 standalone集群怎么配置checkpoint呢
49、 各位大佬 我一直有个疑问 概念: WaterMark可以理解为 是为了解决窗口的触发时
50、 有没有大神遇到这个问题,怎么解决?
51、 nk接收kafka数据,利用keyby做窗口聚合,怎么才能避免数据倾斜
52、 请教下大家,要根据现有流中数据,去关联查询数据库中的数据,一般是怎么操作,我想集成jp
53、 flink能不能实现像Quartz 这种定时任务
54、 flink大家怎么在idea里设置调试的?
55、 各位大佬,这中checkpoint失败,应该如何分析啊!
56、 大佬们请问在在运行程序的时候出现 Error:(25, 17) java: 程序
57、 有没有大佬知道flink写多个hdfs应该怎么弄。
58、 哪位大神了解,这里能对source中的非json数据做过滤处理的配置参数么?
59、 flink-kafka用的什么版本哇?支持kafka2.4吗?或者kafka2.0以上
60、 咨询一个flink sql的基础问题,如果要统计的数据(在kafka中)是那种嵌套多层的
61、 有没有碰到过flink被压测后,内存居高不下的情况?
62、 我在本地运行demo,里面的checkpoint是hdfs的,hdfs用nameser
63、 想问一下flink on yarn的模式下,yarn的资源已经满100%了,但是实际机
64、 有大佬解释下这两种内存的具体区别么?
65、 写在flink process里的onTimer,是不是每有一个数据被处理就会注册一
66、 麻烦问一下 flink streaming 写到MySQL的话 如何写效率会高? 直接
67、 麻烦问一下,flink kafka支持动态更改分区么,是用的assgin订阅么?
68、 哪位大神知道,flink 在新任务中,如何获取之前任务中已经创建过的表?
69、 flink 支不支持sqlserver?
70、 flink sql 生成的 operator 名字都是 sql 语句,有办法自定义么?
71、 请问从flink1.10.0升级到flink1.10.1 还需要重新编译flink
72、 每个topic的分区大小呢?
73、 各位大佬,使用udf时遇到一个异常,请帮忙看看,使用方式如下
74、 这个报错,大伙给点建议
75、 我在本地运行demo,里面的checkpoint是hdfs的,hdfs用names
76、 做一个机器学习任务也就是除了alink还得需要aiflow提交alink的job吗?
77、 有基于flink做实时计算平台的吗,针对flink job打印大量日志,这些日志的存储
78、 fink sql 怎么生成数组呢?
79、 Flink有没有提供停止当前实时任务的api?
80、 使用Flink Table对接Kafka 当使用startFromLatest且开启对
81、 求教 flink1.10 集成cdh6.2.0 这个错误有没有解决过的呀?
82、 使用rocksdb也会出现内存溢出 ,哪里配置的不对吗?
83、 flink1.10.0设置状态后端env.setStateBackend(new
84、 Flink生产环境上哪个版本比较好?
85、 flink 可以和 springboot 结合吗?
86、 flink on yarn使用yarn-cluster模式,datanode的内存是隔
87、 flink里面正确使用定时任务加载外部数据的操作时什么样的?我代码里面有个定时,但是调用
88、 现在flink 1.10.0 sql支持create view吗?
89、 mq 的消息 过来需要 join 业务方的数据(mysql table) ,是不是将
90、 Sink Table Metadata 现阶段必须通过手工录入吗?可以通过解析逻辑计划
91、 若采用flink和spark计算的两套数据,那么会不会产生不一致的结果?以哪个为准呢?
92、 ABTest的例子不应该是实时报表场景吗?跟实时数仓有何关系?
93、 用kafka作实时数仓时候,ODS层,是每个topic对应一张原始表,每个DWD及DW
94、 kafka作为实时数仓,它的元数据如何管理的,用啥技术合适?有ignite的使用场景么?
95、 实时数仓血缘关系只是表级别么?如果实时数仓要做字段级别血缘,元数据中心与统一字段指标体
96、 nest metahub这个工具能够自动发现各个接入源的元数据的schema并导入到
97、 在按时间分组统计时候一般是使用flink的时间窗口函数,还是使用regular 聚合,分
98、 维表是在数据加工的时候关联,还是会在ADS层关联,这样提高数据的灵活度
99、 嵌套json 怎么取数?
100、 请教下给位 最近flink sql 关联维度表 非常慢 SELECT cc.us
往期查看:https://developer.aliyun.com/ask/258515

展开
收起
黄一刀 2020-05-19 17:51:47 56852 0
2 条回答
写回答
取消 提交回答
问答排行榜
最热
最新

相关电子书

更多
Flink CDC Meetup PPT - 龚中强 立即下载
Flink CDC Meetup PPT - 王赫 立即下载
Flink CDC Meetup PPT - 覃立辉 立即下载

相关镜像