开发者社区> 问答> 正文

【精品问答】大数据技术问题之Flink百问

12月25日更新

问个问题: 在 SQL 和 流处理 方面,Flink 和 Spark 是 不分伯仲的。 在 图计算 和 机器学习 方面,Spark 有 GraphX 和 MLlib,Flink 有相应的模块 吗? Spark 玩腻了,想换换口味。 望 路过的大佬 回答,小白 请 绕道,谢谢~

读取savepoint 报这个错误 org.apache.flink.util.StateMigrationException: The new key serializer must be compatible. ,有人遇到过吗

我遇到这个问题是taskmanager gc时间过长,暂时调整了超时时间,还有其他解决办法吗?

配置slot数量时,一般和服务器核数是几倍的比例呢?

各位大佬,有没有开源的flink sql web

各位线上Flink作业的监控报警是怎么做的?

flink中代码出错后,导致IO飙升,一般怎么处理?

flink on Kubernetes,目前有哪家公司在生产环境使用这种模式运行吗?运行的怎么样?

checkpoint为啥不放hdfs上?

哪位大佬有FLINK编译Hadoop的文章呀请问一下?

请问如果想判断某一个数据项的数据发生变化时,触发一个规则,用flink如何实现?

有问题想请教大佬们,flink sql-client使用时候,必须有zk,kafka,flink环境吗,还有就是将kafka消息映射成flink sql动态表这个功能,kafka安装的机器必须和clint在一台机器上吗

哪位大佬用cdh6.X集成过Flink1.9的? 求用后的建议以及使用感受。

大佬们,就动态维表join,异步Io的方式好还是广播的方式,推荐哪个?

各位大佬,flink写入mysql的时候,我用的是自定义sink的invoke方法写入的,能否不用这样的方式,因为这个是知道我的目标表的结构和字段名的,我现在的需求是要把它写活,insert插入语句和select的语句我都给拼出来了,我不想用preparedStatement.set的方式设置每一个字段,这样耗时耗力,也不灵活。各位大佬有什么好的方法吗?

各位大佬,我在richprocesswindowfunction里面用redisson连接redis报刚刚那个错,有没有大佬碰到过
image.png

有两个subtask (来源不同的task)在同一台taskmanager 上允许,其中一个subtask反压,会影响另外一个task的subtask吗?

有人对比过flink on yarn 和 flink on Kubernetes 的优缺点吗?

怎么把预警结果写到Kafka的topic?

各位大佬,在跑的job可不可以动态的增加并行度?

如果想搭建一套分布式的训练集群,除了kafka、TensorFlow、hadoop、flink、zookeeper,还需要搭建什么吗?

Flink1.9.0的 SQL达到了商用级别没有?

各位大佬,最近使用window+watermark+processfunction,当input超过一定峰值时,就会丢数据,是processfunction处理能力这块出现的问题吗?


12月17日更新

如果公司要部署一套flink on k8s,HDFS是不是必要的?

官方demo 都是本地的,我想了解一下alink的算法是如何支持分布式数据的

大佬们,想问个cep的场景,监控用户的轨迹,用户的经纬度会上传到后台。我怎么用cep判断一定的时间间隔内,用户行驶的距离超过某个值,并且数据一直有上传,没有关闭定位啥的。

请问有好的讲解state和checkpoint的文章推荐吗?

flink 重复消费fkafka数据怎么解决?

哪位大佬知道azkaban中怎么让两个project作为依赖关系吗?

大佬们 这里为什么用的是flatmap 而不是 map 算子呢?

请问大佬,flink处理后的数据,要展现给前端展现出来的话,数据落地一般用的什么存储中间件?

为啥我把checkpoint由增量checkpoint改为普通checkpoint之后反倒不容易超时了?

impala第一次查询慢 第二次查询快这是什么原因?

实时数仓 和维度表进行关联,如何保证维度表更新的数据能够流入到任务中

我按照这个说法 查询了hive的表数据 如何sink输出呢?
image.png

基于flink开发,需要具备什么条件?比如需要团队懂什么开发语言?属于研发性的工作内容是什么?属于非研发工作的内容有什么?

怎么屏蔽flink checkpoint 打印的info 日志?

问个问题,离线数据和实时数据如何合并啊?

请问 Flink 每天实时统计PV、UV,有啥好的方案么?

提交job时不指定并行度,应该就是使用默认并行度1,想要请问一下,并行度为1时,一个task manager对应多少个slot呢?最大并行度和最大slot取决那块的资源呢?

kafka的partition是不是应该和slot一一对应?我的一个和window有关的应用在slot数目不等于partition的时候会不出结果,另一个单纯读写的应用使用一个slot消费全部partition是可以的。您聊不了解这里面的机制?

欢迎大家加入开发者技术群,一起线上交流

1图片.png-

展开
收起
问问小秘 2019-11-18 16:13:33 122727 0
3 条回答
写回答
取消 提交回答
问答排行榜
最热
最新

相关电子书

更多
Data+AI时代大数据平台应该如何建设 立即下载
大数据AI一体化的解读 立即下载
极氪大数据 Serverless 应用实践 立即下载