百问求答(2)大数据专场来啦!写回答赢大奖!

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
实时数仓Hologres,5000CU*H 100GB 3个月
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
简介: 百问求答(2)大数据专场来啦!写回答赢大奖!

活动已结束


获奖名单如下,请获奖同学前往积分商城兑换奖品

问答用户二维码.png

image.png



百问求答第1期活动获得了众多用户的参与与支持,为了让更多人的困惑得到解答,第二期大数据专场来啦!参与回答,赢取大奖!还有机会成为“乘风问答官”,享受问答最高荣誉与权益。


奖项设置


奖项

奖品

获奖条件

参与奖

50积分

切合题意的回答数量≥10条

二等奖

小米米家蓝牙温湿度计+乘风问答官名额

切合题意的回答数量≥30条

一等奖

小米有品映趣剃须刀+乘风问答官名额

切题题意的回答数量≥50条,

且200字以上图文结合的回答超过3条 

注:问题已有解答,但你有其他解决方案也可作答,将记录在内;若回答雷同,将不计数。

活动流程:

  1. 回答文末中任一的问题,即视为参与本次活动;
  2. 钉钉扫码入群,第一时间获取活动进度及获奖名单。

问答用户二维码.png

活动时间

2022年11月21日至11月30日24:00

获奖名单公布及奖品邮寄时间

获奖名单将于活动结束后3个工作日公布,奖品将于7个工作日内进行发放,节假日顺延。

活动规则

1、 回答仅限下文链接中的问题,其他回答不计数;

2、 请回答能力范围内的问题,充数回答或与问题无关的答案将不计算在内;

3、 回答需为中文,英文不记录数据(代码除外);

4、 回答发布后将进入审核状态,审核完成即可查看;

5、 标题党、黑稿、通稿、包含违法违规、未被许可的商业推广、外站链接、非原创内容、营销软文、抄袭嫌疑的文章审核将不予通过,同时取消参赛资格。


待回答的问题链接

flink

  1. 有一个问题 flink cdc 使用sql 进行group by 录入的时候,长时间会造成内存溢出吗
  2. 为什么2.3的flink cdc 抽的binlog的时间是0?
  3. flink SQL能获取到op字段在select里面查出来吗?
  4. 问一下FlinkSQL有什么可视化工具吗?
  5. 各位有个问题请教一下,我部署的是flink on yarn session ,3台机器,启动时候-n
  6. 各位大佬,oracle cdc使用的时候因为数据变化量比较大导致在flink同步的时候,整个oracle被拖的非常慢,这个有什么比较好的解决方案吗?oracle cdc是不是本身就不是很健全,要做oracle的实时同步有什么比较好方式吗
  7. 请教下各位,不知道flink cdc同步mysql数据库的数据跟datahub、dataworks或者是hologres的关系。我现在想利用flinkcdc和hologres做实时数仓。flink cdc到holo 的方法不是很清楚。若果可以的话能否提供些demo或者资料,感谢,打扰了。
  8. 请教下,我之前将数据通过DataHub再到DataWorks做离线数仓。现在想用flink cdc和Hologres做一个试试数仓。 在搭建实时数仓的时候从flink cdc 同步的数据是先到datahub还是直接到hologres呢?关于这个问题我还没想好。 从flink cdc 来的数据是原数据,在进holo之前还想有个清理的过程。
  9. 有flink cdc 取mysql数据直接到holo的方法么?
  10. 请教个问题,用flink读本地文件可以得到输出结果,但是提交到flink单机模式服务器上执行jar包就看不到输出结果,任务2秒就结束了,也没有报错日志,有大神知道是什么原因吗
  11. 各位大佬,请教一下,如果在flink cdc sql客户端 使用SQL查询表,怎么能记录原系统的数据是变更还是删除操作状态及时间呢?
  12. flink sql 创建后,源库删除,目标不删除,这个操作有好的解决方法没呀?
  13. 取消 flink 作业后 ,发现 flink 所在的 taskmanage 挂掉了。上面的 flink job 没有自动迁移到别的机器,一直重启中,这是什么原因呢 taskmanage 挂掉, job 应该会自动迁移到别的机器吧?
  14. flink cdc 抽MySQL数据,一开始抽一张表,checkpoint成功了,后面加了一张表,然后用一张表的时候的checkpoint路径启动,发现抽不了数,也不报错,什么原因?
  15. 各位大佬,请教个问题,使用flink cdc读取数据时,如果配置一个表,数据过滤是发生在server端,即只读取一个表,发送一个表的数据;还是读取整个库的数据,发送到client端,然后在client端过滤出配置的表?
  16. 我使用flink cdc StartupOptions.latest() 采最新的日志。要是程序挂了,这个是继续上次的偏移量进行采集。还是从最新的开始啊?
  17. 我现在flink服务启动之后,占用的cpu有点多,20%-30%。服务器是64核的。这样正常吗?
  18. flink cdc 怎么做断点续传啊
  19. flink sql 可不可以实现 过滤某种操作事件
  20. 请教下有flink cdc 对接mysql5.6的demo么?我这边显示各种包错误
  21. 请问大家,flink CDC说是支持clickhouse,但是我使用jdbc connector报错,在flink官网也没找到clickhouse connector。 这是需要自己开发么?
  22. 大佬们,flink cdc如何限制拉取的数量?flink内存不多
  23. 我们公司有最近有这个需求,把oracle数据抽取到clickhouse,在技术选型上看到flinkcdc跟chunjun,感觉都能做,不知道有哪些不一样的地方
  24. 大家有测试过 一个脚本采用flink cdc 同步mysql 能同时同步多少表吗 ?
  25. 大佬们,flink这个ck一直在这个状态,可能是什么原因?
  26. 各位,Flink 的离线计算的数据是怎么存放的?是存在 HDFS(或Hive)上的吗?
  27. jdbc_2.12-1.14.4 sink支持回撤流吗?似乎flink sql中-D的数据并不能执行
  28. 有人知道,这个在任务提交到flink集群的时候怎么做么?
  29. 提交flink任务的机器上是时间是UTC时间 为啥提交jar包之后 在flink web ui 显示的是北京时间呢?有大佬能说下原因吗?
  30. 有大佬知道flink监控的这块数据的源码实现是在哪里的吗?
  31. 大佬们,我在用flink cdc 采集mysql表时,表里面有一个字段是 `signed_pdf`
  32. 有Flink cdc Oracle 商用的嘛?
  33. 有谁知道flink cdc连接后,读不到归档日志是什么问题?在别的环境好好的,换个环境里不行,代码也不报错
  34. 请教一个小白的问题,我看官网上flink cdc 2.2.* 版本 支持 flink 1.13., 1.14. ,1.15 及以后的flink版本不能用cdc吗?
  35. flink 1.15.2 sql cli 创建catalog报错这个
  36. flink cdc 2.0 是分片机制,全量同步,怎么保障顺序同步?状态需要顺序的
  37. flink 15版本cdc connector同步mysql的数据,本地能拉取到数据,打jar包之后提交就拉取不到变更数据了,而且看不到错误日志?有人遇到过这个情况吗?
  38. flink采集mysql的数据,设置的StartupOptions.initial() ,理论上应该是读取完快照数据后,切换为读取binlog数据,但是现在不读了
  39. 各位, 请问: flink cdc, 用 flink sql 的方式 sink 到 kafka 可以指定输出 schema 信息嘛? 看到好像只有 api 中可以指定 .deserializer(new JsonDebeziumDeserializationSchema(true)). flink sql 没办法嘛?
  40. Flink CDC支持计算列吗?
  41. 请问flink cdc oracle 可以实现从oracle 19c的备库(data guard),实时同步数据吗?
  42. Flink On Yarn模式,有办法可以固定jobmanager.rpc.port端口吗?
  43. 我使用的cdc是2.2.0版本,flink是1.14.3版本,自己编译的jar包。但是我允许github上的官方样例代码报错
  44. flink cdc读取oracle数据,需要的最小权限列表是什么,DBA反馈给的权限过大,不同意这么
  45. flink cdc内置了kafka 监听binlog文件的时候 是把所有监听的数据写入kafka的
  46. 请问有人知道在flink cdc读取oracle的数据表或视图时,这个oracle用户需要具备哪些权限呢?目前我测试单表只读权限的用户提示权限不足。


datawork

  1. 请问下,我的业务场景是有个字段是身份证号,我需要用正则表达式控制这个字段的质量,dataworks的功能支持吗?
  2. 请问dataworks迁移助手在3.12版本有没有
  3. dataworks的临时查询里面我建表,也提示成功了,怎么不找建好的表呢
  4. Dataworks 的ip 在哪里看?新增数据源的时候要,添加到数据库的白名单
  5. 这边使用dataworks离线同步时,源端es,对端也是es出现了上述脏数据是为什么
  6. datawork这个地方的错误信息我要看到全部 怎么看啊?
  7. datawork数据集成的时候想把数据库中除某个字段外其他的值更新了,怎么写啊
  8. bi连接dataworks数据源 问一下生产环境 这块咋开启呀 我现在有表的权限都授予了 但是还是无法同步
  9. datawork请问执行sql时报错quota not enough,请问是什么问题
  10. datawork这个同步任务为什么会空指针啊
  11. datawork要删掉一个数据集成,但是这个数据集成里面也找不到这个数据集成,里面生成的表已经被删掉了,然后生产环境里面找不到这个数据集成,但是大数据局那边有这个数据集成说是失败,那这个数据集成要怎么彻底从生产环境删掉呢
  12. dataworks有可以在工作空间设置全局变量的地方吗?
  13. dataworks动态阈值监控规则是15天才能触发嘛?
  14. dataworks中导入本地数据的时候预览都正常,正式导入报这个错是为什么?
  15. dataworks中数据源配置备库,并且数据集成使用独享资源组,为什么还会走主库?


hologres

  1. holo查询耗时突然增加了是怎么回事?
  2. 问下jdbc写入holo 有什么方式能提高写入效率吗?
  3. holo的向量化执行这块都在哪些地方使用了simd指令了啊,这个有文档介绍吗


其他

  1. 请问一下数据集成elasticsearch数据配置时间过滤,读取不到数据,是我配置的哪里有问题吗,配置条件过滤是可以读取出数据的
  2. pyodps报错,怎么回事呀
  3. 实时同步数据到odps后,当天的分区数据只能第二天看到?
  4. 如何同步opds 表数据 同步到 阿里elasticsearch
  5. 请问如果我同步的hive表是分区表,分区字段是insert date,在配置离线同步界面应该怎么弄呀?这样好像不太对
  6. quick BI链接数据源能查看所有的表,是什么原因呢
  7. datahub往maxcompute用Connector同步数据 为啥自动生成了一个rowkey得列
  8. odps同步到mysql脏数据报错,因为底层数据包含表情符号,但mysql的库表字段字符集都改成utf8mb4了,现在要怎么操作呢
  9. 请问一下集群id和emr实例id怎么获取到???
  10. 怎么编写任务 有demo吗?
  11. 简单模式,授权给用户开发角色后,这个用户删除表报权限不足,该如何处理
  12. 通过向导模式配置离线同步任务和通过向导模式配置离线同步任务2.0看哪个?
  13. 数据集成连接达梦数据库,但数据集成不支持向导模式,哪位大佬帮我看看这个josn是啥意思
  14. 有一个问题咨询一下 是不是行式存储 一般都建议用clustering key ,这个可以用2列字段
  15. 如果我还有第三个字段要设置索引,这个时候你建议怎么做?
  16. 请问这是什么原因??
  17. 问下我一次性任务会出现调度呢?
  18. 我想用insert_date字段作为我的分区信息,这样配置对吗?
  19. 之前配置一个实时同步数据库到Kafka的任务,开发和生产都会同步,为什么改了?
  20. 数据保护伞中,数据发现界面,查询条件中如何添加其他项目空间
  21. 执行补数据任务空跑是什么原因
  22. 业务分类下面是可以关联数据域和数据集市的,创建数据集市的时候可以选择关联的业务分类。而创建数据域的时候无法选择关联的业务分类是啥原因啊?
  23. 请问大家,天ds,小时hh,周和月分区是如何命名的?
  24. 我使用数据实时同步的时候发现有个字段在库里有值但是拉取后就没有了
  25. 请问这个是什么情况呀?
  26. 数据集成界面怎么又变动变为了这种形式
  27. 我可以自定义格式化吗
  28. 脚本中有个变量的,,现在单独放在资源组里面,赋值节点调用的时候能传参进去吗
  29. 为啥返回Null?用keyvalue函数
  30. 请问API怎么实现不通单位获取数据的权限控制啊
  31. 打算一个项目一个项目切,新项目划出CU了 但是必须把老项目都换个资源组吗?
  32. 麻烦问下rowdata怎么转成string或者json
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6月前
|
数据可视化 大数据 数据挖掘
瓴羊荣获2023虎啸奖“年度十大AI&大数据服务公司”“数智营销案例铜奖”双重大奖
瓴羊荣获2023虎啸奖“年度十大AI&大数据服务公司”“数智营销案例铜奖”双重大奖
112 0
|
存储 分布式计算 大数据
解决世界级大数据难题,阿里云自研MaxCompute再获科技大奖
5月14日,浙江省科学技术奖励大会正式召开,阿里云自研大数据计算平台MaxCompute荣获浙江省科技进步一等奖。
1917 0
|
存储 分布式计算 大数据
解决大数据难题 阿里云MaxCompute获科技大奖
据介绍,MaxCompute(大规模分布式的数据计算平台)是国内最早自研的大数据计算平台之一,主要应用于大规模数据处理场景。目前,这项源自浙江、解决世界级难题的成果已拥有EB(百京)级别的数据存储能力、百PB(千兆)级的单日计算能力。
10537 0
|
大数据 数据库
大数据产业生态大会召开 偶数科技获政府行业大奖
本文讲的是大数据产业生态大会召开 偶数科技获政府行业大奖近日,由中国电子信息产业发展研究院主办的“2017中国大数据产业生态大会暨中国大数据产业生态联盟周年庆”活动在北京举行,云数据仓库领导厂商偶数科技受邀参会并成为“中国大数据产业生态联盟“理事单位。
1490 0
|
Web App开发 分布式计算 大数据
参加“谛听金融大数据产品”的开发,赢得了IBM Spark全球大赛的中国大奖
项目团队: 项目可视化web:  http://diting.tech/diting/视频与代码:        http://diting.tech/diting/download_contact.
1342 0
|
1月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
4天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
50 7
|
4天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
15 2