文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

pyflink在读取hdfs文件的时候如何使用通配符？

def read_csv_file_example(input_path):
env = StreamExecutionEnvironment.get_execution_environment()

# env.set_parallelism(2)

settings = EnvironmentSettings.new_instance().in_streaming_mode().build() # in_streaming_mode in_batch_mode
t_env = StreamTableEnvironment.create(env, settings)

# 读取 csv 文件
input_descriptor = TableDescriptor.for_connector("filesystem") \
    .option("path", input_path) \
    .format("csv") \
    .option("csv.ignore-parse-errors", "true") \
    .option("csv.field-delimiter", ",") \
    .schema(
    Schema.new_builder()
        .column("device_id", DataTypes.STRING())
        .column("user_id", DataTypes.STRING())
        .column("event_time", DataTypes.TIMESTAMP(3))
        .watermark("event_time", "event_time - INTERVAL '5' SECOND")  # 定义水印生成规则：每个事件的水印 = 该事件的事件时间 - 5 秒
        .build()
).build()

# 注册为临时表
t_env.create_temporary_table('device_events', input_descriptor)

# 创建 Table 对象
csv_table = t_env.from_path('device_events')

# 查看 Schema
csv_table.print_schema()
'''
(
  `device_id` STRING,
  `user_id` STRING,
  `event_time` TIMESTAMP(3) *ROWTIME*,
  WATERMARK FOR `event_time`: TIMESTAMP(3) AS event_time - INTERVAL '5' SECOND
)
'''

# 执行查询
csv_table.limit(20).execute().print()

if name == 'main':
inputpath = "hdfs://10.130.33.76:9000/flink/data2/input*.csv"
read_csv_file_example(input_path)

展开

收起

游客i3vs243rqyvl2 2026-01-21 17:58:34 497 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

0 条回答

写回答

取消提交回答

问答分类：

数据安全/隐私保护流计算

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

访问ECS服务器的网站提示“由于你访问的URL可能对网站造成安全威胁，您的访问被阻断”，这是什么原因？

135738

16

0

#支付宝身份验证失败（人气大爆发，一会再试试）？

10764

2

0

#支付宝授权提示请在支付宝客户端打开链接

18450

19

0

支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】

266793

11

0

轻量级应用服务器端口问题（打不开）

31979

21

0

购买阿里国外的云服务器是否可以访问谷歌？

86889

49

0

this xml file does not appear to have any style in

54512

11

0

今天刚刚买的阿里云香港服务器，国内无法访问，坑啊

35249

17

0

LoRa的网络覆盖能力范围是怎么样的？

4169

1

0

阿里云香港服务器在哪购买？香港云服务器购买流程有吗？

8129

5

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

OpenClaw阿里云/本地部署图文教程：自动化工作流搭建，一个人顶一支团队

喂饭级教学：OpenClaw阿里云/本地部署+Obsidian skill 自动化构建可复用知识库

AI漫剧零代码制作喂饭级教程：OpenClaw阿里云/本地部署+Seed2.0 Skills 实战指南

OpenClaw阿里云/本地部署喂饭级教程，接入Playwright解锁网页自动化操作

新手狂喜！阿里云百炼知识库计费全攻略：免费额度 + 资源包 + 优化技巧

热门讨论

热门文章

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

在Flink CDC中，直接将我生成的application会话kill掉了,有人遇到过吗？

pyflink在读取hdfs文件的时候如何使用通配符？

Flink有2023 Flink Forward Asia 资料下载地址吗?

Flink1.10 python API 对流式处理的支持度如何，能直接用于生产吗？

flink cdc 的oracle xstream监听不到数据，增删改查完全没有，只打印了见建语句

问一下设置timestamp读 kafka 一直报错无效偏移量为啥 ?

提交flink命令后运行时会优先加载 lib下面的jar包吗？严重怀疑平台提供的cdc不是2.1

展开全部

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

流计算StreamCompute

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Flink Checkpoint 问题排查实用指南

史上超强阵容！大数据及人工智能领域顶级盛会，Flink Forward Asia 2019 不容错过！

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

基于Flink的实时日志分析系统实践

【对话科技】Flink技术介绍和新功能展望

Flink: 快速构建统一的实时日志平台

展开全部

还有其他疑问?