备案控制台

开发者社区问答正文

PyFlink DataStream API 作业（适合线上作业）完整的作业示例是什么？

PyFlink DataStream API 作业（适合线上作业）完整的作业示例是什么？

展开

收起

游客qzzytmszf3zhq 2021-12-07 15:11:51 392 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客yzrzs5mf6j7yy

from pyflink.common.typeinfo import Types
from pyflink.datastream import StreamExecutionEnvironment
from pyflink.table import StreamTableEnvironment


def data_stream_api_demo():
    env = StreamExecutionEnvironment.get_execution_environment()
    t_env = StreamTableEnvironment.create(stream_execution_environment=env)
    env.set_parallelism(4)

    t_env.execute_sql("""
            CREATE TABLE my_source (
              a INT,
              b VARCHAR
            ) WITH (
              'connector' = 'datagen',
              'number-of-rows' = '10'
            )
        """)

    ds = t_env.to_append_stream(
        t_env.from_path('my_source'),
        Types.ROW([Types.INT(), Types.STRING()]))

    def split(s):
        splits = s[1].split("|")
        for sp in splits:
            yield s[0], sp

    ds = ds.map(lambda i: (i[0] + 1, i[1])) \
           .flat_map(split, Types.TUPLE([Types.INT(), Types.STRING()])) \
           .key_by(lambda i: i[1]) \
           .reduce(lambda i, j: (i[0] + j[0], i[1]))

    t_env.execute_sql("""
            CREATE TABLE my_sink (
              a INT,
              b VARCHAR
            ) WITH (
              'connector' = 'print'
            )
        """)

    table = t_env.from_data_stream(ds)
    table_result = table.execute_insert("my_sink")

    # 1）等待作业执行结束，用于local执行，否则可能作业尚未执行结束，该脚本已退出，会导致minicluster过早退出
    # 2）当作业通过detach模式往remote集群提交时，比如YARN/Standalone/K8s等，需要移除该方法
    table_result.wait()


if __name__ == '__main__':
    data_stream_api_demo()

2021-12-07 15:12:04

赞同展开评论

问答分类：

API 实时计算 Flink版

问答标签：

API示例 datastream API API pyflink pyflink API API作业

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

在阿里云视觉智能开放平台中，活体检测api有没有postman的示例调用？

185

3

0

Flink的datastream api消费holo表的binlog的时候起始时间是怎么设置的？

120

1

0

PyFlink在功能上如何与Java API对齐？

82

1

0

请问机器翻译中http 的api调用文档是否有其他语言的版本示例？

134

1

0

阿里云百炼通过Assistant API自实现一个Function，继承哪个基类，有参考示例么？

108

1

0

文字识别OCR 这边有作业批改的API吗？

199

1

0

在Flink CDC中获取DDL是用Flink的DataStream API拿到的吧？

137

1

0

在Flink CDC中目前只能用DataStream API来实现吗？

85

1

0

这个API那个公共参数不就8个吗？后面然后跟上调用接口的参数对面？

1073

0

0

FC的域名管理有API接口吗？

1077

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

上传文件时提示“Illegal file path”，怎么解决的？

阿里云ESA是什么？边缘安全加速和CDN有什么区别？

阿里云短信收费标准，短信群发平台是怎么收费的？

通义灵码使用代理报错

idea通义灵码插件，更新后怎么一直用英文回答。开始对话时，告诉它之后的问题使用中文回答也不行

相关文章

入选国际顶会！阿里云大模型优化与智能体技术取得突破性成果

沃尔玛商品详情 API 与库存 API 联动：实时库存同步与低库存预警实现

Nginx反向代理Cookie处理（小白也能看懂的详细教程）

微服务安全之 OAuth2 协议深度解析：从原理到实战落地

LLM提示注入攻击深度解析：从原理到防御的完整应对方案

还有其他疑问?