|
流计算 资源调度 容器
|

Apache Flink 进阶(六):Flink 作业执行深度解析

本文根据 Apache Flink 系列直播课程整理而成,由 Apache Flink Contributor、网易云音乐实时计算平台研发工程师岳猛分享。主要分享内容为 Flink Job 执行作业的流程,文章将从两个方面进行分享:一是如何从 Program 到物理执行计划,二是生成物理执行计划后该如何调度和执行。

4935 0
来自: 实时计算 Flink  版块
|
分布式计算 机器人 Apache
|

Apache Spark中国技术交流群升级到企业群啦!!!!!!

普通群容量已满足不了Spark群众日益增长的热情,因此我们做了一个重要的决定,将全部群成员转移到企业群

2306 0
|
SQL 算法 API
|

Flink 流批一体的实践与探索

作为 Dataflow 模型的最早采用者之一,Apache Flink 在流批一体特性的完成度上在开源项目中是十分领先的。本文将基于社区资料和笔者的经验,介绍 Flink 目前(1.10)流批一体的现状以及未来的发展规划。

6228 0
来自: 实时计算 Flink  版块
|
分布式计算 MaxCompute 存储
|

MaxCompute技术人背后的故事:从ApacheORC到AliORC

2019大数据技术公开课第一季《技术人生专访》来袭,本季将带领开发者们探讨大数据技术,分享不同国家的工作体验。本文整理自阿里巴巴计算平台事业部高级技术吴刚的专访,将为大家介绍Apache ORC开源项目、主流的开源列存格式ORC和Parquet的区别以及MaxCompute选择ORC的原因。

3356 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Hadoop 云计算
|

2015年上海hadoop in china见闻

市场在发生剧烈的变化,未来10年后的大公司有可能就是现在的小公司。技术也正在发生快速的变革,未来,谁说得好呢?!

2036 0
|
分布式计算 Spark 大数据
|

Apache Spark中国技术交流社区历次直播回顾(持续更新)

Apache Spark中国技术交流社区,由阿里巴巴开源大数据技术团队成立,持续输出spark相关技术直播、原创文章、精品翻译,钉钉群内千人交流学习,欢迎加入。钉钉入群链接 https://qr.dingtalk.com/action/joingroup?code=v1,k1,jmHATP9Tk+okK7QZ5sw2oWSNLhkt2lCRvfHRdW7XhUQ=&_dt_no_comment=1&origin=11 更多视频和ppt资料请入群获得。

4307 0
|
分布式计算 MaxCompute SQL
|

MaxCompute问答整理之8月

本文是基于对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。

2716 0
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 流计算
|

[转载] Spark Streaming 设计原理

最近两年流式计算又开始逐渐火了起来,说到流式计算主要分两种:continuous-based 和 micro-batch。最近在使用基于 micro-batch 模式的 Spark Streaming,正好结合论文介绍一下。

2278 0
|
消息中间件 运维 分布式计算
|

实至名归!Flink 再度成为 Apache 基金会最活跃的开源项目

2019 年对 Apache 软件基金会(简称 ASF)来说,依然是伟大的一年:它标志着开源领导“Apache 之道”(The Apache Way)的 20 年。ASF 的口号,“社区重于代码”(Community Over Code),贯穿于其所做的每一件事,全球有数十亿人受益于价值 200 多亿美元的社区主导的软件,100% 免费提供。

2233 0
来自: 实时计算 Flink  版块
|
新零售 分布式计算 MaxCompute
|

【转载】为什么只有好超市,才敢卖熟牛油果?

本文授权转载自“硅谷洞察”(微信公众号ID: Guigudiyixian) 版权归“硅谷洞察”所有,未经许可不得二次转载 在很多人的印象里,去市场或超市买水产海鲜,谈不上是一件多么享受的事情。但这两年突然爆红的盒马鲜生,则颠覆了人们的这种印象。

2086 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 MaxCompute
|

阿里云大数据平台MaxCompute用户指南官方电子版下载

阿里云大数据平台MaxCompute用户指南

2478 0
来自: 大数据计算 MaxCompute  版块
|
架构师 大数据 程序员
|

大数据平台的发展会降低程序员的价值吗?

针对本题,粗略地把研发人员的能力分为以下3类: 业务逻辑研发的能力:将业务逻辑转化为代码实现的能力。 系统架构的能力:高并发高负荷系统的设计实现能力,系统底层服务的研发能力。 特殊领域: 机器学习,自然语言,搜索推荐,语言与框架的开发等特殊的小众领域,暂不做讨论。

1693 0
来自: 大数据计算 MaxCompute  版块
|
流计算 API SQL
|

Apache Flink 1.9重磅发布!首次合并阿里内部版本Blink重要功能

8月22日,Apache Flink 1.9.0 版本正式发布,本文对此次发版中重要功能特性进行说明,包括批处理作业的批式恢复,以及 Table API 和 SQL 的基于 Blink 的新查询引擎(预览版)State Processor API等等众多社区迫切关注的新特性。

2933 0
来自: 实时计算 Flink  版块
|
SQL HIVE 大数据
|

HIVE优化浅谈

HIVE是数据仓库和交互式查询的优秀框架,但随着数据的增多,join的复杂度和性能问题,需要花时间和精力解决性能优化的问题。除了基于HIVE本身优化,还可以接入计算性能更好的框架,SparkSQL relational cache对使用者透明,开发不需要关心底层优化逻辑,将更多精力放入业务设计开发。

2401 0
|
分布式计算 API MaxCompute
|

Spark DataFrame 不是真正的 DataFrame

最早的 "DataFrame" ,来源于贝尔实验室开发的 S 语言。R 语言,作为 S 语言的开源版本,于 2000 年发布了第一个稳定版本,并且实现了 dataframe。pandas 于 2009 年被开发,Python 中于是也有了 DataFrame 的概念。

2366 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 Spark
|

Adaptive Execution如何让Spark SQL更高效更好用?

本文转发自技术世界,原文链接 http://www.jasongj.com/spark/adaptive_execution/ 1 背  景 Spark SQL / Catalyst 和 CBO 的优化,从查询本身与目标数据的特点的角度尽可能保证了最终生成的执行计划的高效性。

1927 0
|
流计算 资源调度 运维
|

58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密

本文主要讲述 58 实时计算平台如何优化 Flink-Storm 以及基于 Flink-Storm 实现真实场景下大规模 Storm 任务平滑迁移 Flink。

2910 1
来自: 实时计算 Flink  版块

利用PAI-DSW访问Github, 快速获取最新的学习资源

PAI-DSW(Data science workshop)是专门为数据科学探索者们准备的云端深度学习开发环境,用户可以登录 DSW 进行代码的开发并运行工作。目前 DSW 支持了Github下载,让我们可以更加便捷的访问上面的资源.

4830 0
来自: 人工智能平台PAI  版块
|
分布式计算 Spark 数据格式
|

深入剖析 Delta Lake:详解事务日志

事务日志(Transaction log)是理解 Delta Lake 的一个关键点,很多 Delta Lake 的重要特性都是基于事务日志实现的,包括 ACID 事务性、可扩展元数据处理、时间回溯等等。本文将探讨什么是事务日志,如何在文件层面实现,以及怎样优雅地解决并发读写的问题。

3034 0
|
存储 关系型数据库 MySQL
|

DataX:导入4字节UTF8编码(生僻字)到Mysql数据库的utf8mb4数据表

MySql数据库的编码支持UFT8字符集。utf-8编码可能是2个字节、3个字节、4个字节的字符,MYSQL的utf-8编码,只支持3个字节的字符。汉字中很多生僻字都是4个字节的字符,日常生活中人的姓名就会有很多高位的生僻字。

6494 1
来自: 大数据计算 MaxCompute  版块
|
云栖大会 达摩院 程序员
|

太难了!我耗费心力终于规划出了一张云栖大会日程表

十年前,参加云栖大会还只是程序员的杭州朝圣之旅,而如今,它依然成了透视和分析云计算产业和窥见数字经济的窗口。一切你想看见的、期待看见的,甚至未曾预见的,都会在未来的三天中扑面而来。

1861 0
|
存储 SQL 消息中间件
|

都在说实时数据架构,你了解多少?

本文从上述现状及实时数据需求出发,结合工业界案例、笔者的实时数据开发经验, 梳理总结了实时数据体系建设的总体方案。

2543 0
来自: 实时计算 Flink  版块
|
SQL 消息中间件 监控
|

OPPO 实时数仓揭秘:从顶层设计实现离线与实时的平滑迁移

单日总数据处理量超 10 万亿,峰值大概超过每秒 3 亿,OPPO 大数据平台研发负责人张俊揭秘 OPPO 基于 Apache Flink 构建实时数仓的实践,内容分为以下四个方面:建设背景、顶层设计、落地实践、未来展望。

2789 0
来自: 实时计算 Flink  版块
|
SQL 分布式计算 MaxCompute
|

MaxCompute SQL 使用正则表达式选列

编辑MaxCompute SQL 时,经常会需要在某个表N个列中指定一些列。若需要指定的列比较少,编写SQL时一个个输入既可。当遇到列多的时候,一个个输入就会非常费劲。本文将介绍如何在编写MaxCompute SQL时通过正则表达式表达列(column),从而提升编码效率。

2948 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 资源调度
|

SQL 开发任务超 50% !滴滴实时计算的演进与优化

Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。滴滴基于 Apache Flink 做了大量的优化,也增加了更多的功能,比如扩展 DDL、内置消息格式解析、扩展 UDX 等,使得 Flink 能够在滴滴的业务场景中发挥更大的作用。

2524 0
来自: 实时计算 Flink  版块
|
存储 分布式计算 Apache
|

Spark Streaming 框架在 5G 中的应用

在发展 5G 和 IoT 场景的准备阶段,爱立信研究了各种可扩展和灵活的流处理框架,以解决数据流水线问题以及提升整体性能。我们通过机器学习流数据进行自适应学习和智能决策从而实现各个领域的自动化。其中使用机器学习算法从流数据中逐步学习模型和获取信息是一个巨大的挑战。

2030 0
|
大数据 Apache Python
|

Koalas:让 pandas 轻松切换 Apache Spark

4 月 24 日,Databricks 在 Spark + AI 峰会上开源了一个新产品 Koalas,它增强了 PySpark 的 DataFrame API,使其与 pandas 兼容。本文转自:https://www.infoq.cn/article/tvGrtwJxCR1kQDs_kqa4

2761 0
|
存储 大数据 BI
|

Iceberg 在基于 Flink 的流式数据入库场景中的应用

本文以流式数据入库的场景为基础,介绍引入 Iceberg 作为落地格式和嵌入 Flink sink 的收益,并分析了当前可实现的框架及要点。

3897 0
来自: 实时计算 Flink  版块
|
存储 SQL 大数据
|

列式存储系列(一)C-Store

列式存储系列(一)概述 序 本文是列式存储系列的第一篇。在这个系列中,我们将介绍几个典型的列式存储系统。这些列式系统的出现都有各自的时代背景。在介绍这些系统的同时,我们也尽量介绍一下它们的背景,以便大家有一个更宏观的认识,理解这个系统为什么会出现,它要解决的问题,以及它如何影响后来类似系统的发展。

3124 0
|
存储 分布式计算 大数据
|

# Apache Spark系列技术直播# 第七讲 【 大数据列式存储之 Parquet/ORC 】

主讲人:诚历(孙大鹏)阿里巴巴计算平台事业部EMR技术专家 简介:Parquet 和 ORC 是大数据生态里最常用到的两个列式存储引擎,这两者在实现上有什异同,哪个效率更好,哪个性能更优,本次分享将和您一起探索两大列式存储。

1714 0
|
机器学习/深度学习 SQL 人工智能
|

Flink 如何支持特征工程、在线学习、在线预测等 AI 场景?

人工智能应用场景中,Flink 在包括特征工程,在线学习,在线预测等方面都有一些独特优势,为了更好的支持人工智能的使用场景,Flink 社区以及各个生态都在努力。本文将介绍近期 Flink 在人工智能生态系统中的工作进展。

2909 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 存储 分布式计算
|

25 亿条/秒消息处理!Flink 又双叒叕被 Apache 官方提名

3 月 26 日,Apache 官方博客宣布其成立 21 周年,博客中对 Apache 之道、Apache 大型项目的应用以及 Apache 基金会里程碑事件进行了盘点。其中 Apache Flink 在 2019 年阿里巴巴双 11 场景中突破实时计算消息处理峰值达到 25 亿条/秒的记录被 Apache 官方博客收录。

1858 0
来自: 实时计算 Flink  版块
|
分布式计算 大数据 Apache
|

Koalas:让 pandas 轻松切换 Apache Spark

4 月 24 日,Databricks 在 Spark + AI 峰会上开源了一个新产品 Koalas,它增强了 PySpark 的 DataFrame API,使其与 pandas 兼容。本文转自:https://www.infoq.cn/article/tvGrtwJxCR1kQDs_kqa4

1732 0
|
SQL 存储 Kubernetes
|

一行配置作业性能提升53%!Flink SQL 性能之旅

在本文中,我们想带你一起看看是否能够从现有机器中激发出更多的性能,以及如何实现?我们还会为不同于 PoC 代码的作业提供进一步的提示,并对未来的工作进行展望。

1528 0
来自: 实时计算 Flink  版块
|
缓存 分布式计算 资源调度
|

基于 Flink 的超大规模在线实时反欺诈系统的建设与实践

如何更快速地预防或甄别可能的欺诈行为?如何从超大规模、高并发、多维度的数据中实现在线实时反欺诈?这些都是金融科技公司当下面临的主要难题。针对这一问题,玖富集团打造基于 Flink 的超大规模在线实时反欺诈系统,快速处理海量数据并实现良好的用户体验。

1607 0
来自: 实时计算 Flink  版块
|
存储 分布式计算 资源调度
|

百万TPS高吞吐、秒级低延迟,阿里​搜索离线平台如何实现?

阿里主搜(淘宝天猫搜索)是搜索离线平台非常重要的一个业务,具有数据量大、一对多的表很多、源表的总数多和热点数据等特性。对于将主搜这种逻辑复杂的大数据量应用迁移到搜索离线平台总是不缺少性能的挑战,搜索离线平台经过哪些优化最终实现全量高吞吐、增量低延迟的呢?

1615 0
来自: 实时计算 Flink  版块
|
分布式计算 Spark Java
|

Spark在MaxCompute的运行方式

Spark on MaxCompute的客户端配置以及idea开发环境的配置

5659 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 Linux
|

钉钉群直播【Migration to Apache Spark】

Spark因其统一引擎、性能、易用性等特点备受青睐,将大数据处理引擎迁移到Spark已经成为一种趋势(比如将Hive迁移到SparkSQL),很多大公司也正在实践。

1997 0
|
机器学习/深度学习 分布式计算 大数据
|

钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】

数据中台应该是什么样子?如何基于MLSQL完成数据中台的构建? MLSQL是如何基于Spark来完成这些扩展的? Databricks公司新开元项目Delta对于数据和机器学习的意义何在?

1208 0

钉钉群直播【E-MapReduce产品探秘,快速构建可扩展的高性能大数据平台】

E-MapReduce整体介绍。通过EMR如何构建一个云上的大数据集群,常见的使用场景和硬件选型指南。

1169 0
|
消息中间件 存储 安全
|

Flink kafka source & sink 源码解析

本文基于 Flink 1.9.0 和 Kafka 2.3 版本,对 Flink Kafka source 和 sink 端的源码进行解析,主要分为 Flink-kafka-source 源码解析、Flink-kafka-sink 源码解析两部分。

3334 0
来自: 实时计算 Flink  版块
|
分布式计算 Spark 存储
|

Spark Relational Cache实现亚秒级响应的交互式分析

阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。在2019杭州云栖大会大数据生态专场上,阿里巴巴技术专家王道远为大家分享了阿里云EMR的Spark Relational Cache实现亚秒级响应的交互式分析。

2748 0
|
机器学习/深度学习 分布式计算 安全
|

钉钉群直播Spark + AI 北美峰会参会分享

Spark + AI 北美峰会 2019 盛况依然,这两天正如火如荼。大会的主题是 Build,Unify,Scale,对此如何理解?砖厂这次有哪些重磅消息和重要发布,并作如何解读?Spark 过去几年发展的基调和线索是什么,从这次峰会上又如何看出 Spark 在未来几年的发展端倪?阿里巴巴计算平台.

879 0
|
SQL XML JavaScript
|

【若依Java】15分钟玩转若依二次开发,新手小白半小时实现前后端分离项目,springboot+vue3+Element Plus+vite实现Java项目和管理后台网站功能

摘要: 本文档详细介绍了如何使用若依框架快速搭建一个基于SpringBoot和Vue3的前后端分离的Java管理后台。教程涵盖了技术点、准备工作、启动项目、自动生成代码、数据库配置、菜单管理、代码下载和导入、自定义主题样式、代码生成、启动Vue3项目、修改代码、以及对代码进行自定义和扩展,例如单表和主子表的代码生成、树形表的实现、商品列表和分类列表的改造等。整个过程详细地指导了如何从下载项目到配置数据库,再到生成Java和Vue3代码,最后实现前后端的运行和功能定制。此外,还提供了关于软件安装、环境变量配置和代码自动生成的注意事项。

21148 67
|
编解码 Apache 项目管理
|

揭秘!开源软件背后的神秘组织

Flink 社区将分享“走进 ASF”系列内容,先从宏观介绍 ASF 是如何运作的,然后详细解说如何参与 Apache 具体项目做贡献,如何成为某个项目的 Committer、PMC 成员,如何选择多个 Apache 项目进行多领域贡献并成为 ASF Member 等,希望有助于你真正了解开源、参与开源。

1669 0
来自: 实时计算 Flink  版块
|
流计算 分布式计算 Spark
|

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

本次直播我们邀请了Tablestore存储服务技术专家 朱晓然 ,为大家详细介绍如何基于Tablestore的CDC技术,将大表内实时数据更新对接Spark Streaming来实现数据的实时计算和处理。

1035 0

【评分卡】0925_信用卡消费分析_215

0925_信用卡消费分析_215<br />数据源:<br />数据大小:1.36 MB<br />字段数量:25<br />使用组件:分箱,样本稳定指数(PSI),评分卡训练,拆分,评分卡预测,读数据表<br />

890 0
来自: 人工智能平台PAI  版块
|
供应链 Python
|

Demand Forecasting模型解释与Python代码示例

Demand Forecasting模型解释与Python代码示例

1808 1
|
5月前
|
机器学习/深度学习 JSON 监控
|

国内最大的MCP中文社区来了,4000多个服务等你体验

国内最大的MCP中文社区MCPServers来了!平台汇聚4000多个服务资源,涵盖娱乐、监控、云平台等多个领域,为开发者提供一站式技术支持。不仅有丰富的中文学习资料,还有详细的实战教程,如一键接入MCP天气服务等。MCPServers专注模块稳定性和实用性,经过99.99% SLA认证,是高效开发的理想选择。立即访问mcpservers.cn,开启你的开发之旅!

5239 16
|
8月前
|
Windows
|

Office Tool Plus 永恒经典,让每个人都能轻松使用上免费的办公神器!

本文介绍如何使用Office Tool Plus在Windows 11系统上快速、免费安装和激活Office。首先,下载并解压Office Tool Plus,启动后选择“Microsoft 365企业应用版”并设置为简体中文,点击“开始部署”。安装完成后,可通过两种方法激活Office:一是使用命令框输入特定指令,二是通过KMS激活。推荐使用KMS服务器(如kms.loli.beer)进行激活。此外,若之前安装过Office,需先清除激活信息和旧版本残留文件,以确保新安装顺利进行。

3590 9