|
存储 API 调度
|

Mars 如何分布式地执行

先前,我们已经介绍过 Mars 是什么。如今 Mars 已在 Github 开源并对内上线试用,本文将介绍 Mars 已实现的分布式执行架构,欢迎大家提出意见。 架构 Mars 提供了一套分布式执行 Tensor 的库。

3351 0
来自: 大数据计算 MaxCompute  版块
|
流计算 API 存储
|

Apache Flink 零基础入门(五):流处理核心组件 Time&Window 深度解析

为什么要有 Window; Window 中的三个核心组件:WindowAssigner、Trigger 和 Evictor;Window 中怎么处理乱序数据,乱序数据是否允许延迟,以及怎么处理迟到的数据;最后我们梳理了整个 Window 的数据流程,以及 Window 中怎么保证 Exactly

4455 0
来自: 实时计算 Flink  版块
|
资源调度 网络性能优化 调度
|

阿里巴巴搜索在离线统一调度

1. 发展历程         Hippo是搜索事业部调度系统团队自研的支撑集团内外多个BU搜索与推荐体系和阿里云上Opensearch/ES等的调度系统,经过了5年的快速发展,提供了可靠、简单、低成本的资源及应用托管方案,通过自动化运维、机器合池、智能弹性调度、混部和在离线统一调度等手段解决成本和效率的问题。

5019 0
来自: 智能搜索推荐  版块
|
存储 SQL 消息中间件
|

美团点评基于 Flink 的实时数仓平台实践

数据仓库的建设是“数据智能”必不可少的一环,也是大规模数据应用中必然面临的挑战,而 Flink 实时数仓在数据链路中扮演着极为重要的角色。本文中,美团点评高级技术专家鲁昊为大家分享了美团点评基于 Apache Flink 的实时数仓平台实践。

5169 0
来自: 实时计算 Flink  版块
|
消息中间件 数据采集 分布式计算
|

在 Cloudera Data Flow 上运行你的第一个 Flink 例子

本文主要是介绍如何在 CDH6.3 中安装 Flink 1.9 以及运行你的第一个 Flink 例子。

2910 0
来自: 实时计算 Flink  版块
|
监控 安全 大数据
|

阿里云Elasticsearch11月2日正式商业化,双十一大促最低5折

阿里云Elasticsearch是阿里云和Elasticsearch开源公司Elasitc联合打造的重磅产品,经过了2个月的公测锤炼,已于11月2日正式商业化。我们决定在双十一期间(11月10日~11日)以最低5折的产品优惠回馈广大用户。

2868 0
|
分布式计算 安全 大数据
|

开源大数据周刊-第46期

2607 0
|
数据可视化
|

分享你的花样DataV

投稿你与DataV的“爱恨情仇”就有机会获得丰富的奖品!

5200 0
来自: 数据可视化DataV  版块
|
SQL 大数据 测试技术
|

blink测试技术介绍

blink测试团队成立一年多的时间,从无到有,逐步建立起完整的blink测试体系,从代码质量到集成测试再到预发测试,全方位保障blink质量,取得了显著的成果。

4178 0
来自: 实时计算 Flink  版块
|
算法 大数据 测试技术
|

京信通信:数据智能为生产调试“增效瘦身”

“数据驱动测试优化,突破自动测试边界,赋能智慧测试新模式。”——京信智能制造副总经理葛鑫 “进入车间,映入眼帘的是一条长约20 米的 O 型生产线,产线前三名工人和几个机器人正协同工作,将各种元器件的印刷线路板(PCBA 板)与产品壳体组装起来。

2652 0
来自: 大数据计算 MaxCompute  版块
|
大数据
|

国庆宅在家?不如来玩玩阿里云大数据产品系列教程~

爱学习的你的国庆最佳选择

2618 1
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Shell MaxCompute
|

如何制作可以在 MaxCompute 上使用的 crcmod

之前我们介绍过在 PyODPS DataFrame 中使用三方包。对于二进制包而言,MaxCompute 要求使用包名包含 cp27-cp27m 的 Wheel 包。但对于部分长时间未更新的包,例如 oss2 依赖的 crcmod,PyPI 并未提供 Wheel 包,因而需要自行打包。

3407 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute Java
|

这样才能正确解锁MaxCompute客户端

飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。

3819 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 新零售 人工智能
|

阿里云机器学习PAI征文大赛正式启动

征文大赛奖品丰厚

2477 0
来自: 人工智能平台PAI  版块
|
流计算 API Scala
|

Flink SQL 系列 | 5 个 TableEnvironment 我该用哪个?

本文为 Flink SQL 系列文章的第二篇,前面对 Flink 1.9 Table 新架构及 Planner 的使用进行了详细说明,本文详细讲解 5 个 TableEnvironment 及其适用场景,并介绍 Flink 社区对 TableEnvironment 的未来规划。

5869 1
来自: 实时计算 Flink  版块
|
SQL 消息中间件 存储
|

小米流式平台架构演进与实践

小米业务线众多,从信息流,电商,广告到金融等覆盖了众多领域,小米流式平台为小米集团各业务提供一体化的流式数据解决方案,主要包括数据采集,数据集成和流式计算三个模块。目前每天数据量达到 1.2 万亿条,实时同步任务 1.5 万,实时计算的数据 1 万亿条。

2598 0
来自: 实时计算 Flink  版块
|
存储 消息中间件 人工智能
|

开源大数据周刊-第51期

2280 0
|
SQL Kubernetes Java
|

102万行代码,1270 个问题,Flink 新版发布了什么?(附最佳实践电子书)

2 月 12 日,Apache Flink 1.10.0 正式发布,在 Flink 的第一个双位数版本中正式完成了 Blink 向 Flink 的合并。在此基础之上,Flink 1.10 版本在生产可用性、功能、性能上都有大幅提升。本文将详细为大家介绍该版本的重大变更与新增特性。

2237 0
来自: 实时计算 Flink  版块
|
消息中间件 分布式计算 监控
|

日志数据如何同步到MaxCompute

日常工作中,企业需要将通过ECS、容器、移动端、开源软件、网站服务、JS等接入的实时日志数据进行应用开发。包括对日志实时查询与分析、采集与消费、数据清洗与流计算、数据仓库对接等场景。本次分享主要介绍日志数据如何同步到MaxCompute。

3691 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 分布式计算 自然语言处理
|

【译】Spark NLP使用入门

原文链接: [https://www.kdnuggets.com/2019/06/spark-nlp-getting-started-with-worlds-most-widely-used-nlp-library-enterprise.html) 译者:辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。

4206 0
|
SQL 容器 流计算
|

Apache Flink 零基础入门(八): SQL 编程实践

本文是 Apache Flink 零基础入门系列文章第八篇,将通过五个实例讲解 Flink SQL 的编程实践。

4159 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 存储 监控
|

开源大数据周刊-2018年07月13日 第93期

开源大数据周刊-2018年07月13日 第93期

1863 0
|
SQL 算法 API
|

Flink 流批一体的实践与探索

作为 Dataflow 模型的最早采用者之一,Apache Flink 在流批一体特性的完成度上在开源项目中是十分领先的。本文将基于社区资料和笔者的经验,介绍 Flink 目前(1.10)流批一体的现状以及未来的发展规划。

6228 0
来自: 实时计算 Flink  版块
|
分布式计算 MaxCompute 存储
|

MaxCompute技术人背后的故事:从ApacheORC到AliORC

2019大数据技术公开课第一季《技术人生专访》来袭,本季将带领开发者们探讨大数据技术,分享不同国家的工作体验。本文整理自阿里巴巴计算平台事业部高级技术吴刚的专访,将为大家介绍Apache ORC开源项目、主流的开源列存格式ORC和Parquet的区别以及MaxCompute选择ORC的原因。

3355 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute SQL
|

MaxCompute问答整理之8月

本文是基于对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。

2716 0
来自: 大数据计算 MaxCompute  版块
|
消息中间件 运维 分布式计算
|

实至名归!Flink 再度成为 Apache 基金会最活跃的开源项目

2019 年对 Apache 软件基金会(简称 ASF)来说,依然是伟大的一年:它标志着开源领导“Apache 之道”(The Apache Way)的 20 年。ASF 的口号,“社区重于代码”(Community Over Code),贯穿于其所做的每一件事,全球有数十亿人受益于价值 200 多亿美元的社区主导的软件,100% 免费提供。

2233 0
来自: 实时计算 Flink  版块
|
分布式计算 大数据 MaxCompute
|

阿里云大数据平台MaxCompute用户指南官方电子版下载

阿里云大数据平台MaxCompute用户指南

2478 0
来自: 大数据计算 MaxCompute  版块
|
SQL HIVE 大数据
|

HIVE优化浅谈

HIVE是数据仓库和交互式查询的优秀框架,但随着数据的增多,join的复杂度和性能问题,需要花时间和精力解决性能优化的问题。除了基于HIVE本身优化,还可以接入计算性能更好的框架,SparkSQL relational cache对使用者透明,开发不需要关心底层优化逻辑,将更多精力放入业务设计开发。

2401 0
|
分布式计算 API MaxCompute
|

Spark DataFrame 不是真正的 DataFrame

最早的 "DataFrame" ,来源于贝尔实验室开发的 S 语言。R 语言,作为 S 语言的开源版本,于 2000 年发布了第一个稳定版本,并且实现了 dataframe。pandas 于 2009 年被开发,Python 中于是也有了 DataFrame 的概念。

2366 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 Spark
|

Adaptive Execution如何让Spark SQL更高效更好用?

本文转发自技术世界,原文链接 http://www.jasongj.com/spark/adaptive_execution/ 1 背  景 Spark SQL / Catalyst 和 CBO 的优化,从查询本身与目标数据的特点的角度尽可能保证了最终生成的执行计划的高效性。

1927 0

利用PAI-DSW访问Github, 快速获取最新的学习资源

PAI-DSW(Data science workshop)是专门为数据科学探索者们准备的云端深度学习开发环境,用户可以登录 DSW 进行代码的开发并运行工作。目前 DSW 支持了Github下载,让我们可以更加便捷的访问上面的资源.

4829 0
来自: 人工智能平台PAI  版块
|
存储 关系型数据库 MySQL
|

DataX:导入4字节UTF8编码(生僻字)到Mysql数据库的utf8mb4数据表

MySql数据库的编码支持UFT8字符集。utf-8编码可能是2个字节、3个字节、4个字节的字符,MYSQL的utf-8编码,只支持3个字节的字符。汉字中很多生僻字都是4个字节的字符,日常生活中人的姓名就会有很多高位的生僻字。

6493 1
来自: 大数据计算 MaxCompute  版块
|
云栖大会 达摩院 程序员
|

太难了!我耗费心力终于规划出了一张云栖大会日程表

十年前,参加云栖大会还只是程序员的杭州朝圣之旅,而如今,它依然成了透视和分析云计算产业和窥见数字经济的窗口。一切你想看见的、期待看见的,甚至未曾预见的,都会在未来的三天中扑面而来。

1861 0
|
SQL 分布式计算 MaxCompute
|

MaxCompute SQL 使用正则表达式选列

编辑MaxCompute SQL 时,经常会需要在某个表N个列中指定一些列。若需要指定的列比较少,编写SQL时一个个输入既可。当遇到列多的时候,一个个输入就会非常费劲。本文将介绍如何在编写MaxCompute SQL时通过正则表达式表达列(column),从而提升编码效率。

2948 0
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 Apache
|

Spark Streaming 框架在 5G 中的应用

在发展 5G 和 IoT 场景的准备阶段,爱立信研究了各种可扩展和灵活的流处理框架,以解决数据流水线问题以及提升整体性能。我们通过机器学习流数据进行自适应学习和智能决策从而实现各个领域的自动化。其中使用机器学习算法从流数据中逐步学习模型和获取信息是一个巨大的挑战。

2030 0
|
大数据 Apache Python
|

Koalas:让 pandas 轻松切换 Apache Spark

4 月 24 日,Databricks 在 Spark + AI 峰会上开源了一个新产品 Koalas,它增强了 PySpark 的 DataFrame API,使其与 pandas 兼容。本文转自:https://www.infoq.cn/article/tvGrtwJxCR1kQDs_kqa4

2761 0
|
存储 大数据 BI
|

Iceberg 在基于 Flink 的流式数据入库场景中的应用

本文以流式数据入库的场景为基础,介绍引入 Iceberg 作为落地格式和嵌入 Flink sink 的收益,并分析了当前可实现的框架及要点。

3896 0
来自: 实时计算 Flink  版块
|
存储 分布式计算 大数据
|

# Apache Spark系列技术直播# 第七讲 【 大数据列式存储之 Parquet/ORC 】

主讲人:诚历(孙大鹏)阿里巴巴计算平台事业部EMR技术专家 简介:Parquet 和 ORC 是大数据生态里最常用到的两个列式存储引擎,这两者在实现上有什异同,哪个效率更好,哪个性能更优,本次分享将和您一起探索两大列式存储。

1714 0
|
机器学习/深度学习 存储 分布式计算
|

25 亿条/秒消息处理!Flink 又双叒叕被 Apache 官方提名

3 月 26 日,Apache 官方博客宣布其成立 21 周年,博客中对 Apache 之道、Apache 大型项目的应用以及 Apache 基金会里程碑事件进行了盘点。其中 Apache Flink 在 2019 年阿里巴巴双 11 场景中突破实时计算消息处理峰值达到 25 亿条/秒的记录被 Apache 官方博客收录。

1858 0
来自: 实时计算 Flink  版块
|
分布式计算 大数据 Apache
|

Koalas:让 pandas 轻松切换 Apache Spark

4 月 24 日,Databricks 在 Spark + AI 峰会上开源了一个新产品 Koalas,它增强了 PySpark 的 DataFrame API,使其与 pandas 兼容。本文转自:https://www.infoq.cn/article/tvGrtwJxCR1kQDs_kqa4

1732 0
|
SQL 存储 Kubernetes
|

一行配置作业性能提升53%!Flink SQL 性能之旅

在本文中,我们想带你一起看看是否能够从现有机器中激发出更多的性能,以及如何实现?我们还会为不同于 PoC 代码的作业提供进一步的提示,并对未来的工作进行展望。

1528 0
来自: 实时计算 Flink  版块
|
分布式计算 大数据 Linux
|

钉钉群直播【Migration to Apache Spark】

Spark因其统一引擎、性能、易用性等特点备受青睐,将大数据处理引擎迁移到Spark已经成为一种趋势(比如将Hive迁移到SparkSQL),很多大公司也正在实践。

1997 0
|
机器学习/深度学习 分布式计算 大数据
|

钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】

数据中台应该是什么样子?如何基于MLSQL完成数据中台的构建? MLSQL是如何基于Spark来完成这些扩展的? Databricks公司新开元项目Delta对于数据和机器学习的意义何在?

1208 0

钉钉群直播【E-MapReduce产品探秘,快速构建可扩展的高性能大数据平台】

E-MapReduce整体介绍。通过EMR如何构建一个云上的大数据集群,常见的使用场景和硬件选型指南。

1169 0
|
分布式计算 Spark 存储
|

Spark Relational Cache实现亚秒级响应的交互式分析

阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。在2019杭州云栖大会大数据生态专场上,阿里巴巴技术专家王道远为大家分享了阿里云EMR的Spark Relational Cache实现亚秒级响应的交互式分析。

2748 0
|
机器学习/深度学习 分布式计算 安全
|

钉钉群直播Spark + AI 北美峰会参会分享

Spark + AI 北美峰会 2019 盛况依然,这两天正如火如荼。大会的主题是 Build,Unify,Scale,对此如何理解?砖厂这次有哪些重磅消息和重要发布,并作如何解读?Spark 过去几年发展的基调和线索是什么,从这次峰会上又如何看出 Spark 在未来几年的发展端倪?阿里巴巴计算平台.

879 0
|
编解码 Apache 项目管理
|

揭秘!开源软件背后的神秘组织

Flink 社区将分享“走进 ASF”系列内容,先从宏观介绍 ASF 是如何运作的,然后详细解说如何参与 Apache 具体项目做贡献,如何成为某个项目的 Committer、PMC 成员,如何选择多个 Apache 项目进行多领域贡献并成为 ASF Member 等,希望有助于你真正了解开源、参与开源。

1668 0
来自: 实时计算 Flink  版块
|
流计算 分布式计算 Spark
|

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

本次直播我们邀请了Tablestore存储服务技术专家 朱晓然 ,为大家详细介绍如何基于Tablestore的CDC技术,将大表内实时数据更新对接Spark Streaming来实现数据的实时计算和处理。

1035 0