大数据与机器学习-博文-第9页-阿里云开发者社区

四相

|

分布式计算 Java 大数据

|

博文

使用MaxCompute Java SDK 执行任务卡住了，怎么办？

场景一用户A A: “亲，用 MaxCompute Java SDK 跑作业，为什么卡住不动了？” me: “有 Logview 吗？发来看下” A: “没有，我用的是SDK，没Logview” 场景二用户B B ：“亲，用 MaxCompute Java SDK 访问 Table，为什么卡住半天没反应？” me：“卡在哪一行了？” B："就 RestClient retry 然后卡住了" 去繁就简用户 A 的问题在于没有 instance 的 logview，导致无法追踪 instance 的运行过程。

2577 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

人工智能分布式计算算法

|

博文

开源大数据周刊-第48期

2301 0 0

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

机器学习/深度学习存储大数据

|

博文

开源大数据周刊-第42期

阿里云E-MapReduce动态阿里云HBase支持PB级别的分布式数据库即将开始公测资讯云时代的大数据存储-云HBase 纵观数据库发展的几十年，从网状数据库、层次数据库到RDBMS数据库，在最近几年的NewSQL的兴起，加上开源的运动，再加上云的特性，可以说是日新月异。

2151 0 0

来自：开源大数据平台 E-MapReduce 版块

晋恒

|

分布式计算大数据 MaxCompute

|

博文

三七女生节，看程序媛们选好口红色号，踩上高跟鞋，特别美丽，特别凶狠，特别温柔~

口红，尿不湿，代码；撒娇，卖萌，撕叉；烈焰红唇倾斜45度角写代码；我爱你，你用知性保持着最致命的吸引力！

2312 0 5

来自：大数据计算 MaxCompute 版块

四相

|

分布式计算安全 MaxCompute

|

博文

MaxCompute 多租户数据安全体系

很多用户对MaxCompute多租户数据安全体系感兴趣，我们将对其进行系统介绍。

2772 0 0

来自：大数据计算 MaxCompute 版块

zongyuanwu

|

分布式计算算法 Java

|

博文

DII4J -- DII平台支持JAVA插件开发

DII4J是DII for Java的简称，是DII平台提供的一种Java插件的运行机制，在Java插件中，用户可以获取与C++插件完全一致的能力。

3488 0 1

来自：智能搜索推荐版块

康羽

|

JSON 分布式计算监控

|

博文

阿里云大数据MaxCompute基于UDTF解析JSON日志的案例

因为MaxCompute提供的系统函数有限，所以平台提供了强大的自定义函数(UDF)来进行复杂的数据处理，因为MaxCompute的沙箱机制，所以解析JSON日志串的时候需要使用GSON来进行解析，本例中原始数据可能是从其他DB通过数据集成同步到MaxCompute平台上的，所以MaxComput.

2415 0 0

来自：大数据计算 MaxCompute 版块

晋恒

|

Web App开发存储分布式计算

|

博文

大数据计算之天龙八部

MaxCompute不断去开拓，去挑战。以少年心，成英雄梦，算别人不能算之规模，唯愿天下没有难算的数据。

2474 0 0

来自：大数据计算 MaxCompute 版块

寒沙牧

|

SQL 分布式计算大数据

|

博文

初学Spark

介绍大数据处理引擎Spark的特点，以及它的技术栈

2396 0 0

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

消息中间件分布式计算 Kafka

|

博文

[转载] Spark Structed Streaming执行过程

在Struct Streaming中增加了支持sql处理流数据，在sql包中单独处理，其中StreamExecution是下面提到两处流处理的基类，这个流查询在数据源有新数据到达时会生成一个QueryExecution来执行并将结果输出到指定的Sink（处理后数据存放地）中。

2665 0 0

来自：开源大数据平台 E-MapReduce 版块

四相

|

SQL 分布式计算 HIVE

|

博文

Hadoop Hive迁移至MaxCompute

本文向您详细介绍如何将 Hadoop Hive 数据迁移到阿里云MaxCompute大数据计算服务上。

2722 0 0

来自：大数据计算 MaxCompute 版块

左昱昊霜天

|

缓存前端开发 rax

|

博文

浅析CPU结构对程序的影响以及熔断原理

## CPU 结构简介 ### CPU 指令结构 * 下表列出了CPU关键技术的发展历程以及代表系列，每一个关键技术的诞生都是环环相扣的，处理器这些技术发展历程都围绕着如何不让“CPU闲下来”这一个核心目标展开。

2915 0 0

来自：智能搜索推荐版块

隐林

|

分布式计算云计算 MaxCompute

|

博文

【转载】刚刚又传来好消息，硬核!新一代大国重器！MaxCompute

作者：杨国英十年前，马云、马化腾和李彦宏坐在一起开会聊起它，马化腾说为时过早，李彦宏说没有新意，只有马云说，如果我们不做，将来会死掉！为了做它，整个公司几乎吵到分裂！然而十年后的今天，它已经成为新一代大国重器，中国最硬核的技术，与美国巨头抗衡的唯一中国力量。

2766 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

人工智能大数据 TensorFlow

|

博文

开源大数据周刊-2018年08月10日第96期

2205 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

SQL 分布式计算数据管理

|

博文

性能提升约 7 倍！Apache Flink 与 Apache Hive 的集成

随着 Flink 在流式计算的应用场景逐渐成熟和流行，如果 Flink 能同时把批量计算的应用场景处理好，就能减少用户在使用 Flink 时开发和维护的成本,并且能够丰富 Flink 的生态。SQL 是批计算中比较常用的工具，所以 Flink 针对于批计算也以 SQL 为主要接口。

3831 0 0

来自：实时计算 Flink 版块

亢海鹏

|

SQL 分布式计算 DataWorks

|

博文

Hive数据如何同步到MaxCompute之实践讲解

本次分享主要介绍 Hive数据如何迁移到MaxCompute。MMA（MaxCompute Migration Assist）是一款MaxCompute数据迁移工具，本文将为大家介绍MMA工具的功能、技术架构和实现原理，再通过实际操作MMA，演示将Hive数据迁移到MaxCompute。

3665 0 0

来自：大数据计算 MaxCompute 版块

鸿初

|

资源调度大数据调度

|

博文

Step by step，学习EMR集群的fair类型资源池

2215 0 1

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

SQL 存储消息中间件

|

博文

实时计算在贝壳的实践

本文由贝壳找房的资深工程师刘力云将带来Apache Flink技术在贝壳找房业务中的应用，通过企业开发的实时计算平台案例的分享帮助用户了解Apache Flink的技术特性与应用场景。

2773 0 0

来自：实时计算 Flink 版块

隐林

|

分布式计算大数据 MaxCompute

|

博文

【阿里云峰会出海论坛】MaxCompute助力小影短视频走向全球化

数字时代，中国已经成为世界互联网的中心，小影（海外版称作为VivaVideo，后简称VivaVideo）作为国内首批短视频出海企业，借助统一的云计算平台快速实现全球业务的线上部署，已经让每一行代码都获得全球化的能力。

2851 1 1

来自：大数据计算 MaxCompute 版块

鱼跟猫

|

缓存固态存储大数据

|

博文

一种堆外内存缓存策略加速数据写OSS

2189 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

SQL 消息中间件数据可视化

|

博文

Demo：基于 Flink SQL 构建流式应用

本文所有的实战演练都将在 Flink SQL CLI 上执行，全程只涉及 SQL 纯文本，无需一行 Java/Scala 代码，无需安装 IDE。

2883 0 2

来自：实时计算 Flink 版块

jasonli4

|

存储 SQL 数据库

|

博文

Blink 漫谈系列 - 数据类型

3145 0 0

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

消息中间件 Kafka 流计算

|

博文

Flink Kafka Connector 与 Exactly Once 剖析

Flink Kafka Connector 是 Flink 内置的 Kafka 连接器，它包含了从 Kafka Topic 读入数据的 Flink Kafka Consumer 以及向 Kafka Topic 写出数据的 Flink Kafka Producer，除此之外 Flink Kafa Connector 基于 Flink Checkpoint 机制提供了完善的容错能力。

5691 0 0

来自：实时计算 Flink 版块

晋恒

|

分布式计算 Hadoop MaxCompute

|

博文

数据集成到MaxCompute的N种最佳实践（持续更新）

本文汇总数据集成到MaxCompute的各种最佳实践，希望可以帮助到正在或者即将使用MaxCompute的企业和开发者们。也欢迎您将有关MaxCompute数据集成的实践分享出来，分享方法可扫码加入钉钉群，联系钉钉群主即可。

3042 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

分布式计算机器人 Apache

|

博文

Apache Spark中国技术交流群升级到企业群啦！！！！！！

普通群容量已满足不了Spark群众日益增长的热情，因此我们做了一个重要的决定，将全部群成员转移到企业群

2431 0 3

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

SQL 消息中间件分布式计算

|

博文

菜鸟供应链实时数仓的架构演进及应用场景

菜鸟数据&规划部高级数据技术专家贾元乔从数据模型、数据计算、数据服务等几个方面介绍了菜鸟供应链数据团队在实时数据技术架构上的演进，以及在供应链场景中典型的实时应用场景和 Flink 的实现方案。

2740 0 0

来自：实时计算 Flink 版块

apache_flink

|

大数据 Apache 流计算

|

博文

Apache Flink China Meetup 北京站 - 计算之美，何止于快

Apache Flink China Meetup北京站来啦～

2413 0 0

来自：实时计算 Flink 版块

鱼跟猫

|

SQL 分布式计算 Spark

|

博文

EMR上如何进行流式SQL调试

本文将简单介绍EMR提供的一个流式SQL调试工具。

2321 0 0

来自：开源大数据平台 E-MapReduce 版块

开发者说

|

分布式计算 MaxCompute 存储

|

博文

MaxCompute技术人背后的故事：从ApacheORC到AliORC

2019大数据技术公开课第一季《技术人生专访》来袭，本季将带领开发者们探讨大数据技术，分享不同国家的工作体验。本文整理自阿里巴巴计算平台事业部高级技术吴刚的专访，将为大家介绍Apache ORC开源项目、主流的开源列存格式ORC和Parquet的区别以及MaxCompute选择ORC的原因。

4059 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

关系型数据库大数据分布式数据库

|

博文

开源大数据周刊-第41期

云数据库HBase公测开始 EMR产品价格全面优惠，价格和ECS自建一致

2076 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云E-MapReduce团队

|

分布式计算 Spark 大数据

|

博文

Apache Spark中国技术交流社区历次直播回顾（持续更新）

Apache Spark中国技术交流社区，由阿里巴巴开源大数据技术团队成立，持续输出spark相关技术直播、原创文章、精品翻译，钉钉群内千人交流学习，欢迎加入。钉钉入群链接 https://qr.dingtalk.com/action/joingroup?code=v1,k1,jmHATP9Tk+okK7QZ5sw2oWSNLhkt2lCRvfHRdW7XhUQ=&_dt_no_comment=1&origin=11 更多视频和ppt资料请入群获得。

4571 0 0

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

存储分布式计算流计算

|

博文

[转载] Spark Streaming 设计原理

最近两年流式计算又开始逐渐火了起来，说到流式计算主要分两种：continuous-based 和 micro-batch。最近在使用基于 micro-batch 模式的 Spark Streaming，正好结合论文介绍一下。

2448 0 0

来自：开源大数据平台 E-MapReduce 版块

亢海鹏

|

分布式计算 MaxCompute SQL

|

博文

MaxCompute问答整理之8月

本文是基于对MaxCompute产品的学习进度，再结合开发者社区里面的一些问题，进而整理成文。希望对大家有所帮助。

2944 0 1

来自：大数据计算 MaxCompute 版块

neo.wang

|

存储 JavaScript

|

博文

maxcompute 2.0复杂数据类型之map

1. 含义和Java中的Map一样，多个Key-Value的组合。 2. 场景什么样的数据，适合使用map类型来存储呢？这里列举了几个我在开发中实际用到的场景。 2.1 数量不固定的多个KeyValue 这类，本身就是Map类型的数据。

4569 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

SQL 消息中间件运维

|

博文

覆盖电商、推荐、ETL、风控等多场景，网易的实时计算平台做了啥？

目前网易流计算规模已经达到了一千多个任务，2 万多个 vcores 以及 80 多 T 的内存，网易流计算覆盖了绝大多数场景，包括广告、电商大屏、ETL、数据分析、推荐、风控、搜索、直播等。

2612 0 0

来自：实时计算 Flink 版块

隐林

|

分布式计算大数据 MaxCompute

|

博文

阿里云大数据平台MaxCompute用户指南官方电子版下载

阿里云大数据平台MaxCompute用户指南

2647 0 0

来自：大数据计算 MaxCompute 版块

晋恒

|

存储资源调度分布式计算

|

博文

【科学脱口秀】EB级计算平台调度系统 “愚公” : 实现跨地域的数据和计算调度

大数据平台的数据与计算分布在多个数据中心的不同集群，每个集群的存储和计算能力有限，受地域影响，集群间的网络带宽和延迟也各有差异。如何平衡各集群的存储和计算利用率，降低带宽成本，是亟待解决的一大难题。

2644 0 0

来自：大数据计算 MaxCompute 版块

阿里云E-MapReduce团队

|

SQL 分布式计算 HIVE

|

博文

使用EMR Spark Relational Cache跨集群同步数据

Relational Cache是EMR Spark支持的一个重要特性，主要通过对数据进行预组织和预计算加速数据分析，提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速度，Relational Cache还可以应用于其他很多场景，本文主要介绍如何使用Relational Cache跨集群同步数据表。

2094 0 0

来自：开源大数据平台 E-MapReduce 版块

继盛

|

机器学习/深度学习分布式计算并行计算

|

博文

当 Mars 遇上 RAPIDS：用 GPU 以并行的方式加速数据科学

在数据科学世界，Python 是一个不可忽视的存在，且有愈演愈烈之势。而其中主要的使用工具，包括 Numpy、Pandas 和 Scikit-learn 等。 Mars 在 MaxCompute 团队内部诞生，它的主要目标就是让 Numpy、pandas 和 scikit-learn 等数据科学的库能够并行和分布式执行，支持通过 RAPIDS 平台用 GPU 加速数据科学。

2474 0 0

来自：大数据计算 MaxCompute 版块

lixuefeng.cs

|

博文

Hawkeye:TopN慢query的获取与优化

之前的文章介绍了Hawkeye的底层分析系统(待补充文章)，其中讲到了基于Blink的Batch任务实现方法，前段时间在优化慢query查询的过程中开发了应用TopN慢query获取的分析任务，其中用到的分析方法适用于其他类似求TopN的问题中。

2140 0 0

来自：智能搜索推荐版块

鱼跟猫

|

SQL 分布式计算大数据

|

博文

通过WebUI查看Structured Streaming作业统计信息

从EMR-3.18.1版本开始，EMR将提供Spark Streaming SQL预览版功能。本次作为新特性的一部分，EMR将扩展现有Spark WebUI，支持Structured Streaming Query的统计信息查看。

2513 0 0

来自：开源大数据平台 E-MapReduce 版块

lixuefeng.cs

|

运维监控数据挖掘

|

博文

Hawkeye:助力TISPLUS实现数据化运营

背景 TISPLUS平台的数据分析能力主要由hawkeye提供，但是之前存在如下几个问题：1.数据化场景的功能没有凸显，隐藏较深；2.产品形态设计单一，没有一个较好的产品闭环引导用户关注数据化的结果；3.数据分析内容简单，覆盖面不足，远远达不到让用户数据化运营服务的目标；4.重点关注了数据分析的结果，但缺少衡量数据分析结果为搜索服务本身带来的价值大小。

2224 0 0

来自：智能搜索推荐版块

开源大数据EMR

|

容器 Kubernetes 分布式计算

|

博文

Spark on Kubernetes 的现状与挑战

被称为云上 OS 的 Kubernetes 是 Cloud Native 理念的一种技术承载与体现，但是如何通过 Kubernetes 来助力大数据应用还是有很多可以探索的地方。欢迎交流。

2785 0 1

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

流计算资源调度运维

|

博文

58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密

本文主要讲述 58 实时计算平台如何优化 Flink-Storm 以及基于 Flink-Storm 实现真实场景下大规模 Storm 任务平滑迁移 Flink。

3116 1 1

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

流计算大数据消息中间件

|

博文

如果你也想做实时数仓…

数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务，数据仓库的建设也是“数据智能”中必不可少的一环。本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时数仓与离线数仓的对比六个方面全面分享关于数仓的详细内容。

2882 0 0

来自：实时计算 Flink 版块

阿里云E-MapReduce团队

|

SQL 分布式计算 Spark

|

博文

Adaptive Execution如何让Spark SQL更高效更好用？

本文转发自技术世界，原文链接　http://www.jasongj.com/spark/adaptive_execution/ 1 背景 Spark SQL / Catalyst 和 CBO 的优化，从查询本身与目标数据的特点的角度尽可能保证了最终生成的执行计划的高效性。

2202 0 0

来自：开源大数据平台 E-MapReduce 版块

YuuuZeee

|

博文

利用PAI-DSW访问Github, 快速获取最新的学习资源

PAI-DSW（Data science workshop）是专门为数据科学探索者们准备的云端深度学习开发环境，用户可以登录 DSW 进行代码的开发并运行工作。目前 DSW 支持了Github下载，让我们可以更加便捷的访问上面的资源.

5627 0 1

来自：人工智能平台PAI 版块

阿里云实时计算Flink

|

SQL 数据采集缓存

|

博文

使用Blink SQL+UDAF实现差值聚合计算

本案例根据某电网公司的真实业务需求，通过Blink SQL+UDAF实现实时流上的差值聚合计算，通过本案例，让读者熟悉UDAF编写，并理解UDAF中的方法调用关系和顺序。

2631 0 0

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

Apache 项目管理流计算

|

博文

祝贺！两位 Apache Flink PMC 喜提 Apache Member

目前，国内（华人）近 30 位 Apache Member 中，有 3 位是 Apache Flink 的核心贡献者。他们热爱开源也为开源贡献，不仅积极参与社区与其他 PMC 成员共同规划、主导 Apache Flink 的发展，更活跃在多个开源项目，持续为开源社区做贡献。

3403 0 0

来自：实时计算 Flink 版块

开源大数据EMR

|

消息中间件 Kafka API

|

博文

使用EMR-Kafka Connect进行数据迁移

本文介绍使用EMR Kafka Connect的REST API接口在Kafka集群间进行数据迁移，使用distributed模式。

2316 0 0

来自：开源大数据平台 E-MapReduce 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

使用MaxCompute Java SDK 执行任务卡住了，怎么办？

开源大数据周刊-第48期

开源大数据周刊-第42期

三七女生节，看程序媛们选好口红色号，踩上高跟鞋，特别美丽，特别凶狠，特别温柔~

MaxCompute 多租户数据安全体系

DII4J -- DII平台支持JAVA插件开发

阿里云大数据MaxCompute基于UDTF解析JSON日志的案例

大数据计算之天龙八部

初学Spark

[转载] Spark Structed Streaming执行过程

Hadoop Hive迁移至MaxCompute

浅析CPU结构对程序的影响以及熔断原理

【转载】刚刚又传来好消息，硬核!新一代大国重器！MaxCompute

开源大数据周刊-2018年08月10日 第96期

性能提升约 7 倍！Apache Flink 与 Apache Hive 的集成

Hive数据如何同步到MaxCompute之实践讲解

Step by step，学习EMR集群的fair类型资源池

实时计算在贝壳的实践

【阿里云峰会出海论坛】MaxCompute助力小影短视频走向全球化

一种堆外内存缓存策略加速数据写OSS

Demo：基于 Flink SQL 构建流式应用

Blink 漫谈系列 - 数据类型

Flink Kafka Connector 与 Exactly Once 剖析

数据集成到MaxCompute的N种最佳实践（持续更新）

Apache Spark中国技术交流群升级到企业群啦！！！！！！

菜鸟供应链实时数仓的架构演进及应用场景

Apache Flink China Meetup 北京站 - 计算之美，何止于快

EMR上如何进行流式SQL调试

MaxCompute技术人背后的故事：从ApacheORC到AliORC

开源大数据周刊-第41期

Apache Spark中国技术交流社区历次直播回顾（持续更新）

[转载] Spark Streaming 设计原理

MaxCompute问答整理之8月

maxcompute 2.0复杂数据类型之map

覆盖电商、推荐、ETL、风控等多场景，网易的实时计算平台做了啥？

阿里云大数据平台MaxCompute用户指南官方电子版下载

【科学脱口秀】EB级计算平台调度系统 “愚公” : 实现跨地域的数据和计算调度

使用EMR Spark Relational Cache跨集群同步数据

当 Mars 遇上 RAPIDS：用 GPU 以并行的方式加速数据科学

Hawkeye:TopN慢query的获取与优化

通过WebUI查看Structured Streaming作业统计信息

Hawkeye:助力TISPLUS实现数据化运营

Spark on Kubernetes 的现状与挑战

58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密

如果你也想做实时数仓…

Adaptive Execution如何让Spark SQL更高效更好用？

利用PAI-DSW访问Github, 快速获取最新的学习资源

使用Blink SQL+UDAF实现差值聚合计算

祝贺！两位 Apache Flink PMC 喜提 Apache Member

使用EMR-Kafka Connect进行数据迁移

大数据与机器学习

活跃用户

相关产品

开源大数据周刊-2018年08月10日第96期