大数据与机器学习-博文-第6页-阿里云开发者社区

金竹

|

SQL Apache 流计算

|

博文

Apache Flink 漫谈系列(10) - JOIN LATERAL

聊什么上一篇《Apache Flink 漫谈系列 - JOIN算子》我们对最常见的JOIN做了详尽的分析，本篇介绍一个特殊的JOIN，那就是JOIN LATERAL。JOIN LATERAL为什么特殊呢，直观说因为JOIN的右边不是一个实际的物理表，而是一个VIEW或者Table-valued Funciton。

10648 75 80

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

流计算 Apache 供应链

|

博文

基于 Flink 的实时数仓生产实践

数据仓库的建设是“数据智能”必不可少的一环，也是大规模数据应用中必然面临的挑战。在智能商业中，数据的结果代表了用户反馈、获取数据的及时性尤为重要。快速获取数据反馈能够帮助公司更快地做出决策，更好地进行产品迭代，实时数仓在这一过程中起到了不可替代的作用。

6142 0 0

来自：实时计算 Flink 版块

jaredguo

|

新零售机器学习/深度学习算法

|

博文

十年磨一剑，阿里巴巴推荐与搜索深度学习服务体系AI·OS在云栖大会正式亮相

2018年9月21～22日，在以“驱动数字科技”为主题的云栖大会上，阿里巴巴搜索事业部特别推出了“搜索推荐专场”，“推荐与搜索引擎AI·OS专场”，深度参与了这场科技盛宴。阿里巴巴推荐与搜索引擎平台支持了包括淘宝、天猫、菜鸟、优酷以及海外电商在内的整个阿里集团的推荐与搜索业务，引导成交占据了集团GMV的绝大部分份额。

7812 0 0

来自：智能搜索推荐版块

隐林

|

机器学习/深度学习分布式计算算法

|

博文

袋鼠云助力光伏产业 | 基于阿里云数加平台做算法预测

随着大数据技术的蓬勃发展，现在关于大数据技术在各行各业的实践也如火如荼。那么当大数据技术遇到光伏行业会产生何样的化学反应呢？下面就和大家一起分享一下袋鼠云是如何使用阿里云数加平台和机器学习平台助力光伏行业的。

4276 0 0

来自：大数据计算 MaxCompute 版块

寒沙牧

|

分布式计算负载均衡 Hadoop

|

博文

E-MapReduce中引导操作安装使用Kylin

目前E-MapReduce的开源组件还未包含Kylin，下面介绍一种通过创建集群时设置的引导操作来完成集群上Kylin的部署。

4761 0 0

来自：开源大数据平台 E-MapReduce 版块

隐林

|

分布式计算大数据 MaxCompute

|

博文

MaxCompute_2_MaxCompute数据迁移文档

乍一看标题会以为是不是作者写错了怎么会有从MaxCompute到MaxCompute迁移数据的场景呢在实际使用中已经有客户遇到了这种场景比如两个网络互通的专有云环境之间数据迁移、公共云数加DataIDE上两个云账号之间数据迁移、还有网络不通的两个MaxCompute项目数据迁移等等下面我们逐个场景介绍。

5169 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

机器学习/深度学习存储分布式计算

|

博文

Apache Spark3.0什么样？一文读懂Apache Spark最新技术发展与展望

阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析，为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展，同时预测了Spark 3.0即将重磅发布的新功能。

5332 0 0

来自：开源大数据平台 E-MapReduce 版块

shandd

|

存储消息中间件安全

|

博文

计算与存储分离实践—swift消息系统

swift是搜索事业部自主研发分布式消息系统，它的主要存储基于分布式文件系统，资源需求基于分布式调度系统。swift能支持每秒数亿的消息传递，支持PB级消息的存储。

7272 0 0

来自：智能搜索推荐版块

海清

|

SQL 分布式计算 MaxCompute

|

博文

MaxCompute分区表和非分区表使用对比

本文我们将通过对有同样数据量、表结构除分区列其他都一模一样的表,从查询计算、写入、删除数据几个简单操作进行对比，了解MaxCompute分区表和非分区表在使用上有什么差异。在介绍之前，需要大家先了解MaxCompute分区的概念。

6317 0 0

来自：大数据计算 MaxCompute 版块

晋恒

|

分布式计算 NoSQL Java

|

博文

使用DataX同步MaxCompute数据到TableStore（原OTS）优化指南

现在越来越多的技术架构下会组合使用MaxCompute和TableStore，用MaxCompute作大数据分析，计算的结果会导出到TableStore提供在线访问。MaxCompute提供海量数据计算的能力，而TableStore提供海量数据高并发低延迟读写的能力。

6068 0 0

来自：大数据计算 MaxCompute 版块

龙重

|

SQL 分布式计算算法

|

博文

SQL优化器原理－Shuffle优化

分布式系统中，Shuffle是重操作之一，直接影响到了SQL运行时的效率。Join、Aggregate等操作符都需要借助Shuffle操作符，确保相同数据分发到同一机器或Instance中，才可以进行Join、Aggregate操作。

5658 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

机器学习/深度学习监控算法

|

博文

体系结构顶会 ASPLOS 2017 最佳论文出炉，阿里云周靖人主旨演讲

2017年4月11日晚，在西安举行的架构体系的顶级会议ASPLOS（面向编程语言和操作系统的架构支持会议，Architectural Support for Programming Languages and Operating Systems）公布了最佳论文、最有影响力论文和 Test of Time 几项大奖。

4602 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

Web App开发分布式计算大数据

|

博文

完成数据的打通-豌豆荚被阿里巴巴收购后的168天

曾经表示“要做伟大的公司”的豌豆荚在今年7月被阿里收购了。这家公司巅峰时期，估值曾高达10亿美元。然而，最后被收购时金额大跳水。据传当时的收购价为2亿美元，不过这一数额并未得到阿里巴巴和豌豆荚的确认。

4637 0 0

来自：大数据计算 MaxCompute 版块

云学习小组

|

分布式计算大数据测试技术

|

博文

MaxCompute分布式计算如何提升基因大数据处理速率？

在2016杭州云栖大会首日，来自华大基因的基因组学数据专家黄树嘉在大数据专场分享了《基于数加MaxCompute的极速全基因组数据分析》，他主要从全基因组测序的背景与原理、传统单机分析流程的挑战、基于MaxCompute的方案三个方面进行了分享，详细介绍了华大基因运用阿里云处理海量的实践。

4165 0 0

来自：大数据计算 MaxCompute 版块

巫宸

|

算法 Java 应用服务中间件

|

博文

TPP稳定性之场景隔离和多租户

6798 0 1

来自：智能搜索推荐版块

阿里云E-MapReduce团队

|

分布式计算 Spark 容器

|

博文

Spark Operator浅析

Spark Operator浅析本文介绍Spark Operator的设计和实现相关的内容. Spark运行时架构经过近几年的高速发展,分布式计算框架的架构逐渐趋同. 资源管理模块作为其中最通用的模块逐渐与框架解耦,独立成通用的组件.

11439 81 82

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

流计算 Java 监控

|

博文

如何分析及处理 Flink 反压？

反压（backpressure）是实时计算应用开发中，特别是流式计算中，十分常见的问题。反压意味着数据管道中某个节点成为瓶颈，处理速率跟不上上游发送数据的速率，而需要对上游进行限速。

18257 1 1

来自：实时计算 Flink 版块

隐林

|

存储分布式计算监控

|

博文

MaxCompute预付费资源监控工具-CU管家使用教程

MaxCompute管家使用前提 1、用户购买了 MaxCompute 预付费CU资源，60CU以上的用户（备注：CU过小无法发挥计算资源及管家的优势）。 2、支持区域，MaxCompute 华北2北京、华东2上海、华南1深圳 3个Region的用户。

4483 0 0

来自：大数据计算 MaxCompute 版块

alizhen

|

存储算法测试技术

|

博文

索引压缩算法New PForDelta简介以及使用SIMD技术的优化

New PForDelta算法介绍倒排索引的数据包括docid, term frequency, term position等，往往会占用很大的磁盘空间，需要进行压缩。压缩算法需要考虑两点：压缩效果和解压缩效率。

7232 0 0

来自：智能搜索推荐版块

阿里云实时计算Flink

|

SQL 缓存 API

|

博文

Apache Flink 进阶入门（二）：Time 深度解析

Flink 的 API 大体上可以划分为三个层次：处于最底层的 ProcessFunction、中间一层的 DataStream API 和最上层的 SQL/Table API，这三层中的每一层都非常依赖于时间属性。

4960 1 2

来自：实时计算 Flink 版块

传学

|

BI

|

博文

基于Quick BI的用户分布分析

使用Quick BI的气泡地图功能来分析全国数据用户分布，更好地理解数据并发现其中的异常

4220 0 1

来自：大数据计算 MaxCompute 版块

传学

|

分布式计算大数据 Java

|

博文

用Java代码调用MaxCompute

有什么办法把MaxCompute的作业、设置和自己的代码做无缝集成呢，MaxComput SDK就能干这个。本文就实际的工作中最常见的几个场景，做一些示例。

5053 0 1

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

分布式计算大数据 Spark

|

博文

开源大数据周刊-第21期

本周关注：大数据教育、翻译行业应用，大数据与管理的关系、hadoop与mpp的关系、Facebook 60T+的spark应用

3707 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

流计算 API 监控

|

博文

Apache Flink 进阶（八）：详解 Metrics 原理与实战

Flink 提供的 Metrics 可以在 Flink 内部收集一些指标，通过这些指标让开发人员更好地理解作业或集群的状态。由于集群运行后很难发现内部的实际状况，跑得慢或快，是否异常等，开发人员无法实时查看所有的 Task 日志，比如作业很大或者有很多作业的情况下，该如何处理？此时 Metrics 可以很好的帮助开发人员了解作业的当前状况。

6717 0 1

来自：实时计算 Flink 版块

付空

|

搜索推荐大数据数据处理

|

博文

计算广告与流处理技术综述

案例与解决方案汇总页：阿里云实时计算产品案例&解决方案汇总 1.计算广告背景广告仍然是互联网公司的主要变现手段，其市场规模2017年已达3000亿元，据统计全球互联网市值前十的公司广告收入占比高达40%，可见其重要性。

5769 0 0

来自：实时计算 Flink 版块

振禹

|

SQL 分布式计算 MaxCompute

|

博文

MaxCompute - ODPS重装上阵　第一弹 - 善用MaxCompute编译器的错误和警告

MaxCompute (ODPS) ( __注1__ )是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用，支撑了多个BU的核心业务。 ODPS2.0除了持续优化性能外，也致力于提升SQL语言的用户体验和表达能力，提高广大ODPS开发者的生产力。

4979 0 1

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算安全大数据

|

博文

【阿里云大数据产品MaxCompute（原名ODPS）】DT时代企业数据资产的护卫舰

MaxCompute设计之初就是面向多租户，确保租户的数据安全是MaxCompute的必备功能之一。在MaxCompute系统的安全设计和实现上，MaxCompute的工程师们会遵循一些经过实践检验的安全设计原则（如Saltzer-Schroeder原则）。

4729 0 0

来自：大数据计算 MaxCompute 版块

付帅

|

消息中间件分布式计算 DataWorks

|

博文

Kafka数据迁移MaxCompute最佳实践

本文向您详细介绍如何使用DataWorks数据同步功能，将Kafka集群上的数据迁移到阿里云MaxCompute大数据计算服务。

4306 0 1

来自：大数据计算 MaxCompute 版块

小白薇薇

|

SQL 流计算大数据

|

博文

Flink入坑指南第四章：SQL中的经典操作Group By+Agg

Flink入坑指南系列文章，从实际例子入手，一步步引导用户零基础入门实时计算/Flink，并成长为使用Flink的高阶用户。简介 Group By + Agg这个最经典的SQL使用方式。Group By是SQL中最基础的分组操作，agg的全称是aggregation(聚合操作)，是一类SQL算子的统称，Flink中最常用的Agg操作有COUNT/SUM/AVG等，详情参见Flink支持的聚合操作列表。

11544 1 4

来自：实时计算 Flink 版块

晋恒

|

SQL 分布式计算大数据

|

博文

阿里云MaxCompute 2019-3月刊

欢迎阅读 MaxCompute 2019.3月刊，开发者专属版本发布，新增金融、视频行业的案例视频，最新官方文档和技术文章等内容尽在本文。

3819 0 1

来自：大数据计算 MaxCompute 版块

晋恒

|

人工智能分布式计算关系型数据库

|

博文

【你离完成一次MaxCompute计算任务仅剩三步】Step1 通过DataWorks控制台创建MaxCompute项目空间

开通MaxCompute后，请通过DataWorks控制台创建MaxCompute项目空间

4195 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

存储消息中间件分布式计算

|

博文

日处理数据量超10亿：友信金服基于Flink构建实时用户画像系统的实践

在此背景下，友信金服公司推行全域的数据体系战略，通过打通和整合集团各个业务线数据，利用大数据、人工智能等技术构建统一的数据资产，如 ID-Mapping、用户标签等。友信金服用户画像项目正是以此为背景成立，旨在实现“数据驱动业务与运营”的集团战略。

5576 1 3

来自：实时计算 Flink 版块

祎休

|

数据采集大数据数据处理

|

博文

大数据workshop：《在线用户行为分析：基于流式计算的数据处理及应用》之《流数据采集：日志流数据解析及上传》篇

本手册为云栖大会Workshop之《在线用户行为分析：基于流式计算的数据处理及应用》场的《流数据采集：日志流数据解析及上传》篇所需。主要帮助现场学员熟悉并掌握阿里云DataHub的操作和使用。

3916 0 0

来自：大数据计算 MaxCompute 版块

寒沙牧

|

资源调度安全大数据

|

博文

2017年11月16日，阿里巴巴集团旗下云计算平台阿里云，宣布在美推出MaxCompute大数据计算平台。正式向美国企业提供大数据计算服务。

3881 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

流计算 API Apache

|

博文

Apache Flink 零基础入门（一）：基础概念解析

本文是根据 Apache Flink 基础篇系列直播整理而成，由 Apache Flink PMC 戴资力与阿里巴巴高级产品专家陈守元共同分享。Apache Flink 系列入门教程每周更新一期，持续推送。

14305 1 2

来自：实时计算 Flink 版块

封神

|

资源调度分布式计算 Java

|

博文

YARN(hadoop2)框架的一些软件设计模式

yarn版本的hadoop无论是从架构上面还是软件设计的层面上面都比原始的hadoop版本有较大的改进。在架构方面，我们认为yarn模式是新一代的框架，这个在官方等丛多的资料中说明得很详细了。在软件设计方面，我认为主要有以下的一些大的方面的改进：服务生命周期管理模式、事件驱动模式、状态驱动模式

3658 0 1

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

SQL 分布式计算 Apache

|

博文

Hive 终于等来了 Flink

Flink 社区在集成 Hive 功能方面付出很多，目前进展也比较顺利，最近 Flink 1.10.0 RC1 版本已经发布，感兴趣的读者可以进行调研和验证功能。

8223 0 0

来自：实时计算 Flink 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

Apache Flink 漫谈系列(10) - JOIN LATERAL

基于 Flink 的实时数仓生产实践

十年磨一剑，阿里巴巴推荐与搜索深度学习服务体系AI·OS在云栖大会正式亮相

袋鼠云助力光伏产业 | 基于阿里云数加平台做算法预测

E-MapReduce中引导操作安装使用Kylin

MaxCompute_2_MaxCompute数据迁移文档

Apache Spark3.0什么样？一文读懂Apache Spark最新技术发展与展望

计算与存储分离实践—swift消息系统

MaxCompute分区表和非分区表使用对比

使用DataX同步MaxCompute数据到TableStore（原OTS）优化指南

SQL优化器原理－Shuffle优化

体系结构顶会 ASPLOS 2017 最佳论文出炉，阿里云周靖人主旨演讲

完成数据的打通-豌豆荚被阿里巴巴收购后的168天

MaxCompute分布式计算如何提升基因大数据处理速率？

TPP稳定性之场景隔离和多租户

Spark Operator浅析

如何分析及处理 Flink 反压？

MaxCompute预付费资源监控工具-CU管家使用教程

索引压缩算法New PForDelta简介以及使用SIMD技术的优化

Apache Flink 进阶入门（二）：Time 深度解析

基于Quick BI的用户分布分析

用Java代码调用MaxCompute

开源大数据周刊-第21期

Apache Flink 进阶（八）：详解 Metrics 原理与实战

计算广告与流处理技术综述

MaxCompute - ODPS重装上阵 第一弹 - 善用MaxCompute编译器的错误和警告

【阿里云大数据产品MaxCompute（原名ODPS）】DT时代企业数据资产的护卫舰

Kafka数据迁移MaxCompute最佳实践

Flink入坑指南 第四章：SQL中的经典操作Group By+Agg

阿里云MaxCompute 2019-3月刊

【你离完成一次MaxCompute计算任务仅剩三步】Step1 通过DataWorks控制台创建MaxCompute项目空间

日处理数据量超10亿：友信金服基于Flink构建实时用户画像系统的实践

大数据workshop：《在线用户行为分析：基于流式计算的数据处理及应用》之《流数据采集：日志流数据解析及上传》篇

云上基于Kerberos的大数据安全实践

21分钟教会你分析MaxCompute账单

MaxCompute产品最新进展 -- 从马力到计算力

E-MapReduce 2.0.0 版本发布

【通知】阿里云机器学习PAI即将商业化

十年磨一剑，王坚自研的MaxCompute如何解决世界级算力难题

从0-1体验大数据开发

Jarvis-拍立淘里面的深度学习引擎-之持续优化

Drill官网文档翻译五：连接到数据源

菜鸟双11在「仓储配送数据实时化」的台前幕后

开源大数据周刊-第14期

阿里靠什么支撑 EB 级计算力？

SparkSQL Catalyst解析

阿里云在美推出MaxCompute大数据计算平台

Apache Flink 零基础入门（一）：基础概念解析

YARN(hadoop2)框架的一些软件设计模式

Hive 终于等来了 Flink

大数据与机器学习

活跃用户

相关产品

MaxCompute - ODPS重装上阵　第一弹 - 善用MaxCompute编译器的错误和警告

Flink入坑指南第四章：SQL中的经典操作Group By+Agg