大数据与机器学习-博文-阿里云开发者社区

封神

|

分布式计算 Hadoop 分布式数据库

|

博文

阿里封神谈hadoop生态学习之路

在大数据时代，要想个性化实现业务的需求，还是得操纵各类的大数据软件，如：hadoop、hive、spark等。笔者（阿里封神）混迹Hadoop圈子多年，经历了云梯1、ODPS等项目，目前base在E-Mapreduce。在这，笔者尽可能梳理下hadoop的学习之路。

51245 14 53

来自：开源大数据平台 E-MapReduce 版块

傲海

|

机器学习/深度学习算法对象存储

|

博文

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

伴随着今日阿里云机器学习PAI在云栖大会的重磅发布，快来感受下人工智能的魅力。一、背景随着互联网的发展，产生了大量的图片以及语音数据，如何对这部分非结构化数据行之有效的利用起来，一直是困扰数据挖掘工程师的一到难题。

51142 71 143

来自：人工智能平台PAI 版块

李寻弥-27988

|

供应链数据可视化前端开发

|

博文

你刚吃的兰州牛肉面，背后就藏着大数据

兰州拉面都拥抱大数据了，此刻我只想问，黄焖鸡、麻辣烫和沙县小吃，你们还在等什么？

44372 58 72

来自：数据可视化DataV 版块

尼不要逗了

|

分布式计算算法大数据

|

博文

分布式快照算法: Chandy-Lamport

Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照（Distributed Snapshot）算法 Chandy-Lamport 算法，那么分布式快照算法可以用来解决什么问题呢？

26750 71 72

来自：开源大数据平台 E-MapReduce 版块

隐林

|

分布式计算大数据 BI

|

博文

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

目前阿里云大数据产品已经免费向全部用户开放了多种公用数据集。开放的数据类别包括：股票价格数据，房产信息，影视及其票房数据。

27552 5 12

来自：大数据计算 MaxCompute 版块

场景研读

|

SQL 分布式计算大数据

|

博文

Python+大数据计算平台，PyODPS架构手把手教你搭建

在2016年10月的云栖社区在线培训上，来自阿里云大数据事业部的秦续业分享了《双剑合壁——Python和大数据计算平台的结合实战》。他主要介绍了数据分析和机器学习的方法、DataFrame整体架构以及基础API、前端、后端、机器学习的具体实现方法。

18847 4 5

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

人工智能算法框架/工具流计算

|

博文

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

在这次访谈中，贾扬清向我们透露了他加入阿里的原因，并对他目前在阿里主要负责的工作做了详细说明，他不仅回顾了过去 6 年 AI 框架领域发生的变化，也分享了自己对于 AI 领域现状的观察和对未来发展的思考。结合自己的经验，贾扬清也给出了一些针对 AI 方向选择和个人职业发展的建议，对于 AI 从业者来

18469 2 10

来自：实时计算 Flink 版块

隐林

|

存储分布式计算监控

|

博文

【大数据干货】轻松处理每天2TB的日志数据，支撑运营团队进行大数据分析挖掘，随时洞察用户个性化需求。

“用户每天产生的日志量大约在2TB。我们需要将这些海量的数据导入云端，然后分天、分小时的展开数据分析作业，分析结果再导入数据库和报表系统，最终展示在运营人员面前。”墨迹天气运维部经理章汉龙介绍，整个过程中数据量庞大，且计算复杂，这对云平台的大数据能力、生态完整性和开放性提

17367 4 4

来自：大数据计算 MaxCompute 版块

隐林

|

存储 SQL 运维

|

博文

流计算StreamCompute

背景每年的双十一除了“折扣”，全世界（特别是阿里人）都关注的另一个焦点是面向媒体直播的“实时大屏”（如下图所示）。包括总成交量在内的各项指标，通过数字维度展现了双十一狂欢节这一是买家，卖家及物流小二一起创造的奇迹！双十一媒体直播大屏这一大屏背后需要实时处理海量的庞大电商系统各个模块产生的

19520 76 77

来自：实时计算 Flink 版块

尼不要逗了

|

分布式计算大数据 Apache

|

博文

现代流式计算的基石：Google DataFlow

0. 引言今天这篇继续讲流式计算。毫无疑问，Apache Flink 和 Apache Spark （Structured Streaming）现在是实时流计算领域的两个最火热的话题了。那么为什么要介绍 Google Dataflow 呢？Streaming Systems 这本书在分析 Fli...

19739 60 60

来自：开源大数据平台 E-MapReduce 版块

付空

|

新零售搜索推荐调度

|

博文

1.背景介绍搜索引擎的出现大大降低了人们寻找信息的难度，已经深入到生活与工作的方方面面，简单列举几个应用如下：互联网搜索，如谷歌，百度等；垂直搜索，如淘宝、天猫的商品搜索；站内搜索，各个内容网站提供的站内搜索服务；企业内部搜索，员工查询企业内部信息；广告投放，根据投放上下文检索出对应的广告主和广告内容；搜索引擎的关键是让用户找到其所需信息，其整体架构如下：从图示可知，一个搜索引擎从大的方面来看主要包括两部分，一部分是提供在线的搜索服务，一部分要把原始数据已离线的方式建立索引，建立索引是信息可搜索的前提。

18636 160 162

来自：实时计算 Flink 版块

上单

|

存储分布式计算监控

|

博文

大数据阿里云产品的简单介绍理解

很多人问，大数据是什么。一个时尚的技术名词，一个互联网时代的标志。给人高端大气上档次的感觉，很多公司不说自己有大数据都不好意思跟别人谈业务。那我就谈谈我的一些看法来结合阿里云的数加大数据产品比较粗俗的介绍下大数据到底是什么。

16146 2 3

来自：大数据计算 MaxCompute 版块

jasonli4

|

消息中间件 Web App开发监控

|

博文

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

1.大数据处理的常用方法大数据处理目前比较流行的是两种方法，一种是离线处理，一种是在线处理，基本处理架构如下：在互联网应用中，不管是哪一种处理方式，其基本的数据来源都是日志数据，例如对于web应用来说，则可能是用户的访问日志、用户的点击日志等。

25979 17 25

来自：实时计算 Flink 版块

晋恒

|

大数据分布式计算安全

|

博文

混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

2019杭州云栖大会大数据企业级服务专场，由斗鱼大数据高级专家张龙带来以 “混合云模式下 MaxCompute+Hadoop 混搭大数据架构实践” 为题的演讲。本文讲述了从 Apache Hadoop 阶段到 Cloudera CDH 阶段斗鱼大数据架构的发展历程。提出了上云过程中斗鱼遇到的问题和跳战，包括数据安全、数据同步以及迁移任务。概括了混合云模式给斗鱼带来资源效率更高和资源成本更低的变化。

16655 2 2

来自：大数据计算 MaxCompute 版块

曾xiaoyi

|

算法搜索推荐前端开发

|

博文

搜索双链路实时计算体系@双11实战

该文章来自阿里巴巴技术协会（ATA）精选集 0. 前言何为双链路实时计算体系？微观实时计算链路 a) 最细粒度商品/店铺/用户数据的实时 b) 底层模型的实时宏观实时计算链路相比微观实时，宏观实时的对象粒度更粗，更上层 a) 以实时效果为目标，基于bandit learning的实

16546 2 3

来自：智能搜索推荐版块

傲海

|

机器学习/深度学习 SQL 分布式计算

|

博文

【玩转数据系列一】人口普查统计案例

玩转数据系列文章通过简单地案例搭建，介绍如何通过阿里云机器学习平台进行数据挖掘。

17809 3 3

来自：人工智能平台PAI 版块

晋恒

|

大数据

|

博文

【内含分享PPT/视频/文章】阿里云MVP学院MaxCompute技术闭门会线上首播 | 2019大数据技术公开课第二季

数据的价值是解释业务还是预测业务？是支撑业务还是驱动业务？企业级计算服务的核心问题是什么？企业级计算平台要解决的核心问题是什么？商业和技术的平衡点在哪里？一起直播学习，让数据真正驱动业务。

13965 2 4

来自：大数据计算 MaxCompute 版块

隐林

|

数据采集分布式计算大数据

|

博文

企业大数据平台下数仓建设思路

介然（李金波），阿里云高级技术专家，现任阿里云大数据数仓解决方案总架构师。8年以上互联网数据仓库经历，对系统架构、数据架构拥有丰富的实战经验，曾经数据魔方、淘宝指数的数据架构设计专家。与阿里云大数据数仓结缘介然之前在一家软件公司给企业客户做软件开发和数仓开发实施，数仓开发和实施都是基于传统的

14814 1 1

来自：大数据计算 MaxCompute 版块

继盛

|

博文

PyODPS DataFrame 处理笛卡尔积的几种方式

PyODPS 提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理，本文主要介绍如何使用 PyODPS 执行笛卡尔积的操作。笛卡尔积最常出现的场景是两两之间需要比较或者运算。

13872 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

流计算 Apache

|

博文

接着！！Apache Flink 全领域干货合集（持续更新）

Apache Flink 下一代开源大数据计算引擎，可对有限数据流和无限数据流进行有状态计算，可部署在各种集群环境，对各种大小的数据规模进行快速计算。Flink 1.9.0 发布，在批流融合与功能特性上有重大更新，本专题将持续更新新增特性的具体说明及全领域干货。

17161 0 2

来自：实时计算 Flink 版块

傲海

|

机器学习/深度学习算法搜索推荐

|

博文

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

机器学习算法基于信用卡消费记录做信用评分背景如果你是做互联网金融的，那么一定听说过评分卡。评分卡是信用风险评估领域常用的建模方法，评分卡并不简单对应于某一种机器学习算法，而是一种通用的建模框架，将原始数据通过分箱后进行特征工程变换，继而应用于线性模型进行建模的一种方法。

15774 1 3

来自：人工智能平台PAI 版块

晋恒

|

分布式计算大数据 MaxCompute

|

博文

阿里云MaxCompute 2019-7月刊

7月MaxCompute最新资讯，技术好文，8月精彩活动预告，尽在7月刊。

11699 0 0

来自：大数据计算 MaxCompute 版块

kilowu

|

SQL 存储分布式计算

|

博文

MaxCompute上如何处理非结构化数据

0. 前言 MaxCompute作为阿里云大数据平台的核心计算组件，拥有强大的计算能力，能够调度大量的节点做并行计算，同时对分布式计算中的failover，重试等均有一套行之有效的处理管理机制。而MaxCompute SQL能在简明的语义上实现各种数据处理逻辑，在集团内外更是广为应用，在其上实现

13657 0 3

来自：大数据计算 MaxCompute 版块

傲海

|

算法机器学习/深度学习数据处理

|

博文

【玩转数据系列三】利用图算法实现金融行业风控

本文将针对阿里云平台上图算法模块来进行实验。图算法一般被用来解决关系网状的业务场景。与常规的结构化数据不同，图算法需要把数据整理成首尾相连的关系图谱。图算法更多的是考虑边和点的概念。阿里云机器学习平台上提供了丰富的图算法组件，包括K-Core、最大联通子图、标签传播聚类等。

14882 3 8

来自：人工智能平台PAI 版块

桑弦

|

人工智能分布式计算大数据

|

博文

倒计时1天！相约杭州云栖，相遇数据智能

2016杭州云栖大会盛大开启，与阿里云大数据一起相约杭州云栖，相遇数据智能！我们精心准备了四大智能看点，等你用一颗大数据的心，鞠一捧智能的“水”。

11542 1 6

来自：大数据计算 MaxCompute 版块

继盛

|

分布式计算数据挖掘 API

|

博文

PyOdps DataFrame来临，数据分析从未如此简单！

PyOdps正式发布DataFrame框架（此处应掌声经久不息），DTer的福音！有了它，就像卷福有了花生，比翼双飞，哦不，如虎添翼。快过年了，大家一定没心情看长篇大论的分析文章。作为介绍PyOdps DataFrame的开篇文章，我只说说其用起来爽的地方。其余的部分，从使用、问题到实现原理，我

11960 0 2

来自：大数据计算 MaxCompute 版块

晋恒

|

存储分布式计算大数据

|

博文

解决大数据难题阿里云MaxCompute获科技大奖

据介绍，MaxCompute（大规模分布式的数据计算平台）是国内最早自研的大数据计算平台之一，主要应用于大规模数据处理场景。目前，这项源自浙江、解决世界级难题的成果已拥有EB（百京）级别的数据存储能力、百PB（千兆）级的单日计算能力。

10763 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

存储运维监控

|

博文

阿里云大数据计算平台的自动化、精细化运维之路

作者简介：　　范伦挺　　阿里巴巴基础架构事业群-技术专家　　花名萧一，2010年加入阿里巴巴，现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台（如MaxCompute、AnalyticDB、StreamComput

12916 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算安全大数据

|

博文

阿里怎么发工资？自研薪酬管理系统首次曝光

作者：墨逐人力资源管理系统是用集中的数据将几乎所有的人力资源相关的信息（组织、招聘、薪资、绩效、审批等）统一管理起来，是企业运行必不可少的管理软件。国际上知名的有Oracle PeopleSoft、SAP 和Workday HCM，世界500强公司有超过一半都在使用。

12645 0 1

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

存储 SQL 物联网

|

博文

首次揭秘|为6.4亿人次出行提供无线网络的技术架构

借助“互联网+大数据+机场”三轮驱动，掌慧纵盈每年为6.4亿人次出行提供无线网络连接服务。随着业务的拓展，随之后来的挑战是数据量的暴增。 2016年，掌慧纵盈（股票代码：835736）通过阿里云产品，率先构建了业界领先的大数据平台。本文阐述了一家物联网企业的业务架构和数据架构，以及技术选型

11142 0 0

来自：开源大数据平台 E-MapReduce 版块

封神

|

存储分布式计算大数据

|

博文

阿里封神-大数据处理技术漫谈

以前一篇博客，从宏观描述了云梯1当时整体生态，年底了，笔者再梳理下软件栈，主要以开源软件为主，闭源不谈。大数据发展至今，开源软件层出不穷，也去解决了不同的问题，笔者试图去弄清楚这些，分门别类，后面也可以参照下。由于笔者知识面有限，难免会出现一些偏颇，不全，不正确，还请指正。后面也会有很多新的软件出现

12463 0 0

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

存储大数据分布式计算

|

博文

助力云上开源生态 - 阿里云开源大数据平台的发展

阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。在2019杭州云栖大会大数据生态专场上，阿里巴巴高级产品专家夏立为大家分享了阿里云EMR如何助力云上开源生态。

12331 0 0

来自：开源大数据平台 E-MapReduce 版块

傲海

|

机器学习/深度学习算法搜索推荐

|

博文

【玩转数据系列五】农业贷款发放预测

很多农民因为缺乏资金，在每年耕种前会向相关机构申请贷款来购买种地需要的物资，等丰收之后偿还。农业贷款发放问题是一个典型的数据挖掘问题。贷款发放人通过往年的数据，包括贷款人的年收入、种植的作物种类、历史借贷信息等特征来构建经验模型，通过这个模型来预测受贷人的还款能力。

12211 2 3

来自：人工智能平台PAI 版块

之奇

|

算法搜索推荐双11

|

博文

实时离线平台Pora介绍@2015

12460 2 2

来自：智能搜索推荐版块

隐林

|

机器学习/深度学习人工智能分布式计算

|

博文

10月18日，德国法兰克福，阿里云MaxCompute2.0，全面布局AI人工智能

在2017年杭州云栖大会上，阿里云宣布大数据计算服务MaxCompute将于10月18日在德国法兰克福正式开服。通过MaxCompute2.0全新一代的人工智能系统，阿里云将携手更多欧洲本地合作伙伴建立科技生态，驱动当地云计算和大数据的发展，将中国先进的云计算推广至海外，在人工智能、深度学习等领域实现突破创新。

10545 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

SQL 分布式计算大数据

|

博文

MaxCompute常用语句汇总(更新ing)

收集一些MaxCompute常用命令。

11899 0 1

来自：大数据计算 MaxCompute 版块

吴嘉伟怀风

|

机器学习/深度学习自然语言处理搜索推荐

|

博文

基于DNN+GBDT的Query类目预测融合模型

用户搜索意图的理解在搜索排序体系下有着重要的作用。在搜索引擎中，分析用户的搜索Query和哪些文档类目的意图更相关，被称为Query的类目预测。本文通过集合Query的语义和行为等特征，计算得到与Query最相关的类目，并在线上得到了相关性的体验的提升。

16874 0 2

来自：智能搜索推荐版块

云栖小秘书

|

SQL 分布式计算大数据

|

博文

深入阿里云大数据IDE–MaxCompute Studio

在云栖社区主办的云栖计算之旅第5期–大数据与人工智能分享中，阿里云计算平台高级专家薛明为大家深入地介绍了阿里云大数据IDE–MaxCompute Studio，并对于其特性和背后的技术思想进行了讲解。

10290 118 122

来自：大数据计算 MaxCompute 版块

晋恒

|

SQL 分布式计算监控

|

博文

阿里云 MaxCompute 2020-4 月刊

4月MaxCompute审计日志发布，可通过历史事件及明细查询、实时行为事件分析，满足您实时审计、问题回溯分析等需求。同时，MaxCompute在支持实时消费监控告警的基础上新发布支持对按量付费单个SQL作业的消费进行控制，帮您更好的监控消费。更多4月的新功能与新解决方案，欢迎阅读4月刊。

9539 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算运维大数据

|

博文

阿里云数加助力东润环能开启新能源大数据时代

北京东润环能科技股份有限公司（以下简称“东润环能”）是一家从事新能源电力领域的数据信息服务公司，该司开创之初，提供了新能源发电功率预测系统、电网调度管理与支持系统、新能源城市规划与咨询服务等基础性产品，并逐步打造三大新能源互联网智慧服务生态圈平台，包括新能源投资开发生态圈第一平台、绿色电力交易与智.

9468 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

流计算 Apache 存储

|

博文

Flink Checkpoint 问题排查实用指南

本文会统一聊一聊 Flink 中 Checkpoint 异常的情况（包括失败和慢），以及可能的原因和排查思路。

14399 0 1

来自：实时计算 Flink 版块

隐林

|

存储搜索推荐数据库

|

博文

细数阿里云服务器的十二种典型应用场景

文章转载：小白杨1990 如今，阿里云的产品可谓是多种多样，纷繁复杂。面对各种各样的技术和产品，ECS、RDS、OSS…等等一系列的东西，很容易让人找不到头绪，尤其是刚刚开始接触网站建设的朋友。阿里云湖北授权服务中心武汉捷讯结合阿里云官网的资料，针对建站相关的内容为大家整理一些阿里云典型的应用场景

11525 1 2

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

SQL 双11 流计算

|

博文

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

通俗讲retract就是传统数据里面的更新操作，也就是说retract是流式计算场景下对数据更新的处理方式。

20637 10 12

来自：实时计算 Flink 版块

鱼跟猫

|

SQL Apache 流计算

|

博文

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

现在还没有一个统一的流式SQL语法标准，各家都在做自己的。本文在一些业界应用的基础上提出了一个统一SQL语法的建议。Spark同样存在这个问题，社区版本在流式SQL上迟迟没有动作。EMR Spark在今年上半年提供了自己设计版本的流式SQL支持，也会在后续的更新中吸收和支持这些优秀的设计建议。

8694 0 0

来自：开源大数据平台 E-MapReduce 版块

继盛

|

机器学习/深度学习分布式计算算法

|

博文

Mars——基于张量的统一分布式计算框架

很高兴在这里宣布我们的新项目：Mars，一个基于张量的统一分布式计算框架。我们已经在 Github 开源：https://github.com/mars-project/mars 。背景 Python Python 是一门相当古老的语言了，如今，在数据科学计算、机器学习、以及深度学习领域，Python 越来越受欢迎。

13087 0 2

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

Java Apache Scala

|

博文

如何在 PyFlink 1.10 中自定义 Python UDF？

本篇从架构到 UDF 接口定义，再到具体的实例，向大家介绍了在 Apache Flink 1.10 发布之后，如何利用 PyFlink 进行业务开发。

9583 0 1

来自：实时计算 Flink 版块

继盛

|

JSON 分布式计算 MaxCompute

|

博文

PyODPS开发中的最佳实践

PyODPS支持用 Python 来对 MaxCompute 对象进行操作，它提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理，并且可以用 ml 模块来执行机器学习算法。

11704 0 1

来自：大数据计算 MaxCompute 版块

eric-li

|

SQL 大数据数据处理

|

博文

使用Hive进行OSS数据处理的一个最佳实践

12152 2 9

来自：开源大数据平台 E-MapReduce 版块

隐林

|

人工智能大数据新制造

|

博文

阿里云参与两大国家工程实验室获批，人工智能继续深入工业制造

近日，国家发改委公布大数据国家工程实验室名单，由阿里云参与的“工业大数据应用技术国家工程实验室”和“大数据系统软件国家工程实验室”均获批复认定，分别是工业大数据应用及大数据系统软件领域的唯一国家级工程实验室。

8393 0 0

来自：大数据计算 MaxCompute 版块

寒沙牧

|

分布式计算大数据 Hadoop

|

博文

HAS-插件式Kerberos认证框架

HAS (Hadoop Authentication Service), 致力于解决开源大数据服务和生态系统的认证支持。目前开源大数据（Hadoop/Spark）在安全认证上只内置支持了Kerberos方式，HAS提出了一种新的认证方式, 通过与现有的认证和授权体系进行对接，使得在Hadoop/Spark在上面支持Kerberos以外的认证方式变成可能，并对最终用户简化和隐藏Kerberos的复杂性。

9101 0 2

来自：开源大数据平台 E-MapReduce 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

阿里封神谈hadoop生态学习之路

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

你刚吃的兰州牛肉面，背后就藏着大数据

分布式快照算法: Chandy-Lamport

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

Python+大数据计算平台，PyODPS架构手把手教你搭建

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

【大数据干货】轻松处理每天2TB的日志数据，支撑运营团队进行大数据分析挖掘，随时洞察用户个性化需求。

流计算StreamCompute

现代流式计算的基石：Google DataFlow

通过Flink实时构建搜索引擎的索引

大数据阿里云产品的简单介绍理解

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

搜索双链路实时计算体系@双11实战

【玩转数据系列一】人口普查统计案例

【内含分享PPT/视频/文章】阿里云MVP学院MaxCompute技术闭门会线上首播 | 2019大数据技术公开课第二季

企业大数据平台下数仓建设思路

PyODPS DataFrame 处理笛卡尔积的几种方式

接着！！Apache Flink 全领域干货合集（持续更新）

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

阿里云MaxCompute 2019-7月刊

MaxCompute上如何处理非结构化数据

【玩转数据系列三】利用图算法实现金融行业风控

倒计时1天！相约杭州云栖，相遇数据智能

PyOdps DataFrame来临，数据分析从未如此简单！

解决大数据难题 阿里云MaxCompute获科技大奖

阿里云大数据计算平台的自动化、精细化运维之路

阿里怎么发工资？自研薪酬管理系统首次曝光

首次揭秘|为6.4亿人次出行提供无线网络的技术架构

阿里封神-大数据处理技术漫谈

助力云上开源生态 - 阿里云开源大数据平台的发展

【玩转数据系列五】农业贷款发放预测

实时离线平台Pora介绍@2015

10月18日，德国法兰克福，阿里云MaxCompute2.0，全面布局AI人工智能

MaxCompute常用语句汇总(更新ing)

基于DNN+GBDT的Query类目预测融合模型

深入阿里云大数据IDE–MaxCompute Studio

阿里云 MaxCompute 2020-4 月刊

阿里云数加助力东润环能开启新能源大数据时代

Flink Checkpoint 问题排查实用指南

细数阿里云服务器的十二种典型应用场景

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

Mars——基于张量的统一分布式计算框架

如何在 PyFlink 1.10 中自定义 Python UDF？

PyODPS开发中的最佳实践

使用Hive进行OSS数据处理的一个最佳实践

阿里云参与两大国家工程实验室获批，人工智能继续深入工业制造

HAS-插件式Kerberos认证框架

大数据与机器学习

活跃用户

相关产品

解决大数据难题阿里云MaxCompute获科技大奖