大数据与机器学习-博文-第4页-阿里云开发者社区

晋恒

|

Web App开发 SQL 分布式计算

|

博文

阿里云MaxCompute 2019-4月刊

4月新功能发布，精彩技术好文推荐，5月线上线下活动抢先知道，尽在4月刊。

5957 0 0

来自：大数据计算 MaxCompute 版块

light-rain

|

博文

使用Spark Streaming SQL基于时间窗口进行数据统计

流式计算一个很常见的场景是基于事件时间进行处理，常用于检测、监控、根据时间进行统计等系统中。使用Spark Streaming SQL可以很方便的对事件数据中的时间字段进行处理，本文通过讲解一个统计用户在过去5秒钟内点击网页次数的案例，介绍如何使用Spark Streaming SQL对事件时间进行操作。

8890 0 0

来自：开源大数据平台 E-MapReduce 版块

工程师甲

|

SQL 数据库 Python

|

博文

【技术实验】Elasticsearch 做数据库系列之一：表结构定义

Elaticsearch 有非常好的查询性能和查询语法，在一定场景下可以替代RDBMS做为OLAP。《Elasticsearch 做数据库系列》系列文章通过类比SQL的概念，实验并学习Elasticsearch聚合DSL的语法和语义，并用 python 实现一个翻译器，能够使用 SQL 来完成 Elasticsearch 聚合DSL一样的功能。

8508 0 1

来自：检索分析服务 Elasticsearch版版块

祎休

|

分布式计算 NoSQL 大数据

|

博文

北京Workshop准备条件：《云数据·大计算：快速搭建互联网在线运营分析平台》

本手册为云栖大会Workshop之《云计算·大数据：海量日志数据分析与应用》场的前提准备条件所需。主要为保障各位学员在workshop当天能够顺畅进行动手实操，那么本场需要各位学员再参加之前确保自己云账号已免费开通表格存储TableStore、大数据计算服务MaxCompute、DataWorks和Quick BI。

6202 0 1

来自：大数据计算 MaxCompute 版块

付空

|

存储大数据流计算

|

博文

【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

基于Blink为新商业调控打造实时大数据交互查询服务从IT到DT、从电商到新商业，阿里巴巴的每个细胞都存在大数据的DNA，如何挖掘大数据的价值成为抢占未来先机的金钥匙！传统的大数据开发主要基于离线计算平台MaxCompute（ODPS）进行天级别、小时级别的批量数据分析，但近些年随着618、99.

7203 0 0

来自：实时计算 Flink 版块

百遇

|

分布式计算监控数据可视化

|

博文

美甲帮：玩转指甲上的大数据平台

美甲帮APP目前有几百万的用户，然而不同用户喜好和动机不同，譬如是想提升美甲技艺，还是想通过美甲图片选款，或者是想在商城里购买美甲产品，如何挖掘用户需求并以此进行精准化营销或个性化推荐，提升客户体验同时又可以增加收入，这些都是美甲帮最关注的问题。

6518 0 2

来自：大数据计算 MaxCompute 版块

工程师甲

|

机器学习/深度学习

|

博文

【X-Pack解读】阿里云Elasticsearch X-Pack 机器学习组件功能详解

阿里云Elasticsearch集成了Elastic Stack商业版的X-Pack组件包，包括安全、告警、监控、报表生成、图分析、机器学习等组件，用户可以开箱即用。本文将对X-Pack 的机器学习功能进行详细解读。

7417 0 0

来自：检索分析服务 Elasticsearch版版块

健炜

|

分布式计算 MaxCompute SQL

|

博文

基于MaxCompute InformationSchema进行冷门表热门表访问分析

在实际的数据平台运营管理过程中，数据表的规模往往随着更多业务数据的接入以及数据应用的建设而逐渐增长到非常大的规模，数据管理人员往往希望能够利用元数据的分析来更好地掌握不同数据表的使用情况，从而优化数据模型。

6847 0 0

来自：大数据计算 MaxCompute 版块

梅熙

|

分布式计算大数据 Hadoop

|

博文

EMR集群上capacity scheduler的ACL实现

本文接着yarn capacity scheduler的实现原理，介绍了capacity scheduler的设置和其中需要注意的问题，并结合EMR集群做了实际操作实验。

6037 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

机器学习/深度学习运维资源调度

|

博文

基于 Flink 构建 CEP 引擎的挑战和实践

奇安信集团作为一家网络安全公司是如何基于 Flink 构建 CEP 引擎实时检测网络攻击？其中面临的挑战以及宝贵的实践经验有哪些？本文主要内容分为以下四个方面： 1. 背景及现状 2. 技术架构 3. 产品及运维 4. 未来发展与思考

7217 0 0

来自：实时计算 Flink 版块

隐林

|

大数据

|

博文

DT时代已经悄然来临，IT人您跟上了吗？

什么是DT时代？在2015年中国（深圳）IT领袖峰会上，马云发表演讲：过去7年我们从互联网创业到互联网产业，很快进入互联网经济，而且正在从IT走向DT时代，也许昨天称为IT领袖峰会，未来要称DT领袖峰会，DT不仅仅是技术提升，而是思想观念的提升。

6247 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

SQL 存储消息中间件

|

博文

Flink SQL 功能解密系列 —— 阿里云流计算/Blink支持的connectors

Connector 是连接外部数据和blink计算框架的桥梁，也是流计算的入口和出口。目前，blink支持了集团内部绝大多数的上下游（如下图)，详细的接入方法可以见官方文档，本文主要阐述connector设计和使用上需要注意的问题。

7809 1 2

来自：实时计算 Flink 版块

隐林

|

机器学习/深度学习人工智能并行计算

|

博文

阿里云机器学习平台PAI，助力降低机器学习的成本和技术门槛

摘要：在2017杭州云栖大会机器学习平台PAI专场上，阿里巴巴研究员、阿里云机器学习平台PAI负责人林伟为大家分享了人工智能的发展历史以及阿里云机器学习平台PAI的简单情况和特性。本文内容根据嘉宾演讲视频以及PPT整理而成。

7094 1 1

来自：人工智能平台PAI 版块

yao_ss

|

机器学习/深度学习算法 BI

|

博文

AQN:一种通过交替量化对深度学习模型压缩以及加速推理的方法

本文提供了一种对深度学习模型量化压缩以及加速推理的方法

7435 0 2

来自：智能搜索推荐版块

juntan

|

算法

|

博文

基于动态混合高斯模型的商品价格模型算法

1. 背景作为电子商务网站，淘宝网上的每个商品都有一个价格，该价格从一个很重要的维度上反应出一个商品的品质。但是由于该价格是由第三方卖家自己确定的，因此存在一定的随机性。一个价格过低的商品，其假货的可能性往往较大，比如500元的劳力士手表，或者商品的质量存在问题；同时一个价格过高的商品，

6422 0 0

来自：智能搜索推荐版块

梅熙

|

分布式计算资源调度大数据

|

博文

利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制

本文结合EMR集群，讲述了如何利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源quota限制与管控。

7401 0 0

来自：开源大数据平台 E-MapReduce 版块

云学习小组

|

机器学习/深度学习分布式计算大数据

|

博文

一图胜千言，阿里云视觉大数据智能计算实践

在2016云栖大会杭州峰会人工智能专场上，阿里云研究员、资深总监华先胜为大家带来了阿里云眼视觉大数据智能计算的实践经验。所谓“一图胜千言”，图像所包含的数据量非常之大，如何充分利用人工智能和大数据以及云计算的平台从海量的视频与图像信息中挖掘数据的价值呢？本文就为大家分享。

6376 0 1

来自：大数据计算 MaxCompute 版块

晋恒

|

存储分布式计算算法

|

博文

基于MaxCompute的媒体大数据开放平台建设

摘要：随着自媒体的发展，传统媒体面临着巨大的压力和挑战，新华智云运用大数据和人工智能技术，致力于为媒体行业赋能。通过媒体大数据开放平台，将媒体行业全网数据汇总起来，借助平台数据处理能力和算法能力，将有价值数据内容和能力开放给用户。

6038 0 0

来自：大数据计算 MaxCompute 版块

阿里云E-MapReduce团队

|

大数据

|

博文

钉钉群直播【Delta Lake：一种新型的数据湖方案】

Delta Lake 是 Databricks 推出的一种新型的数据湖方案，解决了传统数据湖方案中的诸多痛点。其中的核心组件 Delta 也于近期开源。本次分享将围绕 Delta Lake 和 Delta 的诸多细节展开，如 Delta Lake 的适用场景、技术优势，Delta 的原理实现以及一些高级特性等，并就现有解决方案做横向对比。

5684 0 0

来自：开源大数据平台 E-MapReduce 版块

隐林

|

SQL 分布式计算 DataWorks

|

博文

为了让开发者写MaxCompute SQL更爽，DataWorks 增强SQL 编辑器功能

众所周知，数据开发和分析的同学每天都要花大量时间写MaxCompute SQL；Dataworks作为数据开发的IDE直接影响着大家的开发效率，这次新上线的Dataworks我们在编辑体验上做了很多工作，在前端实现MaxCompute SQL和编辑器参数等扩展语法的AST解析，并实现更好更智能的代

6476 0 1

来自：大数据计算 MaxCompute 版块

eric-li

|

SQL 关系型数据库 MySQL

|

博文

分布式的R

5977 0 0

来自：大数据计算 MaxCompute 版块

工程师甲

|

搜索推荐开发者算法

|

博文

2019年9月26日在云栖大会《搜索推荐工程技术专场》上，介绍了阿里巴巴搜索推荐与广告，淘系推荐算法云上赋能的分享。基于阿里巴巴十几年搜索与推荐引擎的技术沉淀，承载了包括淘宝、天猫、菜鸟、盒马、钉钉、优酷乃至海外电商在内的整个阿里集团业务，同时由搜索推荐体系支撑起的云产品矩阵已服务于全球的开发者。本次分享邀请到了阿里巴巴搜索和推荐最核心的资深技术专家，为大家带来搜索和推荐领域最前沿、专业、深度的技术内容盛宴。

9251 0 2

来自：智能搜索推荐版块

隐林

|

大数据数据中心云计算

|

博文

Gartner公布2017年全球云计算魔力象限：阿里云进入前四

据媒体报道，6月16日，国际知名调研机构Gartner公布了2017年全球云计算IaaS魔力象限，阿里云强势崛起成为这一核心领域的前四名。这也是中国云计算厂商首次进入Gartner的IaaS魔力象限。

5559 0 0

来自：大数据计算 MaxCompute 版块

李杉杉

|

SQL 分布式计算大数据

|

博文

专家教你使用MaxCompute玩转大数据分析！

摘要传统的数据分析经常使用的工具是Hadoop或Spark在使用之前环境是需要用户自己去搭建的。随着业务逐渐向云迁移如何在云上进行大数据分析是需要解决的问题。为此阿里云提供了一项很重要的服务——大数据计算服务MaxCompute。

5501 0 0

来自：大数据计算 MaxCompute 版块

百遇

|

机器学习/深度学习存储大数据

|

博文

专访佰腾科技大数据团队，谈专利大数据领域的挑战与实践

专利信息的『大数据』与其它领域的『大数据』多少有些不同，虽然全球专利信息的总量仅在1亿多条，但是每条专利信息要分析获取的数据维度目前就多达200多项，实际处理的数据量在百亿级别。

6485 0 0

来自：大数据计算 MaxCompute 版块

封神

|

分布式计算关系型数据库 MySQL

|

博文

E-Mapreduce如何处理RDS的数据

目前网站的一些业务数据存在了数据库中，这些数据往往需要做进一步的分析，如：需要跟一些日志数据关联分析，或者需要进行一些如机器学习的分析。在阿里云上，目前E-Mapreduce可以满足这类进一步分析的需求。

5242 0 1

来自：开源大数据平台 E-MapReduce 版块

付空

|

监控前端开发数据库

|

博文

实时计算在天猫双十一大屏中的应用

案例与解决方案汇总页：阿里云实时计算产品案例&解决方案汇总本文为您介绍实时计算在天猫双十一大屏业务中的应用。天猫双十一大屏背后最强大最核心的支持力量来自于阿里云实时计算。曾经天猫双十一大屏后台流式计算使用开源的Storm来进行开发，整个开发时间长达一个月。

7398 153 153

来自：实时计算 Flink 版块

ali别离

|

C++

|

博文

C++性能优化

8203 0 3

来自：智能搜索推荐版块

隐林

|

分布式计算关系型数据库 DataX

|

博文

离线数据同步神器：DataX，支持几乎所有异构数据源的离线同步到MaxCompute

概述 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。

9173 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

流计算 API SQL

|

博文

开篇 | 揭秘 Flink 1.9 新架构，Blink Planner 你会用了吗？

本文为 Apache Flink 新版本重大功能特性解读之 Flink SQL 系列文章的开篇，Flink SQL 系列文章由其核心贡献者们分享，涵盖基础知识、实践、调优、内部实现等各个方面，带你由浅入深地全面了解 Flink SQL。

7874 0 0

来自：实时计算 Flink 版块

yq传送门

|

存储运维分布式计算

|

博文

飞天5K实战经验：大规模分布式系统运维实践

传统的运维人员通常只面对几十或者上百台的服务器，但在大规模分布式集群中，运维人员面临工作任务明显不同。本文分别阐述服务器数量激增，要求提升全局掌控能力，如何实现系统的自我保护和自动化恢复，大规模与精细化平衡，以及需要开发和运维更加紧密合作等方面，通过对真实数据进行分析和预测，将判断失误概率降到最低。

6766 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

存储分布式计算安全

|

博文

【大数据干货】阿里云数加让企业更专注于业务，助力东润环能高效利用大数据资源

最重要的是采用阿里云数加，东润环能将所有精力都放在业务上，节省了自建机房在学习成本、开发成本、管理成本、投入机房资源和运维成本的总成本，“相比自建Hadoop物理集群，使用阿里云数加MaxCompute的总成本有较大降低，应用开发效率有很大提高。”东润环能技术研发部总监王云如是说。

5891 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

机器学习/深度学习 Web App开发安全

|

博文

开源大数据周刊-第54期

4977 0 0

来自：开源大数据平台 E-MapReduce 版块

百遇

|

机器学习/深度学习分布式计算搜索推荐

|

博文

技术创业难？看汇合营销如何玩转大数据与机器学习

峰值期间，汇合营销每天需要收集、分析和存储20多亿条的访客浏览轨迹；同时，还需要根据用户需求在亿级日志表中做秒级查询。

5357 0 0

来自：大数据计算 MaxCompute 版块

寒沙牧

|

存储 SQL 分布式计算

|

博文

EMR Spark Runtime Filter性能优化

Join是一个非常耗费资源耗费时间的操作，特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据，一方面可以提高查询性能，另一方面也可以减少资源的消耗(网络/IO/CPU等)，在同样的资源的情况下可以支撑更多的查询。

5573 0 0

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

分布式计算大数据弹性计算

|

博文

E-MapReduce 4.0产品新特性

E-MapReduce是运行在阿里云平台上的一大数据处理的系统解决方案。在2019年10月，阿里巴巴将发布EMR4.0版本。本篇介绍EMR4.0的新特性，包括在EMR基础能力，技术栈，生态集成和数据迁移等方面的升级，EMR4.0为用户提供更高的计算性能和更低的产品价格，将技术的红利让给用户。

6750 0 1

来自：开源大数据平台 E-MapReduce 版块

晋恒

|

弹性计算分布式计算关系型数据库

|

博文

阿里云 MaxCompute 2020-3 月刊

MaxCompute3月新发功能，新增文档，精彩直播回放，尽在 MaxCompute 3月刊。

5033 0 0

来自：大数据计算 MaxCompute 版块

金竹

|

关系型数据库 Java Apache

|

博文

Apache Flink 漫谈系列(09) - JOIN 算子

聊什么在《Apache Flink 漫谈系列 - SQL概览》中我们介绍了JOIN算子的语义和基本的使用方式，介绍过程中大家发现Apache Flink在语法语义上是遵循ANSI-SQL标准的，那么再深思一下传统数据库为啥需要有JOIN算子呢？在实现原理上面Apache Flink内部实现和传统.

12692 0 5

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

API 流计算存储

|

博文

Apache Flink 零基础入门教程（六）：状态管理及容错机制

本文主要分享内容如下：状态管理的基本概念；状态的类型与使用示例；容错机制与故障恢复；

6569 0 0

来自：实时计算 Flink 版块

隐林

|

分布式计算大数据 MaxCompute

|

博文

【大数据技巧】Flume采集网站日志到MaxCompute常见问题汇总

本文列举了Flume采集网站日志到MaxCompute的一些常见问题，欢迎大家补充；

5040 0 1

来自：大数据计算 MaxCompute 版块

yq传送门

|

运维分布式计算资源调度

|

博文

走近华佗，解析自动化故障处理系统背后的秘密

集群医生华佗是集群自动化故障监测和处理系统，是平台和运维对接的关键系统，它承担了飞天平台自动化故障处理系统的任务。如何能又快又好地发现和解决线上故障呢？本文为您解析自动化故障处理系统背后的秘密。一起来了解华佗是如何提升集群的故障发现、处理的效率和准确性，解放运维人员，提高飞天稳定性和可靠性的。

6168 0 1

来自：大数据计算 MaxCompute 版块

隐林

|

存储分布式计算大数据

|

博文

MaxCompute助力OSS支持EB级计算力

一、 MaxCompute是什么你的OSS数据是否作堆积在一旁沉睡已久存储成本变为企业负担你是否想唤醒沉睡的数据驱动你的业务前行MaxCompute可以帮助你高效且低成本的解决这些问题通过对海量数据进行分析和计算来实现勾勒用户画像、提升营销转化、挖掘产品优化方向、预测业务发展等丰富的业务场景。

5009 0 0

来自：大数据计算 MaxCompute 版块

大数据史记

|

存储分布式计算大数据

|

博文

分布式大数据系统巧实现，全局数据调度管理不再难

本文从背景、分布式文件系统、容错机制、分布式节点距离计算法则、数据分布策略、分布式计算调度、跨IDC集群规划的两种方式、ODPS跨集群数据依赖等方面深度介绍了分布式大数据系统中全局数据调度和管理。

5365 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

新零售人工智能专有云

|

博文

阿里云2020年预期净利100亿，碾压99%A股公司 | 新龙榜

机构测算，2016年中国公有云市场份额为150亿元左右，阿里云占据将近40%市场份额，一骑绝尘。

5351 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

存储分布式计算大数据

|

博文

为什么MaxCompute采用列式存储？列式存储和行式存储的主要区别在哪

6044 0 0

来自：大数据计算 MaxCompute 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

阿里云MaxCompute 2019-4月刊

使用Spark Streaming SQL基于时间窗口进行数据统计

【技术实验】Elasticsearch 做数据库系列之一：表结构定义

北京Workshop准备条件：《云数据·大计算：快速搭建互联网在线运营分析平台》

【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

美甲帮：玩转指甲上的大数据平台

【X-Pack解读】阿里云Elasticsearch X-Pack 机器学习组件功能详解

基于MaxCompute InformationSchema进行冷门表热门表访问分析

EMR集群上capacity scheduler的ACL实现

基于 Flink 构建 CEP 引擎的挑战和实践

DT时代已经悄然来临，IT人您跟上了吗？

Flink SQL 功能解密系列 —— 阿里云流计算/Blink支持的connectors

阿里云机器学习平台PAI，助力降低机器学习的成本和技术门槛

AQN:一种通过交替量化对深度学习模型压缩以及加速推理的方法

基于动态混合高斯模型的商品价格模型算法

利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制

一图胜千言，阿里云视觉大数据智能计算实践

基于MaxCompute的媒体大数据开放平台建设

钉钉群直播【Delta Lake：一种新型的数据湖方案】

为了让开发者写MaxCompute SQL更爽，DataWorks 增强SQL 编辑器功能

Hive MetaStore同步方法

BasicEngine — 基于DII平台的推荐召回引擎

OpenSearch：轻松构建大数据搜索服务

MaxCompute SQL 现状与展望

咱们从头到尾讲一次 Flink 网络流控和反压剖析

R语言和大数据

云栖全程回顾|搜索推荐工程技术专场（附视频与文档）

Gartner公布2017年全球云计算魔力象限：阿里云进入前四

专家教你使用MaxCompute玩转大数据分析！

专访佰腾科技大数据团队，谈专利大数据领域的挑战与实践

E-Mapreduce如何处理RDS的数据

实时计算在天猫双十一大屏中的应用

C++性能优化

离线数据同步神器：DataX，支持几乎所有异构数据源的离线同步到MaxCompute

开篇 | 揭秘 Flink 1.9 新架构，Blink Planner 你会用了吗？

飞天5K实战经验：大规模分布式系统运维实践

【大数据干货】阿里云数加让企业更专注于业务，助力东润环能高效利用大数据资源

开源大数据周刊-第54期

技术创业难？看汇合营销如何玩转大数据与机器学习

EMR Spark Runtime Filter性能优化

E-MapReduce 4.0产品新特性

阿里云 MaxCompute 2020-3 月刊

Apache Flink 漫谈系列(09) - JOIN 算子

Apache Flink 零基础入门教程（六）：状态管理及容错机制

【大数据技巧】Flume采集网站日志到MaxCompute常见问题汇总

走近华佗，解析自动化故障处理系统背后的秘密

MaxCompute助力OSS支持EB级计算力

分布式大数据系统巧实现，全局数据调度管理不再难

阿里云2020年预期净利100亿，碾压99%A股公司 | 新龙榜

为什么MaxCompute采用列式存储？列式存储和行式存储的主要区别在哪

大数据与机器学习

活跃用户

相关产品