大数据与机器学习-博文-第2页-阿里云开发者社区

曾安祥仁重

|

机器学习/深度学习算法搜索推荐

|

博文

强化学习在电商环境下的若干应用与研究

本文描述了淘宝搜索算法AI技术团使用强化学习算法在淘宝的环境中怎么解决实际的业务问题的以及一些研究探索。

13858 0 3

来自：智能搜索推荐版块

apache_flink

|

SQL 大数据数据库

|

博文

为什么说流处理即未来？

本文整理自 Flink 创始公司 Ververica 联合创始人兼 CTO - Stephan 在 Flink Forward China 2018 上的演讲《Stream Processing takes on Everything》。

10254 0 1

来自：实时计算 Flink 版块

光戈

|

算法测试技术大数据

|

博文

ComputeColStats UDF中近似算法的介绍

一，前面的话表和列的统计信息对CBO的结果有着极大地影响，能够高效和准确的收集统计信息是极其重要的。但高效和准确是矛盾的，更准确的统计信息往往需要更多的计算，我们能做的是在高效和准确之间找到更好的平衡。

9277 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

分布式计算大数据 Apache

|

博文

Apache Spark 3.0 将内置支持 GPU 调度

如今大数据和机器学习已经有了很大的结合，在机器学习里面，因为计算迭代的时间可能会很长，开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FPGA 了。

10959 1 1

来自：开源大数据平台 E-MapReduce 版块

金轮

|

监控安全大数据

|

博文

【入门指南】使用阿里云Elasticsearch搭建ELK日志系统

本文介绍了基于阿里云Elasticsearch搭建ELK日志系统的基本步骤，并对kibana和ES的日志检索和分析做简要介绍，可作为新手入门指导。

15987 0 1

来自：检索分析服务 Elasticsearch版版块

昊一

|

SQL 分布式计算大数据

|

博文

MaxCompute模板与样例

代码模板和示例是用户熟悉新产品和提高开发效率的有效方式，studio提供了一系列的开发模板和代码实例。用户可以通过这些功能，快速熟悉MaxCompute，玩转大数据下的程序开发。

9205 0 0

来自：大数据计算 MaxCompute 版块

付空

|

搜索推荐流计算

|

博文

基于实时计算（Flink）打造一个简单的实时推荐系统

本文为您介绍如何基于阿里云实时计算快速搭建实时推荐系统。

15268 1 5

来自：实时计算 Flink 版块

隐林

|

Web App开发数据可视化双11

|

博文

双11数据大屏直播 / 双11作战大屏

双11大屏直播地址：https://h5.m.taobao.com/qn/pc/niuba-interview.html?spm=a1zb6.8232479.0.0.qfgVCn#!/interview/10035359

9762 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

流计算 Apache 存储

|

博文

Flink Checkpoint 问题排查实用指南

本文会统一聊一聊 Flink 中 Checkpoint 异常的情况（包括失败和慢），以及可能的原因和排查思路。

13937 0 1

来自：实时计算 Flink 版块

晋恒

|

分布式计算大数据调度

|

博文

阿里云 MaxCompute 2020-1 月刊

您好，MaxCompute 2020.1月刊如期而至，在疫情肆虐的日子里，祝福每一位开发者，平安健康，一切顺利。

8775 0 1

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

SQL 存储缓存

|

博文

EMR Spark Relational Cache的执行计划重写

作者：王道远，花名健身，阿里巴巴计算平台EMR技术专家。背景 EMR Spark提供的Relational Cache功能，可以通过对数据模型进行预计算和高效地存储，加速Spark SQL，为客户实现利用Spark SQL对海量数据进行即时查询的目的。

9391 0 1

来自：开源大数据平台 E-MapReduce 版块

工程师甲

|

监控安全数据安全/隐私保护

|

博文

【X-Pack解读】阿里云Elasticsearch X-Pack 安全组件功能详解

阿里云Elasticsearch集成了Elastic Stack商业版的X-Pack组件包，包括安全、告警、监控、报表生成、图分析、机器学习等组件，用户可以开箱即用。接下来小编将在【X-Pack解读】系列里解读各个Elasticsearch X-Pack 组件功能。

11693 0 0

来自：检索分析服务 Elasticsearch版版块

隐林

|

机器学习/深度学习分布式计算大数据

|

博文

阿里云数加产品家族图首次亮相

数加就是阿里云专业搞大数据各种神器的产品大家族其实技术型产品也没辣么难懂，一层各种形式计算完给到二层做数据展现&算法加工，三层通过各种算法延展粗各种数据应用.您买间屋也行，买一层可以，要是高兴买整栋楼都随您意！

9527 0 2

来自：大数据计算 MaxCompute 版块

傲海

|

机器学习/深度学习人工智能算法

|

博文

【上报纸啦】95后大学生用机器学习PAI大战老年痴呆

中国青年报原文链接：http://zqb.cyol.com/html/2017-07/28/nw.D110000zgqnb_20170728_2-06.htm 燕山大学信息科学与技术专业出身的95后大学生谭创创，没想到自己会与阿尔茨海默症（俗称“老年痴呆症”）为“敌”。

9123 1 1

来自：人工智能平台PAI 版块

隐林

|

SQL 分布式计算 MaxCompute

|

博文

MaxCompute SQL-列转行和行转列

1. 假设我们在MaxCompute中有两张表，其中一张表是存用户基本信息，另一张表是存用户的地址信息等，表数据假设如下： user_basic_info: id name 1 a 2 b 3 c

13887 0 1

来自：大数据计算 MaxCompute 版块

鱼跟猫

|

SQL Apache 流计算

|

博文

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

现在还没有一个统一的流式SQL语法标准，各家都在做自己的。本文在一些业界应用的基础上提出了一个统一SQL语法的建议。Spark同样存在这个问题，社区版本在流式SQL上迟迟没有动作。EMR Spark在今年上半年提供了自己设计版本的流式SQL支持，也会在后续的更新中吸收和支持这些优秀的设计建议。

8548 0 0

来自：开源大数据平台 E-MapReduce 版块

继盛

|

机器学习/深度学习分布式计算算法

|

博文

Mars——基于张量的统一分布式计算框架

很高兴在这里宣布我们的新项目：Mars，一个基于张量的统一分布式计算框架。我们已经在 Github 开源：https://github.com/mars-project/mars 。背景 Python Python 是一门相当古老的语言了，如今，在数据科学计算、机器学习、以及深度学习领域，Python 越来越受欢迎。

12691 0 2

来自：大数据计算 MaxCompute 版块

隐林

|

存储分布式计算 NoSQL

|

博文

MaxCompute访问TableStore(OTS) 数据（20170601更新）

MaxCompute作为阿里云大数据平台的核心计算组件，承担了集团内外大部分的分布式计算需求。

10801 0 2

来自：大数据计算 MaxCompute 版块

erin_726

|

分布式计算 Java MaxCompute

|

博文

flume java介绍

近期在做shark flume开发框架的测试，该框架是一个简单高效的面向数据的pipeline框架，采用flume java的思想，实现了一套flume java on MaxCompute的library。为了更好的了解shark自己也去阅读了flume java的paper，这里做一些总结，主要

9124 0 0

来自：大数据计算 MaxCompute 版块

eric-li

|

SQL 大数据数据处理

|

博文

11444 2 4

来自：实时计算 Flink 版块

上单

|

SQL 分布式计算 JavaScript

|

博文

阿里云大数据利器Maxcompute-使用mapjoin优化查询

small is beautiful，small is powerful

9724 0 1

来自：大数据计算 MaxCompute 版块

祎休

|

分布式计算搜索推荐 OLAP

|

博文

基于MaxCompute构建企业用户画像（用户标签的制作）

在数据化营销时代，数据的价值越发显得更为珍贵。那如何让自己的数据发挥价值，也就是说如何让公司沉睡的数据能够驱动业务发展给公司带来商业价值？在营销里面我们都谈精准营销，谈用户画像，那用户画像到底如何构建，用户的标签如何开发？本示例给与最简单的demo，那个大家清楚认识基于MaxCompute如何构建企业用户标签。

9031 0 1

来自：大数据计算 MaxCompute 版块

隐林

|

存储数据采集监控

|

博文

“NASA”计划背后，阿里巴巴大数据系统架构概述

DT时代，人们比以往任何时候都收集到更多的数据。据IDC报告，预计到2020年，全球数据总量将超过40ZB(相当于40万亿GB)，这一数据量是2011年的22倍！正在“爆炸式”增长的数据，其潜在巨大价值有待发掘。

9057 0 0

来自：大数据计算 MaxCompute 版块

tjmts

|

运维自然语言处理 Java

|

博文

使用llvm实现一门语言 —— cava

本文将介绍如何使用llvm+bison+flex技术实现一门编程语言。以我们实现的cava语言为例，介绍编译器各阶段，词法分析 -> 语法分析 -> 语义分析 -> 中间代码优化 -> 目标代码生成，最终生成汇编指令，再由汇编语言根据不同的指令集生成对应的可执行程序是如何实现的。

11434 0 3

来自：智能搜索推荐版块

暮角

|

存储分布式计算 Oracle

|

博文

Oracle存储过程迁移ODPS-00（专有云）：Oracle - ODPS数据类型转换

oracle 数据类型转到ODPS，映射关系

8920 0 1

来自：大数据计算 MaxCompute 版块

冶善

|

分布式计算监控 Oracle

|

博文

基于OGG Datahub插件将Oracle数据同步上云

一、背景介绍随着数据规模的不断扩大，传统的RDBMS难以满足OLAP的需求，本文将介绍如何将Oracle的数据实时同步到阿里云的大数据处理平台当中，并利用大数据工具对数据进行分析。 OGG（Oracle GoldenGate）是一个基于日志的结构化数据备份工具，一般用于Oracle数据

9232 1 3

来自：大数据计算 MaxCompute 版块

云无谓

|

机器学习/深度学习分布式计算算法

|

博文

开源深度学习库BigDL在阿里云E-MapReduce上的实践

近些年来机器学习中的子领域深度学习成为一个热门的话题。本文要介绍Intel开源的深度学习框架BigDL，它也是在Spark上的一个算法库，提供了全面的深度学习算法支持，包括数值计算（Tensor）和高阶神经网络等。

7410 0 0

来自：开源大数据平台 E-MapReduce 版块

传学

|

SQL 分布式计算 MaxCompute

|

博文

MaxCompute 学习计划(二)

学习MaxCompute SQL和UDF的checklist

9323 0 1

来自：大数据计算 MaxCompute 版块

寒沙牧

|

资源调度测试技术 Apache

|

博文

YARN中的CPU资源隔离-CGroups

YARN中集成了CGroups的功能，使得NodeManger可以对container的CPU的资源使用进行控制，比如可以对单个container的CPU使用进行控制，也可以对NodeManger管理的总CPU进行控制。

10534 1 2

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

大数据分布式计算流计算

|

博文

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

章剑锋（简锋），开源界老兵，Apache Member，曾就职于 Hortonworks，目前在阿里巴巴计算平台事业部任高级技术专家，并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ，以及 Apache Pig 的 Committer。

8546 0 0

来自：实时计算 Flink 版块

隐林

|

SQL 分布式计算 MaxCompute

|

博文

MaxComputeSql性能调优

转载自xiaorui 部分用户(尤其对外输出)使用MaxCompute(原Odps)时，由于对产品的使用层面和执行层面了解程度不同，导致提交的任务执行时间过长、占用了较多集群资源；严重的会导致失败、不仅需要投入支持同学精力协助解决、也影响了用户正常业务。合并整理部分性能提升方法方

7763 0 1

来自：大数据计算 MaxCompute 版块

寒沙牧

|

SQL 分布式计算算法

|

博文

Spark中的资源调度

本文对Spark的资源调度的进行了介绍，涉及到4个维度的调度，包括SparkApplication/pool/TaskSetManager/Task。

8007 0 0

来自：开源大数据平台 E-MapReduce 版块

隐林

|

存储分布式计算大数据

|

博文

随着DT时代互联网、智能设备及其他信息技术的发展，数据爆发式增长，如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。为什么需要数据建模如果把数据看作图书馆里的书，我们希望看到它们在书架上分门别类地放置；如果把数据看作城市的建筑，我们希望城市规划布局合理；如果把数据看作电脑文件和文件夹，我们希望按照自己的习惯有很好的文件夹组织方式，而不是糟糕混乱的桌面，经常为找一个文件而不知所措。

7660 0 1

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

机器学习/深度学习分布式计算大数据

|

博文

Apache Spark + Intel Analytics Zoo 进行深度学习

Analytics Zoo 是由 Intel 开源,基于 Apache Spark 和 Inte BigDL 的大数据分析和 AI 平台，方便用户开发基于大数据、端到端的深度学习应用。本文简单介绍了如何在阿里云 E-MapReduce 使用 Analytics Zoo 来进行深度学习。

7291 0 1

来自：开源大数据平台 E-MapReduce 版块

寒沙牧

|

分布式计算 Hadoop 数据安全/隐私保护

|

博文

E-MapReduce集群中HDFS服务集成Kerberos

本文介绍在E-MapReduce集群中HDFS服务集成Kerberos。

6824 0 0

来自：开源大数据平台 E-MapReduce 版块

寒沙牧

|

SQL HIVE

|

博文

使用Ranger对Hive数据进行脱敏

Ranger支持对Hive数据的脱敏处理(Data Masking)，它对`select`的返回结果进行脱敏处理，对用户屏蔽敏感信息。

8922 0 0

来自：开源大数据平台 E-MapReduce 版块

寒沙牧

|

安全大数据分布式数据库

|

博文

E-MapReduce大数据安全实践

E-MapReduce从EMR-2.7.x/EMR-3.5.x版本开始支持创建安全类型的集群，即集群中的开源组件以Kerberos的安全模式启动,在这种安全环境下只有经过认证的客户端(Client)才能访问集群的服务(Service,如HDFS)。

6578 0 0

来自：开源大数据平台 E-MapReduce 版块

隐林

|

SQL 分布式计算大数据

|

博文

MaxCompute UDF系列之判断字符串中是否包含汉字

为了验证字符串中是否包含中文汉字，今天为大家提供一个自动判断中文字符的MaxCompute UDF，下载地址见附件。效果如下： MaxCompute UDF代码如下： package com.

7583 0 0

来自：大数据计算 MaxCompute 版块

双歧

|

负载均衡微服务 Perl

|

博文

istio网络转发分析

通过demo分析istio的网络转发流程，从而对istio实现原理有更为直观的认识。本文先介绍了涉及到的相关概念和背景知识，然后对具体应用进行分析。背景知识概念分散，参考文章较多，敬请谅解。

8989 0 0

来自：智能搜索推荐版块

隐林

|

存储分布式计算大数据

|

博文

阿里云MaxCompute携手华大基因打造精准医疗应用云平台，十万基因组计算成本降低至1000美金以内

摘要：华大基因股份公司总监金鑫介绍了华大基因，并浅谈了与阿里云的情缘，包括Maxcompute等方面应用案例。一起来看下吧。关于华大基因华大基因是中国最领先的基因科技公司，华大基因为消除人类病痛、经济危机、国家灾难、濒危动物保护、缩小贫富差距等方面提供分子遗传层面的技术支持。

7040 1 1

来自：大数据计算 MaxCompute 版块

百遇

|

机器学习/深度学习数据可视化大数据

|

博文

年服务人次3300万+，网鱼网咖的大数据挑战及架构

从98年成立至今的18年中，网鱼累计签约门店已接近900家，已拥有超过830万会员，2016年网鱼网咖共服务了3300多万人次，服务范围覆盖全国100多个城市，现在网鱼网咖已走出国门，在加拿大、澳大利亚、新加坡等国家开设多家门店。

7243 0 0

来自：大数据计算 MaxCompute 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

强化学习在电商环境下的若干应用与研究

为什么说流处理即未来？

ComputeColStats UDF中 近似算法的介绍

Apache Spark 3.0 将内置支持 GPU 调度

【入门指南】使用阿里云Elasticsearch搭建ELK日志系统

MaxCompute模板与样例

基于实时计算（Flink）打造一个简单的实时推荐系统

双11数据大屏直播 / 双11作战大屏

Flink Checkpoint 问题排查实用指南

阿里云 MaxCompute 2020-1 月刊

EMR Spark Relational Cache的执行计划重写

【X-Pack解读】阿里云Elasticsearch X-Pack 安全组件功能详解

阿里云数加产品家族图首次亮相

【上报纸啦】95后大学生用机器学习PAI大战老年痴呆

MaxCompute SQL-列转行和行转列

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

Mars——基于张量的统一分布式计算框架

MaxCompute访问TableStore(OTS) 数据（20170601更新）

flume java介绍

使用Hive进行OSS数据处理的一个最佳实践

Ha3搜索引擎简介

读透《阿里巴巴数据中台实践》，其到底有什么高明之处？

Python实现MaxCompute UDF/UDAF/UDTF

（ElasticsSearch学习）歌词检索Demo的实现：二. 搭建spring boot+spring data+jest+elasticsearch环境，实现歌词的全文检索

高德地图基于阿里云MaxCompute的最佳实践

Apache Flink 漫谈系列(04) - State

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

DII—算法服务利器

基于Flink的实时日志分析系统实践

阿里云大数据利器Maxcompute-使用mapjoin优化查询

基于MaxCompute构建企业用户画像（用户标签的制作）

“NASA”计划背后，阿里巴巴大数据系统架构概述

使用llvm实现一门语言 —— cava

Oracle存储过程迁移ODPS-00（专有云）：Oracle - ODPS数据类型转换

基于OGG Datahub插件将Oracle数据同步上云

开源深度学习库BigDL在阿里云E-MapReduce上的实践

MaxCompute 学习计划(二)

YARN中的CPU资源隔离-CGroups

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

MaxComputeSql性能调优

Spark中的资源调度

阿里巴巴大数据实践之数据建模

Apache Spark + Intel Analytics Zoo 进行深度学习

E-MapReduce集群中HDFS服务集成Kerberos

使用Ranger对Hive数据进行脱敏

E-MapReduce大数据安全实践

MaxCompute UDF系列之判断字符串中是否包含汉字

istio网络转发分析

阿里云MaxCompute携手华大基因打造精准医疗应用云平台，十万基因组计算成本降低至1000美金以内

年服务人次3300万+，网鱼网咖的大数据挑战及架构

大数据与机器学习

活跃用户

相关产品

ComputeColStats UDF中近似算法的介绍