大数据与机器学习-博文-第2页-阿里云开发者社区

楚项

|

分布式计算数据可视化 Java

|

博文

原来MaxCompute还能这么玩系列（1）—— 通过Apache Zeppelin 快速实现数据可视化

通过简单的几步配置，教你如何快速实现MaxCompute的数据可视化

11196 0 3

来自：大数据计算 MaxCompute 版块

开发者说

|

运维监控数据挖掘

|

博文

重磅首发 |《Elasticsearch 中国开发者调查报告》探索开发者的现状和未来

为了了解Elasticsearch 中国开发者群体，结合1186位开发者的调研数据和18位社区专家的深度访谈，Elastic 技术社区、阿里巴巴 Elasticsearch 技术团队和阿里云开发者社区联合发布了《Elasticsearch 中国开发者调查报告》。免费下载，抢先一步读懂这个“族群”吧。

85096 0 7

来自：检索分析服务 Elasticsearch版版块

开源大数据EMR

|

分布式计算 Spark 大数据

|

博文

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

预聚合是高性能分析中的常用技术，通过预先聚合降低纬度，从而在查询时大幅减少计算量，提升响应速度。本文介绍了 spark-alchemy 这个开源库中的 HyperLogLog 这一个高级功能，并且探讨它是如何解决大数据中数据聚合的问题。

11143 0 0

来自：开源大数据平台 E-MapReduce 版块

隐林

|

机器学习/深度学习人工智能分布式计算

|

博文

10月18日，德国法兰克福，阿里云MaxCompute2.0，全面布局AI人工智能

在2017年杭州云栖大会上，阿里云宣布大数据计算服务MaxCompute将于10月18日在德国法兰克福正式开服。通过MaxCompute2.0全新一代的人工智能系统，阿里云将携手更多欧洲本地合作伙伴建立科技生态，驱动当地云计算和大数据的发展，将中国先进的云计算推广至海外，在人工智能、深度学习等领域实现突破创新。

10508 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

存储 JSON 分布式计算

|

博文

标签分类理论

最近在做DMP，负责设计一套标签管理系统。在对现有标签进行整理的过程中，整理出了这套东西。 0. 标签的定义：标签分类学(Taxonomy) 对于标签(tag)，很难列出一个公认的定义，指明这个概念的种差与属概念。所以为了把握这个概念，就需要采取定义另一种办法：分类与枚举。我们要解决的第一个

13791 1 5

来自：大数据计算 MaxCompute 版块

隐林

|

SQL 存储关系型数据库

|

博文

【转载文章】记录一次MySQL两千万数据的大表优化解决过程，提供三种解决方案

问题概述使用阿里云rds for MySQL数据库（就是MySQL5.6版本），有个用户上网记录表6个月的数据量近2000万，保留最近一年的数据量达到4000万，查询速度极慢，日常卡死。严重影响业务。

14210 1 15

来自：大数据计算 MaxCompute 版块

yq传送门

|

存储运维监控

|

博文

SLS：海量日志数据管理利器

日志是大规模集群管理系统中非常关键的部分，服务器上的各种日志数据可以帮助我们回答如运维、开发、运营、客服、安全等问题。SLS提供一个从日志采集、过滤、处理、聚合到在线查询的日志处理平台，满足各种日志处理分析需求。本文以用户选用SLS搭建一个端对端的日志服务为例进行详解，并解析其功能背后的技术架构。

12841 1 1

来自：大数据计算 MaxCompute 版块

百遇

|

机器学习/深度学习存储监控

|

博文

日交易笔百万级，Ping++的大数据平台架构

当前日交易笔数为百万级，目前已经积累了海量交易数据。如何在经过客户授权的情况下利用数据为客户赋能，并带来额外附加价值，从而提高客户黏性，Ping++亟需搭建可靠、稳定的大数据平台。

10316 1 9

来自：大数据计算 MaxCompute 版块

曾安祥仁重

|

机器学习/深度学习算法搜索推荐

|

博文

强化学习在电商环境下的若干应用与研究

本文描述了淘宝搜索算法AI技术团使用强化学习算法在淘宝的环境中怎么解决实际的业务问题的以及一些研究探索。

14374 0 3

来自：智能搜索推荐版块

阿里云E-MapReduce团队

|

SQL 存储分布式计算

|

博文

【译】使用Spark SQL 运行大规模基因组工作流

将数据提取到Spark中是大多数大数据作业的第一步，但这并不是大数据旅途的终点。

9690 1 1

来自：开源大数据平台 E-MapReduce 版块

龙冥

|

缓存算法异构计算

|

博文

拍立淘---试妆魔镜 OpenGL ES 2.0 框架及性能优化

手机淘宝（搜索框->摄像头->试妆魔镜）：最初的设计原型及性能问题：单线程模型，优先级过低：从Camera获取到CMSampleBufferRef YUV图像帧，拷贝像素数据到内存（多了一次拷贝内存的开销）进行美妆渲染以及一些其他的检测计算，导致的render线程性能消耗过多，CPU负

10192 0 0

来自：智能搜索推荐版块

云栖小秘书

|

SQL 分布式计算大数据

|

博文

深入阿里云大数据IDE–MaxCompute Studio

在云栖社区主办的云栖计算之旅第5期–大数据与人工智能分享中，阿里云计算平台高级专家薛明为大家深入地介绍了阿里云大数据IDE–MaxCompute Studio，并对于其特性和背后的技术思想进行了讲解。

10228 118 122

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

分布式计算大数据 Apache

|

博文

Apache Spark 3.0 将内置支持 GPU 调度

如今大数据和机器学习已经有了很大的结合，在机器学习里面，因为计算迭代的时间可能会很长，开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FPGA 了。

11454 1 1

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

SQL 分布式计算 Spark

|

博文

钉钉群直播【Spark Relational Cache 原理和实践】

主要介绍Relational Cache/物化视图的历史和背景，以及EMR Spark基于Relational Cache加速Spark查询的技术方案，及如何通过基于Relational Cache的数据预计算和预组织，使用Spark支持亚秒级响应的交互式分析使用场景。

9506 0 0

来自：开源大数据平台 E-MapReduce 版块

亢海鹏

|

分布式计算 MaxCompute

|

博文

MaxCompute问答整理之9月

本文是基于本人对MaxCompute产品的学习进度，再结合开发者社区里面的一些问题，进而整理成文。希望对大家有所帮助。

9945 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

机器学习/深度学习算法语音技术

|

博文

从声学模型算法角度总结 2016 年语音识别的重大进步

免费开通大数据服务：https://www.aliyun.com/product/odps 　在过去的一年中，语音识别再次取得非常大的突破。IBM、微软等多家机构相继推出了自己的 Deep CNN 模型，提升了语音识别的准确率；Residual/Highway 网络的提出使我们可以把神经网络训练的更加深。

9371 0 1

来自：大数据计算 MaxCompute 版块

晋恒

|

分布式计算 MaxCompute Java

|

博文

2019杭州云栖大会大数据生态专场，由阿里云高级技术专家李睿博带来以 “丰富、连接、待集成— MaxCompute 生态再出发” 为题的演讲。本文围绕 MaxCompute 生态进行讲述，主要包括 “更好的工具和接口”、“连接云上各种数据”、“开放自定义引擎” 三部分。主要内容包括 MaxCompute 获得了 Tableau 官方支持，更好的搬站工具和命令行工具体验，大数据+AI 在 Python 生态部分的工作进展，以及开放自定义引擎的能力。

10332 0 0

来自：大数据计算 MaxCompute 版块

付空

|

搜索推荐流计算

|

博文

基于实时计算（Flink）打造一个简单的实时推荐系统

本文为您介绍如何基于阿里云实时计算快速搭建实时推荐系统。

15599 1 5

来自：实时计算 Flink 版块

隐林

|

分布式计算运维大数据

|

博文

阿里云数加助力东润环能开启新能源大数据时代

北京东润环能科技股份有限公司（以下简称“东润环能”）是一家从事新能源电力领域的数据信息服务公司，该司开创之初，提供了新能源发电功率预测系统、电网调度管理与支持系统、新能源城市规划与咨询服务等基础性产品，并逐步打造三大新能源互联网智慧服务生态圈平台，包括新能源投资开发生态圈第一平台、绿色电力交易与智.

9442 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

流计算 Apache 存储

|

博文

Flink Checkpoint 问题排查实用指南

本文会统一聊一聊 Flink 中 Checkpoint 异常的情况（包括失败和慢），以及可能的原因和排查思路。

14331 0 1

来自：实时计算 Flink 版块

1514897646789994

|

搜索推荐测试技术定位技术

|

博文

DCN(Deep & Cross Network)模型在手淘分类地图CTR预估上的应用

一：背景分类地图业务是指手淘首页首屏的"分类"入口，目前整个产品已经有300万左右日活跃用户和6000多万pv, 目前产品业务点较多，本文重点介绍点击品类词后的商品二跳页模块，具体如下图所示：当用户点击相应的品类词图片后，则会进入该类目下的商品集合。

11467 0 0

来自：智能搜索推荐版块

傲海

|

新零售搜索推荐算法

|

博文

基于协同过滤算法的推荐

10634 3 3

来自：人工智能平台PAI 版块

海清

|

项目管理

|

博文

MaxCompute 项目子账号做权限管理

场景：一个企业使用多款阿里云产品，MaxCompute是其中一个产品，用的是同个主账号，主账号不是由使用MaxCompute的大数据同学管理，大数据同学使用的是子账号。大数据同学日常需要给MaxCompute项目操作新增子账号（add user），新的子账号授权（grant xx on project/table）等操作，即日常权限管理。

9231 0 0

来自：大数据计算 MaxCompute 版块

付空

|

算法搜索推荐流计算

|

博文

广告场景下的实时计算

案例与解决方案汇总页：阿里云实时计算产品案例&解决方案汇总广告场景的综述，[计算广告与流处理技术综述](https://yq.aliyun.com/articles/691816)：在线流量反作弊、在线计费、在线反馈、在线索引、在线广告链接检测等其中涉及的主要实时处理环节：实时数据统计.

11570 0 0

来自：实时计算 Flink 版块

隐林

|

存储搜索推荐数据库

|

博文

细数阿里云服务器的十二种典型应用场景

文章转载：小白杨1990 如今，阿里云的产品可谓是多种多样，纷繁复杂。面对各种各样的技术和产品，ECS、RDS、OSS…等等一系列的东西，很容易让人找不到头绪，尤其是刚刚开始接触网站建设的朋友。阿里云湖北授权服务中心武汉捷讯结合阿里云官网的资料，针对建站相关的内容为大家整理一些阿里云典型的应用场景

11486 1 2

来自：大数据计算 MaxCompute 版块

傲海

|

算法

|

博文

FM算法介绍

概述 FM (Factorization Machine) 算法可进行回归和二分类预测，它的特点是考虑了特征之间的相互作用，是一种非线性模型，目前FM算法是推荐领域被验证的效果较好的推荐方案之一，在诸多电商、广告、直播厂商的推荐领域有广泛应用。

13102 0 2

来自：人工智能平台PAI 版块

勿烦

|

SQL 分布式计算 MaxCompute

|

博文

SQL优化器原理 - Auto Hash Join

在MaxCompute中，Join操作符的实现算法之一名为"Hash Join"，其实现原理是，把小表的数据全部读入内存中，并拷贝多份分发到大表数据所在机器，在 map 阶段直接扫描大表数据与内存中的小表数据进行匹配。

9899 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

流计算大数据 Apache

|

博文

史上超强阵容！大数据及人工智能领域顶级盛会，Flink Forward Asia 2019 不容错过！

Flink Forward 大数据、人工智能领域的顶级大会，旨在汇集一流人才共同探讨大数据、云计算、人工智能、机器学习等领先技术，2019 Flink Forward Asia 重磅开启，征集议题中！

10352 0 0

来自：实时计算 Flink 版块

傲海

|

机器学习/深度学习人工智能算法

|

博文

【上报纸啦】95后大学生用机器学习PAI大战老年痴呆

中国青年报原文链接：http://zqb.cyol.com/html/2017-07/28/nw.D110000zgqnb_20170728_2-06.htm 燕山大学信息科学与技术专业出身的95后大学生谭创创，没想到自己会与阿尔茨海默症（俗称“老年痴呆症”）为“敌”。

9293 1 1

来自：人工智能平台PAI 版块

阿里云实时计算Flink

|

SQL 双11 流计算

|

博文

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

通俗讲retract就是传统数据里面的更新操作，也就是说retract是流式计算场景下对数据更新的处理方式。

20556 10 12

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

消息中间件 Kafka 流计算

|

博文

如何正确使用 Flink Connector？

本文主要分享 Flink connector 相关内容，分为以下三个部分的内容：第一部分会首先介绍一下 Flink Connector 有哪些。第二部分会重点介绍在生产环境中经常使用的 kafka connector 的基本的原理以及使用方法。第三部分答疑，对社区反馈的问题进行答疑。

11973 0 1

来自：实时计算 Flink 版块

隐林

|

SQL 分布式计算 MaxCompute

|

博文

MaxCompute SQL-列转行和行转列

1. 假设我们在MaxCompute中有两张表，其中一张表是存用户基本信息，另一张表是存用户的地址信息等，表数据假设如下： user_basic_info: id name 1 a 2 b 3 c

14053 0 1

来自：大数据计算 MaxCompute 版块

继盛

|

机器学习/深度学习分布式计算算法

|

博文

Mars——基于张量的统一分布式计算框架

很高兴在这里宣布我们的新项目：Mars，一个基于张量的统一分布式计算框架。我们已经在 Github 开源：https://github.com/mars-project/mars 。背景 Python Python 是一门相当古老的语言了，如今，在数据科学计算、机器学习、以及深度学习领域，Python 越来越受欢迎。

13033 0 2

来自：大数据计算 MaxCompute 版块

隐林

|

存储分布式计算 NoSQL

|

博文

MaxCompute访问TableStore(OTS) 数据（20170601更新）

MaxCompute作为阿里云大数据平台的核心计算组件，承担了集团内外大部分的分布式计算需求。

10941 0 2

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

Java Apache Scala

|

博文

如何在 PyFlink 1.10 中自定义 Python UDF？

本篇从架构到 UDF 接口定义，再到具体的实例，向大家介绍了在 Apache Flink 1.10 发布之后，如何利用 PyFlink 进行业务开发。

9527 0 1

来自：实时计算 Flink 版块

傲海

|

SQL 人工智能分布式计算

|

博文

【教程】5分钟在PAI算法市场发布自定义算法

概述在人工智能领域存在这样的现象，很多用户有人工智能的需求，但是没有相关的技术能力。另外有一些人工智能专家空有一身武艺，但是找不到需求方。这意味着在需求和技术之间需要一种连接作为纽带。今天PAI正式对外发布了“AI市场”以及“PAI自定义算法”两大功能，可以帮助用户5分钟将线下的spark算法或是pyspark算法发布成算法组件，并且支持组件发布到AI市场供更多用户使用。

10967 2 4

来自：人工智能平台PAI 版块

eric-li

|

SQL 大数据数据处理

|

博文

使用Hive进行OSS数据处理的一个最佳实践

12114 2 9

来自：开源大数据平台 E-MapReduce 版块

老将黄滚

|

SQL 存储 Apache

|

博文

Drill官网文档翻译一基本架构

(翻译自apache drill 官网) 架构总览 Apache drill是在大规模数据集场景下,可以低延迟地进行结构和半结构化/嵌套数据结构查询的一个分布式查询引擎。受到谷歌公司的Dremel的启发，Drill被设计出来以支持几千个节点和PB级别的数据规模下,支持交互响应级别的商务智

9697 0 1

来自：智能搜索推荐版块

木酱

|

数据可视化数据安全/隐私保护

|

博文

DataV 支持 token 验证啦！

有很多同学希望把 DataV 创建的数据可视化大屏整合到自己的网站中，我们很早就提供了这样的支持。

9418 137 141

来自：数据可视化DataV 版块

隐林

|

人工智能大数据新制造

|

博文

阿里云参与两大国家工程实验室获批，人工智能继续深入工业制造

近日，国家发改委公布大数据国家工程实验室名单，由阿里云参与的“工业大数据应用技术国家工程实验室”和“大数据系统软件国家工程实验室”均获批复认定，分别是工业大数据应用及大数据系统软件领域的唯一国家级工程实验室。

8366 0 0

来自：大数据计算 MaxCompute 版块

jack_tang

|

运维搜索推荐调度

|

博文

Ha3搜索引擎简介

Ha3是阿里巴巴搜索团队开发的搜索引擎平台，它为阿里集团包括淘宝、天猫在内的核心业务提供搜索服务支持。

26682 1 2

来自：智能搜索推荐版块

隐林

|

SQL 分布式计算 MaxCompute

|

博文

Python实现MaxCompute UDF/UDAF/UDTF

参数与返回值类型参数与返回值通过如下方式指定： @odps.udf.annotate(signature) Python UDF目前支持ODPS SQL数据类型有：bigint, string, double, boolean和datetime。

11717 0 1

来自：大数据计算 MaxCompute 版块

弘锐66

|

Web App开发 JavaScript 前端开发

|

博文

（ElasticsSearch学习）歌词检索Demo的实现：二. 搭建spring boot+spring data+jest+elasticsearch环境，实现歌词的全文检索

一个ElasticSearchDemo，讲解如何使用Jsoup爬取歌词数据写入阿里云Elasticsearch，并搭建Web框架实现歌词的全文检索。本文主要讲解如何使用Spring Boot快速搭建Web框架，结合Spring Data 和 Jest 快速实现对阿里云ElasticSearch的全文检索功能。

10473 1 2

来自：检索分析服务 Elasticsearch版版块

传学

|

SQL 分布式计算 MaxCompute

|

博文

如何用SQL对MaxCompute数据进行修改和删除

MaxCompute SQL不支持对数据的Update和Delete操作，但是实际工作中可能确实有一些场景需要这样处理，怎么办呢？本文就各种场景下的的解决方法做一个说明。特别提醒大家，在工作中为避免误操作，尽量避免直接对数据进行直接的修改和删除，建议是创建一张新的表，把结果表进过加工后写入新的表

11633 0 5

来自：大数据计算 MaxCompute 版块

工程师甲

|

监控大数据索引

|

博文

【X-Pack解读】阿里云Elasticsearch X-Pack 监控组件功能详解

阿里云Elasticsearch集成了Elastic Stack商业版的X-Pack组件包，包括安全、告警、监控、报表生成、图分析、机器学习等组件，用户可以开箱即用。本文将对X-Pack 的监控组件功能进行详细解读。

10637 1 1

来自：检索分析服务 Elasticsearch版版块

隐林

|

分布式计算大数据 MaxCompute

|

博文

【大数据技巧】MaxCompute中实现IP地址归属地转换

大数据平台的成熟使得更多种类的非结构化、半结构化的数据分析成为可能其中应用非常广泛的一种场景就是日志分析。在日志类型数据的清洗转换过程中把IP地址转换为归属地又是极为常见的一种场景。

12066 1 11

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算测试技术 MaxCompute

|

博文

北京云栖大会MaxCompute又出大招，Python UDF抢先体验!

2017/12/20 北京云栖大会上阿里云MaxCompute发布了最新的功能Python UDF。小编第一时间申请到了公测资格，下面就为大家做个简单演示，通过DataWorks注册MaxCompute Python UDF（字符串大小写转换），完成数据处理。

9358 0 0

来自：大数据计算 MaxCompute 版块

zongyuanwu

|

分布式计算运维算法

|

博文

DII—算法服务利器

随着集团内各种离线处理、实时反馈、在线学习和分析系统的发展壮大，为算法同学使用数据提供了更多的手段和玩法，能够从数据中挖掘出更多的宝藏。但是仅仅产出数据是不够的，他们需要将数据结合算法在线服务的方式应用到业务中去，才能真正产生价值。从搜索事业部的现状来看，算法的作用方式主要有两种，一种是嵌入引擎内.

12171 2 6

来自：智能搜索推荐版块

隐林

|

分布式计算 IDE 大数据

|

博文

【大数据新手上路】“零基础”系列课程--如何通过大数据开发套件Data IDE玩转大数据

老板每天都要出这些业务数据（销售总额、总交易量、总点击次数、总加入购物车次数、总加入收藏夹次数...），我得想个一劳永逸的方法了…

8800 0 1

来自：大数据计算 MaxCompute 版块

jasonli4

|

存储消息中间件监控

|

博文

基于Flink的实时日志分析系统实践

11888 2 4

来自：实时计算 Flink 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

原来MaxCompute还能这么玩系列（1）—— 通过Apache Zeppelin 快速实现数据可视化

重磅首发 |《Elasticsearch 中国开发者调查报告》探索开发者的现状和未来

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

10月18日，德国法兰克福，阿里云MaxCompute2.0，全面布局AI人工智能

标签分类理论

【转载文章】记录一次MySQL两千万数据的大表优化解决过程，提供三种解决方案

SLS：海量日志数据管理利器

日交易笔百万级，Ping++的大数据平台架构

强化学习在电商环境下的若干应用与研究

【译】使用Spark SQL 运行大规模基因组工作流

拍立淘---试妆魔镜 OpenGL ES 2.0 框架及性能优化

深入阿里云大数据IDE–MaxCompute Studio

Apache Spark 3.0 将内置支持 GPU 调度

钉钉群直播【Spark Relational Cache 原理和实践】

MaxCompute问答整理之9月

从声学模型算法角度总结 2016 年语音识别的重大进步

丰富、连接、待集成—MaxCompute 生态再出发

基于实时计算（Flink）打造一个简单的实时推荐系统

阿里云数加助力东润环能开启新能源大数据时代

Flink Checkpoint 问题排查实用指南

DCN(Deep & Cross Network)模型在手淘分类地图CTR预估上的应用

基于协同过滤算法的推荐

MaxCompute 项目子账号做权限管理

广告场景下的实时计算

细数阿里云服务器的十二种典型应用场景

FM算法介绍

SQL优化器原理 - Auto Hash Join

史上超强阵容！大数据及人工智能领域顶级盛会，Flink Forward Asia 2019 不容错过！

【上报纸啦】95后大学生用机器学习PAI大战老年痴呆

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

如何正确使用 Flink Connector？

MaxCompute SQL-列转行和行转列

Mars——基于张量的统一分布式计算框架

MaxCompute访问TableStore(OTS) 数据（20170601更新）

如何在 PyFlink 1.10 中自定义 Python UDF？

【教程】5分钟在PAI算法市场发布自定义算法

使用Hive进行OSS数据处理的一个最佳实践

Drill官网文档翻译一 基本架构

DataV 支持 token 验证啦！

阿里云参与两大国家工程实验室获批，人工智能继续深入工业制造

Ha3搜索引擎简介

Python实现MaxCompute UDF/UDAF/UDTF

（ElasticsSearch学习）歌词检索Demo的实现：二. 搭建spring boot+spring data+jest+elasticsearch环境，实现歌词的全文检索

如何用SQL对MaxCompute数据进行修改和删除

【X-Pack解读】阿里云Elasticsearch X-Pack 监控组件功能详解

【大数据技巧】MaxCompute中实现IP地址归属地转换

北京云栖大会MaxCompute又出大招，Python UDF抢先体验!

DII—算法服务利器

【大数据新手上路】“零基础”系列课程--如何通过大数据开发套件Data IDE玩转大数据

基于Flink的实时日志分析系统实践

大数据与机器学习

活跃用户

相关产品

Drill官网文档翻译一基本架构