大数据与机器学习-博文-第3页-阿里云开发者社区

隐林

|

存储分布式计算 NoSQL

|

博文

MaxCompute访问TableStore(OTS) 数据（20170601更新）

MaxCompute作为阿里云大数据平台的核心计算组件，承担了集团内外大部分的分布式计算需求。

10802 0 2

来自：大数据计算 MaxCompute 版块

erin_726

|

分布式计算 Java MaxCompute

|

博文

flume java介绍

近期在做shark flume开发框架的测试，该框架是一个简单高效的面向数据的pipeline框架，采用flume java的思想，实现了一套flume java on MaxCompute的library。为了更好的了解shark自己也去阅读了flume java的paper，这里做一些总结，主要

9128 0 0

来自：大数据计算 MaxCompute 版块

继盛

|

JSON 分布式计算 MaxCompute

|

博文

PyODPS开发中的最佳实践

PyODPS支持用 Python 来对 MaxCompute 对象进行操作，它提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理，并且可以用 ml 模块来执行机器学习算法。

11458 0 1

来自：大数据计算 MaxCompute 版块

eric-li

|

SQL 大数据数据处理

|

博文

使用Hive进行OSS数据处理的一个最佳实践

11967 2 9

来自：开源大数据平台 E-MapReduce 版块

jack_tang

|

运维搜索推荐调度

|

博文

Ha3搜索引擎简介

Ha3是阿里巴巴搜索团队开发的搜索引擎平台，它为阿里集团包括淘宝、天猫在内的核心业务提供搜索服务支持。

25479 1 2

来自：智能搜索推荐版块

隐林

|

存储大数据数据挖掘

|

博文

读透《阿里巴巴数据中台实践》，其到底有什么高明之处？

最近阿里巴巴分享了《阿里巴巴数据中台实践》这个PPT（自行搜索原始文章），对于数据中台的始作俑者，还是要怀着巨大的敬意去学习的，因此仔细的研读了，希望能发现一些不一样的东西。读这些专业的PPT，实际是非常耗时的，你需要把这些PPT外表的光鲜扒光，死抠上面的每一个字去理解底下隐藏的含义，然后跟你的已有知识体系去对比，看看是否有助于完善自己的认知，对于自己不理解的，还需要经常去检索相关的文档。

13501 58 63

来自：大数据计算 MaxCompute 版块

隐林

|

人工智能大数据新制造

|

博文

阿里云参与两大国家工程实验室获批，人工智能继续深入工业制造

近日，国家发改委公布大数据国家工程实验室名单，由阿里云参与的“工业大数据应用技术国家工程实验室”和“大数据系统软件国家工程实验室”均获批复认定，分别是工业大数据应用及大数据系统软件领域的唯一国家级工程实验室。

8258 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

SQL 分布式计算 MaxCompute

|

博文

Python实现MaxCompute UDF/UDAF/UDTF

参数与返回值类型参数与返回值通过如下方式指定： @odps.udf.annotate(signature) Python UDF目前支持ODPS SQL数据类型有：bigint, string, double, boolean和datetime。

11484 0 1

来自：大数据计算 MaxCompute 版块

弘锐66

|

Web App开发 JavaScript 前端开发

|

博文

（ElasticsSearch学习）歌词检索Demo的实现：二. 搭建spring boot+spring data+jest+elasticsearch环境，实现歌词的全文检索

一个ElasticSearchDemo，讲解如何使用Jsoup爬取歌词数据写入阿里云Elasticsearch，并搭建Web框架实现歌词的全文检索。本文主要讲解如何使用Spring Boot快速搭建Web框架，结合Spring Data 和 Jest 快速实现对阿里云ElasticSearch的全文检索功能。

10268 1 2

来自：检索分析服务 Elasticsearch版版块

寒沙牧

|

分布式计算大数据 Hadoop

|

博文

HAS (Hadoop Authentication Service), 致力于解决开源大数据服务和生态系统的认证支持。目前开源大数据（Hadoop/Spark）在安全认证上只内置支持了Kerberos方式，HAS提出了一种新的认证方式, 通过与现有的认证和授权体系进行对接，使得在Hadoop/Spark在上面支持Kerberos以外的认证方式变成可能，并对最终用户简化和隐藏Kerberos的复杂性。

8920 0 2

来自：开源大数据平台 E-MapReduce 版块

晋恒

|

分布式计算安全大数据

|

博文

数据保护伞—为MaxCompute平台数据安全保驾护航

数据安全是大数据发展道路上的重要挑战之一，数据，作为企业的核心资产，80%以上的核心信息是以结构化数据存储，包含个人身份证号、银行账号、电话、客户数据、医疗、交易、薪资等极其重要又敏感的信息。一旦发生数据篡改、盗取、滥用等安全事件，将给企业带来经济和声誉上的双重打击，造成的后果将不堪设想。

9357 0 1

来自：大数据计算 MaxCompute 版块

传学

|

SQL 分布式计算 MaxCompute

|

博文

如何用SQL对MaxCompute数据进行修改和删除

MaxCompute SQL不支持对数据的Update和Delete操作，但是实际工作中可能确实有一些场景需要这样处理，怎么办呢？本文就各种场景下的的解决方法做一个说明。特别提醒大家，在工作中为避免误操作，尽量避免直接对数据进行直接的修改和删除，建议是创建一张新的表，把结果表进过加工后写入新的表

11454 0 5

来自：大数据计算 MaxCompute 版块

工程师甲

|

监控大数据索引

|

博文

【X-Pack解读】阿里云Elasticsearch X-Pack 监控组件功能详解

阿里云Elasticsearch集成了Elastic Stack商业版的X-Pack组件包，包括安全、告警、监控、报表生成、图分析、机器学习等组件，用户可以开箱即用。本文将对X-Pack 的监控组件功能进行详细解读。

10233 1 1

来自：检索分析服务 Elasticsearch版版块

晋恒

|

大数据存储调度

|

博文

阿里巴巴大数据技术关键进展及展望

2019杭州云栖大会大数据技术专场，由阿里云通用计算平台负责人关涛带来以 “阿里巴巴大数据技术关键进展及展望” 为主题的演讲。本文首先讲解了从阿里巴巴的角度看待大数据领域的客户价值迁移，概览了核心技术的发展点，最后针对如何构建智能化大数据平台的相关工作进行了介绍，从引擎优化到 “自动驾驶”，并列举了几个典型案例。

12891 0 0

来自：大数据计算 MaxCompute 版块

晋恒

|

SQL 分布式计算监控

|

博文

阿里云MaxCompute 2019-6月刊

6月MaxCompute新功能发布，精彩技术好文推荐，精彩活动回顾，尽在6月刊。

8046 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算大数据 MaxCompute

|

博文

【大数据技巧】MaxCompute中实现IP地址归属地转换

大数据平台的成熟使得更多种类的非结构化、半结构化的数据分析成为可能其中应用非常广泛的一种场景就是日志分析。在日志类型数据的清洗转换过程中把IP地址转换为归属地又是极为常见的一种场景。

11898 1 11

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

SQL 流计算

|

博文

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

去重逻辑在业务处理中使用广泛，大致可以分两类：DISTINCT去重和FIRST_VALUE主键去重，两者的区别是DISTINCT去重是对整行数据进行去重，比如tt里面数据可能会有重复，我们要去掉重复的数据；FIRST_VALUE是根据主键进行去重，可以看成是一种业务层面的去重，但是真实的业务场景使用也很普遍，比如一个用户有多次点击，业务上只需要取第一条。

11516 0 1

来自：实时计算 Flink 版块

zongyuanwu

|

分布式计算运维算法

|

博文

DII—算法服务利器

随着集团内各种离线处理、实时反馈、在线学习和分析系统的发展壮大，为算法同学使用数据提供了更多的手段和玩法，能够从数据中挖掘出更多的宝藏。但是仅仅产出数据是不够的，他们需要将数据结合算法在线服务的方式应用到业务中去，才能真正产生价值。从搜索事业部的现状来看，算法的作用方式主要有两种，一种是嵌入引擎内.

11895 2 6

来自：智能搜索推荐版块

jasonli4

|

存储消息中间件监控

|

博文

基于Flink的实时日志分析系统实践

11457 2 4

来自：实时计算 Flink 版块

隐林

|

分布式计算 IDE 大数据

|

博文

【大数据新手上路】“零基础”系列课程--如何通过大数据开发套件Data IDE玩转大数据

老板每天都要出这些业务数据（销售总额、总交易量、总点击次数、总加入购物车次数、总加入收藏夹次数...），我得想个一劳永逸的方法了…

8689 0 1

来自：大数据计算 MaxCompute 版块

晋恒

|

存储分布式计算大数据

|

博文

专访20年技术老兵云郎：16年峰回路，每一步都是更好的沉淀

从技术研发到产品经理，3次峰回路转，这条路，他走了16年一个懂技术的产品，更有底气和研发“叫板” 一个具备产品思维的技术，更明白未来的方向

8312 0 1

来自：大数据计算 MaxCompute 版块

上单

|

SQL 分布式计算 JavaScript

|

博文

阿里云大数据利器Maxcompute-使用mapjoin优化查询

small is beautiful，small is powerful

9730 0 1

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算安全 MaxCompute

|

博文

MaxCompute数据安全机制

文章转自dongkai和传统的计算平台类似，MaxCompute使用多租户隔离租户间的数据。租户内利用访问控制保护用户数据。但是作为一个云计算、大数据平台，MaxCompute在实现时做了一系列的创新。这些创新主要体现在三个方面：1、访问可追溯；2、更细粒度的访问控制；3、跨租户访问控制。访问可追溯

9000 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

存储分布式计算资源调度

|

博文

阿里巴巴飞天大数据架构体系与Hadoop生态系统

先说Hadoop 什么是Hadoop？ Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统，主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算，充分利用集群的威力进行高速运算和存储。

11008 59 60

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

分布式计算 Spark Python

|

博文

开源生态的新发展：Apache Spark 3.0、Koala和Delta Lake

Hadoop开源生态Spark已经发展三年有余，今年迎来了Spark 3.0。在2019杭州云栖大会大数据&AI峰会上，Databricks研发总监李潇为大家分享了Spark 3.0版本的新特性，以及其在数据工程以及数据科学方面带来的新技术。

9058 0 0

来自：开源大数据平台 E-MapReduce 版块

隐林

|

存储数据采集监控

|

博文

“NASA”计划背后，阿里巴巴大数据系统架构概述

DT时代，人们比以往任何时候都收集到更多的数据。据IDC报告，预计到2020年，全球数据总量将超过40ZB(相当于40万亿GB)，这一数据量是2011年的22倍！正在“爆炸式”增长的数据，其潜在巨大价值有待发掘。

9059 0 0

来自：大数据计算 MaxCompute 版块

runxiao

|

机器学习/深度学习自然语言处理搜索推荐

|

博文

深度语义模型以及在淘宝搜索中的应用

传统的搜索文本相关性模型，如BM25通常计算Query与Doc文本term匹配程度。由于Query与Doc之间的语义gap, 可能存在很多语义相关，但文本并不匹配的情况。为了解决语义匹配问题，出现很多LSA，LDA等语义模型。

11776 0 1

来自：智能搜索推荐版块

祎休

|

数据采集搜索推荐数据挖掘

|

博文

《云数据·大计算：海量日志数据分析与应用》Workshop-入口

阿里云MVP Meetup Workshop入口

8204 0 1

来自：大数据计算 MaxCompute 版块

tjmts

|

运维自然语言处理 Java

|

博文

使用llvm实现一门语言 —— cava

本文将介绍如何使用llvm+bison+flex技术实现一门编程语言。以我们实现的cava语言为例，介绍编译器各阶段，词法分析 -> 语法分析 -> 语义分析 -> 中间代码优化 -> 目标代码生成，最终生成汇编指令，再由汇编语言根据不同的指令集生成对应的可执行程序是如何实现的。

11435 0 3

来自：智能搜索推荐版块

继盛

|

SQL 分布式计算 MaxCompute

|

博文

PyODPS 中使用 Python UDF

PyODPS 中使用 Python UDF 包含两方面，一个是直接使用，也就是在 MaxCompute SQL 中使用；一个是间接的方式，也就是 PyODPS DataFrame，这种方式你不需要直接写 Python UDF，而是写普通的 Python 函数或者类。

9866 0 1

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算算法大数据

|

博文

漫谈阿里大数据

目前人人都在谈大数据，谈DT时代，但是，大数据是什么，每个人都有自己的一个看法，好比盲人摸象，每个都认为自己摸到是真正的大象。我也担心我所看到的，只是大数据的冰山一角，毕竟，将引领整个人类下一次变革的大数据，不是几篇文章就能说清楚的。

7796 0 1

来自：大数据计算 MaxCompute 版块

暮角

|

存储分布式计算 Oracle

|

博文

Oracle存储过程迁移ODPS-00（专有云）：Oracle - ODPS数据类型转换

oracle 数据类型转到ODPS，映射关系

8922 0 1

来自：大数据计算 MaxCompute 版块

场景研读

|

SQL 分布式计算大数据

|

博文

MaxCompute理解数据、运算和用户的大脑：基于代价的优化器

回顾大数据技术领域大事件，最早可追溯到06年Hadoop的正式启动，而环顾四下，围绕着数据库及数据处理引擎，业内充斥着各种各样的大数据技术。在云栖社区2017在线技术峰会大数据技术峰会上，阿里云大数据计算平台架构师林伟做了题为《MaxCompute的大脑：基于代价的优化器》的分享，为大家分享阿里巴巴大数据计算服务的大脑——基于代价的优化器的设计和架构。

8051 0 3

来自：大数据计算 MaxCompute 版块

晋恒

|

分布式计算大数据 MaxCompute

|

博文

【MaxCompute官宣】大数据计算技术共享计划 — 技术公开课第四季干货集锦！

MaxCompute（原ODPS）是一项大数据计算服务，它能提供快速、完全托管的PB级数据仓库解决方案，使您可以经济并高效的分析处理海量数据。欢迎加入钉钉交流群11782920。

7383 0 2

来自：大数据计算 MaxCompute 版块

冶善

|

分布式计算监控 Oracle

|

博文

基于OGG Datahub插件将Oracle数据同步上云

一、背景介绍随着数据规模的不断扩大，传统的RDBMS难以满足OLAP的需求，本文将介绍如何将Oracle的数据实时同步到阿里云的大数据处理平台当中，并利用大数据工具对数据进行分析。 OGG（Oracle GoldenGate）是一个基于日志的结构化数据备份工具，一般用于Oracle数据

9234 1 3

来自：大数据计算 MaxCompute 版块

寒沙牧

|

SQL Java 分布式数据库

|

博文

csv导入HBase

csv文件导入HBase

7269 0 0

来自：开源大数据平台 E-MapReduce 版块

海清

|

大数据调度

|

博文

【大数据开发套件调度配置实践】——不同周期任务依赖配置

大数据开发过程中常遇到不同运行周期的任务进行依赖，常见**天任务依赖小时任务**、**小时任务依赖分钟任务**。那么如何通过大数据开发套件开发这两种场景呢？本文将从这两个场景出发，结合调度依赖/参数/调度执行等，介绍不同周期调度依赖的最佳操作实践。

9494 0 1

来自：大数据计算 MaxCompute 版块

继盛

|

分布式计算 Shell MaxCompute

|

博文

PyODPS 安装常见问题解决

10868 2 2

来自：大数据计算 MaxCompute 版块

传学

|

SQL 分布式计算 MaxCompute

|

博文

MaxCompute 学习计划(二)

学习MaxCompute SQL和UDF的checklist

9326 0 1

来自：大数据计算 MaxCompute 版块

寒沙牧

|

资源调度测试技术 Apache

|

博文

YARN中的CPU资源隔离-CGroups

YARN中集成了CGroups的功能，使得NodeManger可以对container的CPU的资源使用进行控制，比如可以对单个container的CPU使用进行控制，也可以对NodeManger管理的总CPU进行控制。

10540 1 2

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

机器学习/深度学习大数据 Apache

|

博文

开源大数据周刊-第97期

本期周刊带来了开源社区重要的产品更新，包括Flink和Alluxio等，还有互联网一线公司以及传统银行业的最新大数据应用实践。

7001 0 0

来自：开源大数据平台 E-MapReduce 版块

梅熙

|

JSON 安全 BI

|

博文

通过ZeppelinHub viewer来分享zeppelin的notebook和报表数据

最近有使用E-MapReduce的同学咨询如果将zeppelin中的表表数据进行共享。这里就介绍一下在Aliyun E-MapReduce的集群中使用ZeppelinHub来进行notebook和报表的分享。

7254 0 0

来自：开源大数据平台 E-MapReduce 版块

墨青

|

机器学习/深度学习算法

|

博文

query语义改写

1. 问题背景　　商品检索的主要的问题还是在于用户query和商品描述之间存在GAP，特别是中长尾query。把问题分成以下几种类型：多种描述：划痕笔/补漆笔/修补笔/点漆笔信息冗余: 冰箱温控器温度控制==冰箱温控器属性检索： 118冰箱、60寸液晶电视机4k高清智能60曲面宽泛意图：超美吊灯、大容量冰箱 2.所做工作　　query改写的目标空间可以分为文本空间和意图ID空间两种类型：文本空间包含词、短语、query，意图ID空间主要包括pidvid、性别年龄尺码等自定义tag、一些语义聚合的标签如:"奢侈","可爱"等。

10591 1 2

来自：智能搜索推荐版块

阿里云实时计算Flink

|

大数据分布式计算流计算

|

博文

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

章剑锋（简锋），开源界老兵，Apache Member，曾就职于 Hortonworks，目前在阿里巴巴计算平台事业部任高级技术专家，并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ，以及 Apache Pig 的 Committer。

8549 0 0

来自：实时计算 Flink 版块

傲海

|

机器学习/深度学习 TensorFlow 算法框架/工具

|

博文

云端深度学习框架TensorFlow读取数据IO的高效方式

7694 0 1

来自：人工智能平台PAI 版块

寒沙牧

|

SQL 分布式计算算法

|

博文

Spark中的资源调度

本文对Spark的资源调度的进行了介绍，涉及到4个维度的调度，包括SparkApplication/pool/TaskSetManager/Task。

8014 0 0

来自：开源大数据平台 E-MapReduce 版块

隐林

|

存储分布式计算大数据

|

博文

阿里巴巴大数据实践之数据建模

随着DT时代互联网、智能设备及其他信息技术的发展，数据爆发式增长，如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。为什么需要数据建模如果把数据看作图书馆里的书，我们希望看到它们在书架上分门别类地放置；如果把数据看作城市的建筑，我们希望城市规划布局合理；如果把数据看作电脑文件和文件夹，我们希望按照自己的习惯有很好的文件夹组织方式，而不是糟糕混乱的桌面，经常为找一个文件而不知所措。

7661 0 1

来自：大数据计算 MaxCompute 版块

祎休

|

分布式计算大数据开发工具

|

博文

阿里云大学精品课程：深入理解阿里云数加大数据开发套件Data IDE-基本知识

基于阿里云数加·MaxCompute构建大数据仓库的开发工具利器Data IDE《MaxCompute（原ODPS）开发入门指南——数据开发工具篇》，那么基于Data IDE进行数据开发想必也遇到一些不少的困惑，就自己在培训过程中的一些经验或者说阿里集团内的踩坑之路与大家在此分享，也欢迎拍砖。

7868 0 0

来自：大数据计算 MaxCompute 版块

jpyo2008-35365

|

算法数据挖掘搜索推荐

|

博文

技术论文：电子商务中基于生命阶段的推荐（发表于 ACM KDD2015 )

ACM SIGKDD 国际会议（简称 KDD）是数据挖掘研究领域的顶级盛会，它每年能收到上千篇来自国际知名大学和研究机构的学术论文投稿，这其中仅有一小部分优秀论文可以被接收。2015年5月18日，KDD组委会发布工业和政府相关方向论文的录用消息，阿里巴巴集团搜索事业部推荐团队投稿的论文被录用，表

7108 0 0

来自：智能搜索推荐版块

工程师甲

|

运维算法大数据

|

博文

【阿里云MVP第五期】安畅网络韩军辉：ELK在数据中心流量分析中的应用

本文节选自阿里云MVP第五期嘉宾上海安畅运维专家韩军辉分享话题《ELK在运维工作中应用两三事》。从实际应用的角度，分享了ELK在混合云数据中心场景下流量收集、分析、存储、展现、告警中的实践。

7451 0 0

来自：检索分析服务 Elasticsearch版版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

MaxCompute访问TableStore(OTS) 数据（20170601更新）

flume java介绍

PyODPS开发中的最佳实践

使用Hive进行OSS数据处理的一个最佳实践

Ha3搜索引擎简介

读透《阿里巴巴数据中台实践》，其到底有什么高明之处？

阿里云参与两大国家工程实验室获批，人工智能继续深入工业制造

Python实现MaxCompute UDF/UDAF/UDTF

（ElasticsSearch学习）歌词检索Demo的实现：二. 搭建spring boot+spring data+jest+elasticsearch环境，实现歌词的全文检索

HAS-插件式Kerberos认证框架

数据保护伞—为MaxCompute平台数据安全保驾护航

如何用SQL对MaxCompute数据进行修改和删除

【X-Pack解读】阿里云Elasticsearch X-Pack 监控组件功能详解

阿里巴巴大数据技术关键进展及展望

阿里云MaxCompute 2019-6月刊

【大数据技巧】MaxCompute中实现IP地址归属地转换

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

DII—算法服务利器

基于Flink的实时日志分析系统实践

【大数据新手上路】“零基础”系列课程--如何通过大数据开发套件Data IDE玩转大数据

专访20年技术老兵云郎：16年峰回路，每一步都是更好的沉淀

阿里云大数据利器Maxcompute-使用mapjoin优化查询

MaxCompute数据安全机制

阿里巴巴飞天大数据架构体系与Hadoop生态系统

开源生态的新发展：Apache Spark 3.0、Koala和Delta Lake

“NASA”计划背后，阿里巴巴大数据系统架构概述

深度语义模型以及在淘宝搜索中的应用

《云数据·大计算：海量日志数据分析与应用》Workshop-入口

使用llvm实现一门语言 —— cava

PyODPS 中使用 Python UDF

漫谈阿里大数据

Oracle存储过程迁移ODPS-00（专有云）：Oracle - ODPS数据类型转换

MaxCompute理解数据、运算和用户的大脑：基于代价的优化器

【MaxCompute官宣】大数据计算技术共享计划 — 技术公开课第四季干货集锦！

基于OGG Datahub插件将Oracle数据同步上云

csv导入HBase

【大数据开发套件调度配置实践】——不同周期任务依赖配置

PyODPS 安装常见问题解决

MaxCompute 学习计划(二)

YARN中的CPU资源隔离-CGroups

开源大数据周刊-第97期

通过ZeppelinHub viewer来分享zeppelin的notebook和报表数据

query语义改写

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

云端深度学习框架TensorFlow读取数据IO的高效方式

Spark中的资源调度

阿里巴巴大数据实践之数据建模

阿里云大学精品课程：深入理解阿里云数加大数据开发套件Data IDE-基本知识

技术论文：电子商务中基于生命阶段的推荐（发表于 ACM KDD2015 )

【阿里云MVP第五期】安畅网络韩军辉：ELK在数据中心流量分析中的应用

大数据与机器学习

活跃用户

相关产品