大数据与机器学习-博文-阿里云开发者社区

木酱

|

弹性计算数据可视化 API

|

博文

数据库开放权限太危险，又不想写API。DataV给你另外一个选择。

~ DataV 后台21日晚上线，现在暂时还不能用哦 ~ DataV 增加了一个新的数据代理协议，旨在提供更安全的数据查询。它将 SQL 查询字符串和数据库 id 加密后传到这个应用，而后这个应用连接数据库将查询后的结果返回到 DataV 的页面中。根据新的协议，我做了一个示例应用在githu

47475 141 197

来自：数据可视化DataV 版块

隐林

|

存储分布式计算监控

|

博文

大数据环境下该如何优雅地设计数据分层

发个牢骚，搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司，都需要对数据仓库有一定的重视，而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式，它是一整套包括了etl、调度、建模在内的完整的理论体系。

40993 9 9

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算 MaxCompute

|

博文

MaxCompute执行作业慢的原因排查

大家在平时开发过程中经常遇到作业（SQL、MR等）执行慢的原因，今天带大家一起学习自排查方法。 1、wait wait ，job querying 遇到这个提示，就是资源出现了排队，如果你是后付费用户，那就是整个后付费的共享池已经没有富余的资源了，要等前一个作业处理完。

24946 4 6

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算大数据 BI

|

博文

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

目前阿里云大数据产品已经免费向全部用户开放了多种公用数据集。开放的数据类别包括：股票价格数据，房产信息，影视及其票房数据。

25506 6 11

来自：大数据计算 MaxCompute 版块

晋恒

|

存储分布式计算大数据

|

博文

阿里云MaxCompute 2019-5月刊

5月MaxCompute新功能发布，精彩技术好文推荐，技术干货下载，6月重要活动抢先知道，尽在5月刊。

15454 0 0

来自：大数据计算 MaxCompute 版块

尼不要逗了

|

分布式计算大数据 Apache

|

博文

现代流式计算的基石：Google DataFlow

0. 引言今天这篇继续讲流式计算。毫无疑问，Apache Flink 和 Apache Spark （Structured Streaming）现在是实时流计算领域的两个最火热的话题了。那么为什么要介绍 Google Dataflow 呢？Streaming Systems 这本书在分析 Fli...

19333 60 60

来自：开源大数据平台 E-MapReduce 版块

隐林

|

SQL 分布式计算资源调度

|

博文

MaxCompute常见错误汇总（更新ing）

从今天开始，小编会为大家陆续解读MaxCompute常见问题，帮助大家快速上手MaxCompute，玩转大数据计算平台。

24399 8 9

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

对象存储存储分布式计算

|

博文

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS 是EMR打造的高性能大数据存储服务，可以为不同的计算引擎提供不同的存储服务，可以根据应用的场景来选择不同的存储模式。在2019杭州云栖大会大数据生态专场，阿里巴巴计算平台事业部EMR团队技术专家殳鑫鑫和Intel大数据团队软件开发经理徐铖共同向大家分享了云上大数据的高性能数据湖存储方案JindoFS的产生背景、架构以及与Intel DCPM的性能评测。

16929 58 58

来自：开源大数据平台 E-MapReduce 版块

晋恒

|

大数据

|

博文

【内含分享PPT/视频/文章】阿里云MVP学院MaxCompute技术闭门会线上首播 | 2019大数据技术公开课第二季

数据的价值是解释业务还是预测业务？是支撑业务还是驱动业务？企业级计算服务的核心问题是什么？企业级计算平台要解决的核心问题是什么？商业和技术的平衡点在哪里？一起直播学习，让数据真正驱动业务。

13778 2 4

来自：大数据计算 MaxCompute 版块

米尔。。。

|

安全数据安全/隐私保护

|

博文

新版发布功能上线，新增「大屏快照」功能！

新版发布功能上线，新增「大屏快照」功能！发布分享链接设置分享链接打开「发布分享」按钮之后，会随机生成一个分享链接，此链接每次打开之后都会变更，上一次的分享链接随即失效且不能恢复到历史分享链接。

15142 152 158

来自：数据可视化DataV 版块

墨青

|

机器学习/深度学习自然语言处理算法

|

博文

DL应用：query生成和query推荐

引言　　在机器翻译、图片描述、语义蕴涵、语音识别和文本摘要中，序列到序列的问题已经有太多大牛研究了，也取得了很多突破。谷歌的Attention is all you need[1],舍弃并超越了主流的rnn与cnn序列建模框架，刷出了新的state of the art,这种大胆创新的精神值得我们学习。

16138 1 1

来自：智能搜索推荐版块

隐林

|

分布式计算大数据 MaxCompute

|

博文

阿里云数加MaxCompute购买咨询钉钉群

为企业解答阿里云MaxCompute大数据计算产品购买问题。

14400 0 1

来自：大数据计算 MaxCompute 版块

祎休

|

SQL 分布式计算搜索推荐

|

博文

大数据workshop：《云数据·大计算：海量日志数据分析与应用》之《数据加工：用户画像》篇

本手册为阿里云MVP《云计算·大数据：海量日志数据分析与应用》的《数据加工：用户画像》篇而准备。主要阐述在使用大数据开发套件过程中如何将已经采集至MaxCompute上的日志数据进行加工并进行用户画像，学员可以根据本实验手册，去学习如何创建SQL任务、如何处理原始日志数据。

13576 0 2

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

存储缓存分布式计算

|

博文

基于Alluxio系统的Spark DataFrame高效存储管理技术

介绍越来越多的公司和组织开始将Alluxio和Spark一起部署从而简化数据管理，提升数据访问性能。Qunar最近将Alluxio部署在他们的生产环境中，从而将Spark streaming作业的平均性能提升了15倍，峰值甚至达到300倍左右。

12491 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

流计算 Apache 人工智能

|

博文

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

8 月最后一天，由 Apache Kafka 与 Apache Flink 联合举办的 Meetup 深圳站圆满落幕，现场站无虚席，来自 Confluent 、中国农业银行、虎牙直播、数见科技以及阿里巴巴的五位技术专家带来了丰富精彩的分享，全场干货满满！

14336 0 0

来自：实时计算 Flink 版块

kilowu

|

SQL 存储分布式计算

|

博文

MaxCompute上如何处理非结构化数据

0. 前言 MaxCompute作为阿里云大数据平台的核心计算组件，拥有强大的计算能力，能够调度大量的节点做并行计算，同时对分布式计算中的failover，重试等均有一套行之有效的处理管理机制。而MaxCompute SQL能在简明的语义上实现各种数据处理逻辑，在集团内外更是广为应用，在其上实现

13349 0 3

来自：大数据计算 MaxCompute 版块

傲海

|

算法机器学习/深度学习数据处理

|

博文

【玩转数据系列三】利用图算法实现金融行业风控

本文将针对阿里云平台上图算法模块来进行实验。图算法一般被用来解决关系网状的业务场景。与常规的结构化数据不同，图算法需要把数据整理成首尾相连的关系图谱。图算法更多的是考虑边和点的概念。阿里云机器学习平台上提供了丰富的图算法组件，包括K-Core、最大联通子图、标签传播聚类等。

13685 1 6

来自：人工智能平台PAI 版块

傲海

|

机器学习/深度学习算法对象存储

|

博文

机器学习PAI全新功效——实时新闻热点Online Learning实践

(本实验会用到流式机器学习算法，正处于邀测状态，需要申请开通)PAI地址：https://data.aliyun.com/product/learn流式机器学习算法申请：https://data.aliyun.com/paionlinelearning打开新闻客户端，往往会收到热点新闻推送相关的内容。

13930 0 0

来自：人工智能平台PAI 版块

隐林

|

存储运维监控

|

博文

阿里云大数据计算平台的自动化、精细化运维之路

作者简介：　　范伦挺　　阿里巴巴基础架构事业群-技术专家　　花名萧一，2010年加入阿里巴巴，现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台（如MaxCompute、AnalyticDB、StreamComput

12549 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算安全大数据

|

博文

阿里怎么发工资？自研薪酬管理系统首次曝光

作者：墨逐人力资源管理系统是用集中的数据将几乎所有的人力资源相关的信息（组织、招聘、薪资、绩效、审批等）统一管理起来，是企业运行必不可少的管理软件。国际上知名的有Oracle PeopleSoft、SAP 和Workday HCM，世界500强公司有超过一半都在使用。

12126 0 1

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

存储缓存分布式计算

|

博文

JindoFS概述：云原生的大数据计算存储分离方案

JindoFS 是一套新的云原生的数据湖解决方案。在 JindoFS 之前，云上客户主要使用 HDFS 和 OSS/S3 作为大数据存储。HDFS 是 Hadoop 原生的存储系统，10 年来，HDFS 已经成为大数据生态的存储标准，但是我们也可以看到 HDFS 虽然不断优化，但是 JVM 的瓶颈也始终无法突破。

23881 3 5

来自：开源大数据平台 E-MapReduce 版块

梁义

|

存储 Java 分布式数据库

|

博文

海量数据实时计算利器Tec

引子在刚刚过去的2015年双11大促中，搜索事业部的实时计算和在线学习系统Pora经受住了前所未有的双11巨量用户行为消息的冲击，在流入实时消息量持续超过300w/s，甚至峰值飙升至501w/s的压力下始终保持了端到端秒级实时效果，助力相关的搜索和推荐实时业务取得了很好的效果。 Pora如何能

12082 0 0

来自：智能搜索推荐版块

开源大数据EMR

|

分布式计算监控关系型数据库

|

博文

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

基本架构 RDS -> SLS -> Spark Streaming -> Spark HDFS 上述链路主要包含3个过程：如何把 RDS 的 binlog 收集到 SLS。如何通过 Spark Streaming 将 SLS 中的日志读取出来，进行分析。

11324 0 0

来自：开源大数据平台 E-MapReduce 版块

隐林

|

存储 JSON 分布式计算

|

博文

标签分类理论

最近在做DMP，负责设计一套标签管理系统。在对现有标签进行整理的过程中，整理出了这套东西。 0. 标签的定义：标签分类学(Taxonomy) 对于标签(tag)，很难列出一个公认的定义，指明这个概念的种差与属概念。所以为了把握这个概念，就需要采取定义另一种办法：分类与枚举。我们要解决的第一个

13366 1 5

来自：大数据计算 MaxCompute 版块

曾安祥仁重

|

机器学习/深度学习算法搜索推荐

|

博文

强化学习在电商环境下的若干应用与研究

本文描述了淘宝搜索算法AI技术团使用强化学习算法在淘宝的环境中怎么解决实际的业务问题的以及一些研究探索。

13639 0 3

来自：智能搜索推荐版块

开源大数据EMR

|

存储分布式计算大数据

|

博文

从数砖开源 Delta Lake 说起

Spark AI 北美峰会的第一天，坊间传闻被证实，Databrics（俗称数砖，亦称砖厂）的杀手锏 Delta 产品特性作为 Delta Lake 项目开源！会前，笔者有幸同砖厂的两位大佬李潇和连城做了个线下交流，谈到 Delta 时被告知会有相关重磅在大会上宣布，但却没想到是开源出去。

9914 0 1

来自：开源大数据平台 E-MapReduce 版块

亢海鹏

|

分布式计算 MaxCompute

|

博文

MaxCompute问答整理之9月

本文是基于本人对MaxCompute产品的学习进度，再结合开发者社区里面的一些问题，进而整理成文。希望对大家有所帮助。

9810 0 0

来自：大数据计算 MaxCompute 版块

傲海

|

新零售搜索推荐算法

|

博文

11908 2 9

来自：开源大数据平台 E-MapReduce 版块

jack_tang

|

运维搜索推荐调度

|

博文

Ha3搜索引擎简介

Ha3是阿里巴巴搜索团队开发的搜索引擎平台，它为阿里集团包括淘宝、天猫在内的核心业务提供搜索服务支持。

24866 1 2

来自：智能搜索推荐版块

晋恒

|

分布式计算安全大数据

|

博文

数据保护伞—为MaxCompute平台数据安全保驾护航

数据安全是大数据发展道路上的重要挑战之一，数据，作为企业的核心资产，80%以上的核心信息是以结构化数据存储，包含个人身份证号、银行账号、电话、客户数据、医疗、交易、薪资等极其重要又敏感的信息。一旦发生数据篡改、盗取、滥用等安全事件，将给企业带来经济和声誉上的双重打击，造成的后果将不堪设想。

9304 0 1

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算大数据 MaxCompute

|

博文

【大数据技巧】MaxCompute中实现IP地址归属地转换

大数据平台的成熟使得更多种类的非结构化、半结构化的数据分析成为可能其中应用非常广泛的一种场景就是日志分析。在日志类型数据的清洗转换过程中把IP地址转换为归属地又是极为常见的一种场景。

11840 1 11

来自：大数据计算 MaxCompute 版块

隐林

|

存储分布式计算资源调度

|

博文

阿里巴巴飞天大数据架构体系与Hadoop生态系统

先说Hadoop 什么是Hadoop？ Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统，主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算，充分利用集群的威力进行高速运算和存储。

10948 59 60

来自：大数据计算 MaxCompute 版块

巢甜

|

数据可视化

|

博文

DataV账号间屏幕拷贝功能指南

账户间的拷屏功能就是这么低调地上线了。虽然操作非常简单，但是会涉及到一个用户识别码的新概念，拷屏过程中也会有一定的规则，所以还是向各位介绍具体操作。

8346 0 0

来自：数据可视化DataV 版块

永翎

|

数据可视化定位技术

|

博文

DataV FAQ

Q：数据库连接不成功 A：需要您开通数据库的公网IP，目前并不支持白名单。或者您可以通过我们提供的[代理工具]来连接到DataV

7941 1 2

来自：数据可视化DataV 版块

梅熙

|

JSON 安全 BI

|

博文

通过ZeppelinHub viewer来分享zeppelin的notebook和报表数据

最近有使用E-MapReduce的同学咨询如果将zeppelin中的表表数据进行共享。这里就介绍一下在Aliyun E-MapReduce的集群中使用ZeppelinHub来进行notebook和报表的分享。

7207 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

大数据分布式计算流计算

|

博文

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

章剑锋（简锋），开源界老兵，Apache Member，曾就职于 Hortonworks，目前在阿里巴巴计算平台事业部任高级技术专家，并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ，以及 Apache Pig 的 Committer。

8499 0 0

来自：实时计算 Flink 版块

傲海

|

机器学习/深度学习 TensorFlow 算法框架/工具

|

博文

大家在使用大数据计算服务MaxCompute时，最头疼就是我现在已有的数据如何快速上云？我的日志数据如何采集到MaxCompute上？等等。。。具体详见《MaxCompute（原ODPS）开发入门指南——数据上云篇》。

8009 0 2

来自：大数据计算 MaxCompute 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

数据库开放权限太危险，又不想写API。DataV给你另外一个选择。

大数据环境下该如何优雅地设计数据分层

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

阿里云MaxCompute 2019-5月刊

现代流式计算的基石：Google DataFlow

MaxCompute常见错误汇总（更新ing）

JindoFS: 云上大数据的高性能数据湖存储方案

【内含分享PPT/视频/文章】阿里云MVP学院MaxCompute技术闭门会线上首播 | 2019大数据技术公开课第二季

新版发布功能上线，新增「大屏快照」功能！

DL应用：query生成和query推荐

阿里云数加MaxCompute购买咨询钉钉群

大数据workshop：《云数据·大计算：海量日志数据分析与应用》之《数据加工：用户画像》篇

基于Alluxio系统的Spark DataFrame高效存储管理技术

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

MaxCompute上如何处理非结构化数据

【玩转数据系列三】利用图算法实现金融行业风控

机器学习PAI全新功效——实时新闻热点Online Learning实践

阿里云大数据计算平台的自动化、精细化运维之路

阿里怎么发工资？自研薪酬管理系统首次曝光

JindoFS概述：云原生的大数据计算存储分离方案

海量数据实时计算利器Tec

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

标签分类理论

强化学习在电商环境下的若干应用与研究

从数砖开源 Delta Lake 说起

MaxCompute问答整理之9月

基于协同过滤算法的推荐

MaxCompute（原ODPS）开发入门指南——数据上云篇

EMR Spark Relational Cache的执行计划重写

关于 Chrome （谷歌浏览器）升级到 80 后可能产生的影响以及解决方案

阿里云数加产品家族图首次亮相

MaxCompute SQL-列转行和行转列

SQL优化器原理 - 查询优化器综述

使用Hive进行OSS数据处理的一个最佳实践

Ha3搜索引擎简介

数据保护伞—为MaxCompute平台数据安全保驾护航

【大数据技巧】MaxCompute中实现IP地址归属地转换

阿里巴巴飞天大数据架构体系与Hadoop生态系统

DataV账号间屏幕拷贝功能指南

DataV FAQ

通过ZeppelinHub viewer来分享zeppelin的notebook和报表数据

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

云端深度学习框架TensorFlow读取数据IO的高效方式

阿里云大学精品课程：深入理解阿里云数加大数据开发套件Data IDE-基本知识

运维场景下的实时计算应用

E-MapReduce上如何采集Kafka客户端Metrics

数加平台如何通过Serverless 架构实现普惠大数据

阿里集团搜索中台TisPlus

MaxCompute（原ODPS）开发入门指南——数据开发工具篇

大数据与机器学习

活跃用户

相关产品