|
分布式计算 算法 大数据
|

分布式快照算法: Chandy-Lamport

Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照(Distributed Snapshot)算法 Chandy-Lamport 算法,那么分布式快照算法可以用来解决什么问题呢?

24049 61
|
弹性计算 分布式计算 Hadoop
|

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

 想用阿里云数加·大数据计算服务(MaxCompute),但是现在数据还在hadoop上,怎么办?   别烦恼,跟着我们走,来一次MaxCompute零基础数据迁移之旅~Let’s Go!

15982 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 搜索推荐
|

大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据加工:用户画像》篇

本手册为阿里云MVP《云计算·大数据:海量日志数据分析与应用》的《数据加工:用户画像》篇而准备。主要阐述在使用大数据开发套件过程中如何将已经采集至MaxCompute上的日志数据进行加工并进行用户画像,学员可以根据本实验手册,去学习如何创建SQL任务、如何处理原始日志数据。

13595 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 DataWorks 安全
|

MaxCompute/DataWorks权限问题排查建议

MaxCompute/DataWorks权限问题排查建议 __前提:__MaxCompute与DataWorks为两个产品,在权限体系上既有交集又要一定的差别。在权限问题之前需了解两个产品独特的权限体系。

12553 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 Hadoop
|

比自建 Hadoop 还便宜!云栖大会揭秘阿里云数加 MaxCompute

DT时代,越来越多的企业应用数据步入云端。 Hadoop是当下流行的大数据并行计算体系,横向扩展、生态圈成熟等一直是它的主要特点。 阿里云数加MaxCompute (原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。

12372 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 自然语言处理 算法
|

阿士比亚:搜索团队智能内容生成实践

本文主要介绍阿里巴巴-搜索事业部算法团队上半年在智能内容生成方向工作的一些实践和思考。

16190 0
来自: 智能搜索推荐  版块
|
存储 大数据 分布式计算
|

助力云上开源生态 - 阿里云开源大数据平台的发展

阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。在2019杭州云栖大会大数据生态专场上,阿里巴巴高级产品专家夏立为大家分享了阿里云EMR如何助力云上开源生态。

12099 0
|
SQL 分布式计算 大数据
|

MaxCompute常用语句汇总(更新ing)

收集一些MaxCompute常用命令。

11670 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 大数据
|

深入阿里云大数据IDE–MaxCompute Studio

在云栖社区主办的云栖计算之旅第5期–大数据与人工智能分享中,阿里云计算平台高级专家薛明为大家深入地介绍了阿里云大数据IDE–MaxCompute Studio,并对于其特性和背后的技术思想进行了讲解。

9867 1
来自: 大数据计算 MaxCompute  版块
|
Web App开发 数据可视化 安全
|

关于 Chrome (谷歌浏览器)升级到 80 后可能产生的影响以及解决方案

### 背景 Google 将在2020年**2月4号**发布的 Chrome 80 版本(schedule:[https://www.chromestatus.com/features/schedule](https://www.

45530 152
来自: 数据可视化DataV  版块
|
存储 搜索推荐 数据库
|

细数阿里云服务器的十二种典型应用场景

文章转载:小白杨1990 如今,阿里云的产品可谓是多种多样,纷繁复杂。面对各种各样的技术和产品,ECS、RDS、OSS…等等一系列的东西,很容易让人找不到头绪,尤其是刚刚开始接触网站建设的朋友。阿里云湖北授权服务中心武汉捷讯结合阿里云官网的资料,针对建站相关的内容为大家整理一些阿里云典型的应用场景

11224 1
来自: 大数据计算 MaxCompute  版块
|
SQL 双11 流计算
|

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

通俗讲retract就是传统数据里面的更新操作,也就是说retract是流式计算场景下对数据更新的处理方式。

19645 10
来自: 实时计算 Flink  版块
|
分布式计算 Java MaxCompute
|

flume java介绍

近期在做shark flume开发框架的测试,该框架是一个简单高效的面向数据的pipeline框架,采用flume java的思想,实现了一套flume java on MaxCompute的library。为了更好的了解shark自己也去阅读了flume java的paper,这里做一些总结,主要

9056 0
来自: 大数据计算 MaxCompute  版块
|
运维 搜索推荐 调度
|

Ha3搜索引擎简介

Ha3是阿里巴巴搜索团队开发的搜索引擎平台,它为阿里集团包括淘宝、天猫在内的核心业务提供搜索服务支持。

24916 1
来自: 智能搜索推荐  版块
|
数据可视化 数据安全/隐私保护
|

DataV 支持 token 验证啦!

有很多同学希望把 DataV 创建的数据可视化大屏整合到自己的网站中,我们很早就提供了这样的支持。

9281 137
来自: 数据可视化DataV  版块
|
存储 消息中间件 算法
|

Apache Flink 漫谈系列(04) - State

实际问题 在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重新新计算一次,还是每次计算都是在上一次计算结果之上进行增量计算呢?答案是肯定的,Apache Flink是基于上一次的计算结果进行增量计算的。

14430 1
来自: 实时计算 Flink  版块
|
监控 大数据 索引
|

【X-Pack解读】阿里云Elasticsearch X-Pack 监控组件功能详解

阿里云Elasticsearch集成了Elastic Stack商业版的X-Pack组件包,包括安全、告警、监控、报表生成、图分析、机器学习等组件,用户可以开箱即用。本文将对X-Pack 的监控组件功能进行详细解读。

10138 1
|
分布式计算 IDE 大数据
|

【大数据新手上路】“零基础”系列课程--如何通过大数据开发套件Data IDE玩转大数据

老板每天都要出这些业务数据(销售总额、总交易量、总点击次数、总加入购物车次数、总加入收藏夹次数...),我得想个一劳永逸的方法了…

8651 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 大数据
|

开源大数据周刊-第61期

7500 0
|
大数据 调度
|

【大数据开发套件调度配置实践】——不同周期任务依赖配置

大数据开发过程中常遇到不同运行周期的任务进行依赖,常见**天任务依赖小时任务**、**小时任务依赖分钟任务**。那么如何通过大数据开发套件开发这两种场景呢? 本文将从这两个场景出发,结合调度依赖/参数/调度执行等,介绍不同周期调度依赖的最佳操作实践。

9425 0
来自: 大数据计算 MaxCompute  版块
|
开发者
|

2019北京Elastic开发者大会日程重磅上线 | 由阿里云联合赞助

2019年度Elastic中国开发者大会(北京)是由Elastic官方在中国举办的第三次开发者大会。阿里云作为Elasticsearch云上生态的主要推动者,很荣幸作为本次大会战略级合作伙伴参与其中,届时将和Elastic技术社区联合发布《Elasticsearch中国开发者报告》。

8014 0
|
存储 分布式计算 大数据
|

阿里巴巴大数据实践之数据建模

随着DT时代互联网、智能设备及其他信息技术的发展,数据爆发式增长,如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。 为什么需要数据建模 如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。

7627 0
来自: 大数据计算 MaxCompute  版块
|
安全 大数据 分布式数据库
|

E-MapReduce大数据安全实践

E-MapReduce从EMR-2.7.x/EMR-3.5.x版本开始支持创建安全类型的集群,即集群中的开源组件以Kerberos的安全模式启动,在这种安全环境下只有经过认证的客户端(Client)才能访问集群的服务(Service,如HDFS)。

6560 0
|
分布式计算 监控 大数据
|

【阿里云网站日志分析实践】通过Log Service日志服务导入MaxCompute分析

日志服务收集的日志除了可以被实时查询外,还可以把日志数据投递到大数据计算服务MaxCompute(原ODPS),进一步进行个性化BI分析及数据挖掘。通过日志服务投递日志数据到MaxCompute具有如下优势: 使用非常简单。用户只需要完成2步配置即可以把日志服务Logstore的日志数

6545 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 大数据
|

阿里云大数据开发套件 新手不得不面对的问题(持续更新)

概念 大数据开发套件(Data IDE) 是阿里云数加重要的Paas平台产品,是”DataWorks”中最重要的核心组件。提供全面托管的工作流服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。

6720 1
来自: 大数据计算 MaxCompute  版块
|
资源调度 算法 大数据
|

【大数据技术干货】阿里云伏羲(fuxi)调度器FuxiMaster功能简介(一) 多租户(QuotaGroup)管理

转载自xingbao     各位好,这是介绍阿里云伏羲(fuxi)调度器系列文章的第一篇,今天主要介绍多租户(QuotaGroup)管理的实现 一、FuxiMaster简介 FuxiMaster和Yarn非常相似,定位于分布式系统中资源管理与分配的角色:一个典型的资源分配流程图如下所

7908 0
来自: 大数据计算 MaxCompute  版块
|
存储 大数据 流计算
|

【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

基于Blink为新商业调控打造实时大数据交互查询服务 从IT到DT、从电商到新商业,阿里巴巴的每个细胞都存在大数据的DNA,如何挖掘大数据的价值成为抢占未来先机的金钥匙!传统的大数据开发主要基于离线计算平台MaxCompute(ODPS)进行天级别、小时级别的批量数据分析,但近些年随着618、99.

6863 0
来自: 实时计算 Flink  版块
|
分布式计算 监控 数据可视化
|

美甲帮:玩转指甲上的大数据平台

美甲帮APP目前有几百万的用户,然而不同用户喜好和动机不同,譬如是想提升美甲技艺,还是想通过美甲图片选款,或者是想在商城里购买美甲产品,如何挖掘用户需求并以此进行精准化营销或个性化推荐,提升客户体验同时又可以增加收入,这些都是美甲帮最关注的问题。

6293 0
来自: 大数据计算 MaxCompute  版块
|
XML 存储 算法
|

BasicEngine — 基于DII平台的推荐召回引擎

BasicEngine是阿里巴巴搜索事业部自研的推荐在线召回引擎,依托强大的搜索底层技术支持,可以在线实现复杂的关联排序运算,支持灵活的推荐策略组合,为推荐系统的升级发展拓展了无限想象空间。

8740 0
来自: 智能搜索推荐  版块
|
分布式计算 Java MaxCompute
|

MaxCompute Tunnel SDK数据上传利器——BufferedWriter使用指南

MaxCompute 的数据上传接口(Tunnel)定义了数据 block 的概念:一个 block 对应一个 http request,多个 block 的上传可以并发而且是原子的,一次同步请求要么成功要么失败,不会污染其他的 block。这种设计对于服务端来讲十分简洁,但是也把记录状态做 fa.

6141 0
来自: 大数据计算 MaxCompute  版块
|
搜索推荐 开发者 算法
|

云栖全程回顾|搜索推荐工程技术专场(附视频与文档)

2019年9月26日在云栖大会《搜索推荐工程技术专场》上,介绍了阿里巴巴搜索推荐与广告,淘系推荐算法云上赋能的分享。基于阿里巴巴十几年搜索与推荐引擎的技术沉淀,承载了包括淘宝、天猫、菜鸟、盒马、钉钉、优酷乃至海外电商在内的整个阿里集团业务,同时由搜索推荐体系支撑起的云产品矩阵已服务于全球的开发者。本次分享邀请到了阿里巴巴搜索和推荐最核心的资深技术专家,为大家带来搜索和推荐领域最前沿、专业、深度的技术内容盛宴。

8799 0
来自: 智能搜索推荐  版块
|
分布式计算 IDE 大数据
|

MaxCompute和DataIDE权限体系介绍

理解大数据开发套件和大数据计算服务的权限体系。

5344 0
来自: 大数据计算 MaxCompute  版块
|
流计算 NoSQL Redis
|

基于Flink和规则引擎的实时风控解决方案

对一个互联网产品来说,典型的风控场景包括:注册风控、登陆风控、交易风控、活动风控等,而风控的最佳效果是防患于未然,所以事前事中和事后三种实现方案中,又以事前预警和事中控制最好。 这要求风控系统一定要有实时性。

13990 2
来自: 实时计算 Flink  版块
|
API 流计算 存储
|

Apache Flink 零基础入门教程(六):状态管理及容错机制

本文主要分享内容如下:状态管理的基本概念;状态的类型与使用示例;容错机制与故障恢复;

6341 0
来自: 实时计算 Flink  版块
|
缓存 调度 Apache
|

Apache Flink 进阶(一):Runtime 核心机制剖析

Flink 的整体架构如图 1 所示。Flink 是可以运行在多种不同的环境中的,例如,它可以通过单进程多线程的方式直接运行,从而提供调试的能力。它也可以运行在 Yarn 或者 K8S 这种资源管理系统上面,也可以在各种云环境中执行。

30200 0
来自: 实时计算 Flink  版块
|
SQL 分布式计算 大数据
|

生态与兼容:MaxCompute大数据生态集成和开发工具

本文PPT来自阿里云数据事业部高级专家薛明/艺卓于10月15日在2016年杭州云栖大会上发表的《MaxCompute大数据生态集成和开发工具》。

4806 0
来自: 大数据计算 MaxCompute  版块
|
关系型数据库 MySQL 大数据
|

基于DataIDE数据集成实现香港ECS上的MySQL数据同步到数加MaxCompute

最近有朋友问,客户在香港ECS上搭建的MySQl,大概有100GB以上的数据,能否通过MaxCompute做海量数据分析,我的回答是YES! 但客户担心香港与大陆之前数据连通性问题,我的回答依然是YES! 为了让更多个客户不再困扰,笔者做了一份教程,可以通过大数据开发套件中的经典网络进行同步数据

4949 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 NoSQL Java
|

使用DataX同步MaxCompute数据到TableStore(原OTS)优化指南

现在越来越多的技术架构下会组合使用MaxCompute和TableStore,用MaxCompute作大数据分析,计算的结果会导出到TableStore提供在线访问。MaxCompute提供海量数据计算的能力,而TableStore提供海量数据高并发低延迟读写的能力。

5812 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 安全 大数据
|

还在用Hadoop么?Hadoop服务器造成5PB数据泄露,中国、美国受波及最大!

根据John Matherly的说法,不适当地配置HDFS服务器——主要是Hadoop安装——将会泄露超过5PB的信息。John Matherly是用于发现互联网设备的搜索引擎Shodan的创始人。 这位专家说,他发现了4487个HDFS服务器实例,这些服务器可通过公共IP地址获得,而且不需要身份验证。

4407 0
来自: 大数据计算 MaxCompute  版块
|
流计算 Java 监控
|

如何分析及处理 Flink 反压?

反压(backpressure)是实时计算应用开发中,特别是流式计算中,十分常见的问题。反压意味着数据管道中某个节点成为瓶颈,处理速率跟不上上游发送数据的速率,而需要对上游进行限速。

17458 1
来自: 实时计算 Flink  版块
|
存储 分布式计算 监控
|

MaxCompute预付费资源监控工具-CU管家使用教程

MaxCompute管家使用前提 1、用户购买了 MaxCompute 预付费CU资源,60CU以上的用户(备注:CU过小无法发挥计算资源及管家的优势)。 2、支持区域,MaxCompute 华北2北京、华东2上海、华南1深圳 3个Region的用户。

4387 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 数据挖掘
|

数据让生意更简单,网聚宝创业团队利用数加快速打造核心业务竞争力,在激烈的市场竞争中弯道超车。

网聚宝基于阿里云数加及基础云服务等产品,向客户提供全域大数据SaaS应用,向二次开发者、集成商及合作伙伴提供PaaS API以及DaaS API,从而为客户、合作伙伴、集成商、二次开发者进行全面的大数据赋能。

4222 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 MaxCompute
|

MaxCompute SQL引用第三方Base64JAR实现编解码

我们通过阿里云MaxCompute 和大数据开发套件,引用第三方的Base64 JAR,来实现字符串的编码、解码;

4468 0
来自: 大数据计算 MaxCompute  版块
|
SQL 流计算 大数据
|

Flink入坑指南 第四章:SQL中的经典操作Group By+Agg

Flink入坑指南系列文章,从实际例子入手,一步步引导用户零基础入门实时计算/Flink,并成长为使用Flink的高阶用户。 简介 Group By + Agg这个最经典的SQL使用方式。Group By是SQL中最基础的分组操作,agg的全称是aggregation(聚合操作),是一类SQL算子的统称,Flink中最常用的Agg操作有COUNT/SUM/AVG等,详情参见Flink支持的聚合操作列表。

10800 1
来自: 实时计算 Flink  版块
|
分布式计算 大数据 测试技术
|

云享团——基于大数据开发套件的增量同步策略

转载自云享团 因为近期遇到用户在做ETL操作导入数据到MaxCompute的时候,对如何设置数据同步策略有疑惑,所以今天第一波我们来聊一下数据的同步策略,根据数据的特性,看看哪些数据适合增量同步,哪些适合全量同步,又是如何实现的?请认真看完下面的介绍,这些问题都不是事儿。

3951 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 MaxCompute
|

从0-1体验大数据开发

觉得裸用MaxCompute(原ODPS)门槛较高?想做数据开发,却苦于没有好的管理工具?想体验Data IDE觉得前期准备工作太长,欢迎进入大数据体验馆,快速开启体验:https://data.aliyun.com/experience

3544 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 安全
|

持续创新和改进,为用户创造最大价值,阿里云数加MaxCompute获得C-Tech Awards 2016年度“最具技术创新奖”

“C-Tech Awards 2016最具价值大奖评选”活动已经正式结束。从2016年12月22日线上征集至今,活动获得各大技术行业企业的高度关注,现已有来自国内外的近400家企业参与到了本次评选活动中,并提交了全面的产品简介和创新点解析。

3380 0
来自: 大数据计算 MaxCompute  版块
|
存储 分布式数据库 Apache
|

E-MapReduce的HBase集群间迁移

E-MapReduce提供HBase服务,本文介绍了几种HBase集群间迁移的方法

3511 0
|
分布式计算 监控 大数据
|

关于举办“天德π客”创业论坛——“基于阿里云的大数据实践—海量日志分析”的通知

随着互联网、云计算、物联网、社交网络等技术的兴起和普及,全球数据的增长快于任何一个时期,可以称作是爆炸性增长。收集大量数据,并在数据中发现趋势,能使企业能够更快、更平稳、更有效地发展。然而,大数据对许多企业和数据专业人员来说,它仍然很难理解,那么,什么是大数据分析?如何利用阿里云数加平台进行海量数据分析,帮助企业更好地利用数据资源?“天德π客”众创空间特举办本期论坛——“基于阿里云的大数据实践——海量日志分析”,邀请华北电力大学电力系统及其自动化博士,阿里云大数据高级认证讲师宋亚奇主讲。

3333 0
来自: 大数据计算 MaxCompute  版块
|
数据采集 弹性计算 监控
|

2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:海量流式视频日志收集》篇

2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:海量流式视频日志收集》篇

3659 0
来自: 大数据计算 MaxCompute  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
67663
内容
128
活动
439481
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务