MaxCompute如何对SQL查询结果实现分页获取
由于MaxCompute SQL本身不提供类似数据库的select * from table limit x offset y的分页查询逻辑。但是有很多用户希望在一定场景下能够使用获取类似数据库分页的逻辑,对查询结果进行分页/分批获取结果,本文将介绍几种方法,来实现上述场景。
使用ApacheDS对Presto用户进行认证
Presto可以对接LDAP,实现用户密码认证。只需要Coordinator节点对接LDAP即可。主要步骤如下: 1.配置ApacheDS,启用LDAPS 2. 在ApacheDS中创建用户信息 3. 配置Presto Coordinator,重启生效 4. 验证配置
基于MaxCompute的图计算实践分享-Resolver简介
Resolver简介 在学习使用MaxCompute-Graph计算模型时,resolver是一个不容易理解的概念。在MaxCompute帮助文档 https://help.aliyun.com/document_detail/27903.
如何在 Apache Flink 中使用 Python API?
为大家介绍 Flink Python API 的现状及未来规划,主要内容包括:Apache Flink Python API 的前世今生和未来发展;Apache Flink Python API 架构及开发环境搭建;Apache Flink Python API 核心算子介绍及应用。
【直播沉淀】基于阿里云数加MaxCompute的企业大数据仓库架构建设思路
数加大数据直播系列课程,主要以基于阿里云数加MaxCompute的企业大数据仓库架构建设思路为主题,分享阿里巴巴的大数据是怎么演变以及怎样利用大数据技术构建企业级大数据平台。 本次分享嘉宾是来自阿里云大数据的技术专家祎休! 演讲1:背景与总体思路 演讲2:架构及模型设计
Apache Flink 零基础入门(二):开发环境搭建和应用的配置、部署及运行
本文主要面向于初次接触 Flink、或者对 Flink 有了解但是没有实际操作过的同学。希望帮助大家更顺利地上手使用 Flink,并着手相关开发调试工作。
MaxCompute Next
本文PPT来自阿里云大数据计算平台资深架构师林伟于10月15日在2016年杭州云栖大会上发表的《MaxCompute Next》。
iGraph自动化流量预估及大规模数据智能调度
## 引言 iGraph是一个在线图存储和查询服务,从2015年年初正式上线到现在,已经平稳经历了3次双十一大促的历练。这一些长期投入让iGraph赢得了越来越多集团客户的信任,其中包括集团的核心搜索和推荐业务。
基于MaxCompute打造轻盈的人人车移动端数据平台
2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,人人车大数据平台负责人吴水永从人人车数据平台的整体架构、如何基于阿里云打造一个轻盈的数据平台以及人人车企业基于阿里云技术开发的BI数据报表平台等三个方面进行了精彩分享。
开源大数据周刊-第52期
利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制 本文结合EMR集群,讲述了如何利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源quota限制与管控。
DCA公布第七批大数据产品能力评测结果,阿里云MaxCompute超大规模集群引关注
MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。
阿里巴巴大数据产品最新特性介绍 | 2019大数据技术公开课第三季
2019大数据技术公开课第三季将为你带来阿里云飞天大数据平台系列产品的最新特性介绍,四位产品专家,四次主题分享,带你全面了解飞天大数据平台主力产品的最新技术动态。
阿里巴巴大规模应用Flink的踩坑经验:如何大幅降低 HDFS 压力?
众所周知 Flink 是当前广泛使用的计算引擎,Flink 使用 checkpoint 机制进行容错处理[1],Flink 的 checkpoint 会将状态快照备份到分布式存储系统,供后续恢复使用。在 Alibaba 内部我们使用的存储主要是 HDFS,当同一个集群的 Job 到达一定数量后,会对 HDFS 造成非常大的压力,本文将介绍一种大幅度降低 HDFS 压力的方法 -- 小文件合并。
阿里云计算能力实现多项突破 BigBench规模全球首次被拓展至100TB
10月12日,阿里巴巴集团副总裁周靖人在云栖大会上发布了阿里云在大数据计算能力上的新突破:将BigBench数据规模扩展到100T;流计算2.0每秒峰值达千万QPS,整体链路延时亚秒级;E-MapReduce对比同类产品平均性能提升3倍。
Flink 实战:如何解决应用中的技术难题?
倒计时 5 天!4月25-26日,全球首个 Apache 顶级项目在线会议 Flink Forward 精华版即将重磅开启。 Flink Forward 全球在线会议精华版均为中文直播,核心内容分为 Keynote 与社区投票的最感兴趣的 talk 两部分,由 Apache Flink 核心贡献者们对原版英文 talk 进行翻译及解说,您可直接免费在线观看。
阿里重磅开源全球首个批流一体机器学习平台Alink,Blink功能已全部贡献至Flink
11月28日,Flink Forward Asia 2019 在北京国家会议中心召开,阿里在会上发布Flink 1.10版本功能前瞻,同时宣布基于Flink的机器学习算法平台Alink正式开源,这也是全球首个批流一体的算法平台,旨在降低算法开发门槛,帮助开发者掌握机器学习的生命全周期。
Spark中的内存管理(一)
Spark应用经常遇到的问题很多都是内存问题,本文对Driver和Executor的内存管理机制进行了相关介绍。
全新一代人工智能计算引擎MaxCompute杭州开服,强化阿里云大数据能力,比肩谷歌微软
3月22日,阿里云将正式开服售卖华东1(杭州)节点的大数据计算服务MaxCompute,以进一步提升对华东区域客户服务的响应速度,推动杭州大数据、人工智能产业的加速发展。
【阿里云MVP第五期】阿里云赵弘扬:基于Elasticsearch构建网站日志处理系统
本文节选自阿里云MVP第五期嘉宾阿里云产品专家赵弘扬分享话题《基于Elasticsearch构建网站日志处理系统》。介绍如何基于阿里云的Elasticsearch,离线数仓加工工具,数据同步工具等产品来快速构建日志处理系统。
解决MaxCompute SQL count distinct多个字段的方法
按照惯性思维,统计一个字段去重后的条数我们的sql写起来如下: Distinct的作用是用于从指定集合中消除重复的元组,经常和count搭档工作,语法如下 COUNT( { [ DISTINCT ] expression ] | * } ) 这时,可能会碰到如下情况,你想统计同时有多列字段重复的数目,你可能会立马想到如下方法: select count( distinct col1 , col2 , col3 , .......) from table 但是,这样是有问题的,如果值包含空,那么我们的结果是什么呢?如果你实验过,正如你实验的一样,结果会比实际少。
开源大数据周刊-第56期
阿里云E-Mapreduce实践: 使用hadoop restful api实现对集群信息的统计 资讯 全球因Hadoop服务器配置不当导致的数据泄露或达5120TB 网络犯罪分子近期开始针对配置不当的 Hadoop Clusters 与 CouchDB 服务器展开攻击活动。
采云间DPC迁移方案实施计划
迁移计划概述: 第一阶段:前期沟通&准备 1、 请先熟悉Dataworks的相关操作,比如节点的新增、执行、调度运维等相关操作; 2、 本次迁移只把用户在采云间里面的任务迁移到DataWorks里面,需要用户提前确认采云间用到的odps项目在DataWorks中是否已经创建且可用;如果用户
开源大数据周刊-第26期
云栖社区开源大数据专题回顾、后Hadoop时代圆桌讨论、Hadoop上云的冰与火、Flink的未来、城市大脑、大数据时代几个关键问题剖析
数据科学老司机在线开车系列: 如何自己训练一个热狗识别模型
前情提要 美剧《硅谷》大家想必都没怎么看过,大家可能都不知道人工智能识别热狗曾是硅谷最赚钱的技术之一。去年 HBO 发布了官方的 Not Hotdog 应用,支持 iOS 和 Android 平台,据说是用 TensorFlow、Keras 和 React Native 打造的,但是源码没有公开。
阿里巴巴搜索在离线统一调度
1. 发展历程 Hippo是搜索事业部调度系统团队自研的支撑集团内外多个BU搜索与推荐体系和阿里云上Opensearch/ES等的调度系统,经过了5年的快速发展,提供了可靠、简单、低成本的资源及应用托管方案,通过自动化运维、机器合池、智能弹性调度、混部和在离线统一调度等手段解决成本和效率的问题。
(ElasticsSearch学习)歌词检索Demo的实现:一. 爬取歌词信息,写入ES
一个ElasticSearchDemo,讲解如何使用Jsoup爬取歌词数据写入阿里云Elasticsearch,并搭建Web框架实现歌词的全文检索。
昨日广州云栖“大算”受追捧,今日揭秘阿里双11技术核武器MaxCompute,感恩节再放福利!(活动已结束)
MaxCompute感谢最最亲爱的客户,感谢您信任的将我选择,感谢您期待的将未来托付,更感谢您包容的与我比肩同行。感恩不应只在今天说出,而是在有你们支持走过的每一天。为亲爱的客户们奉上载满MaxCompute团队伙伴们感恩和祝福的话儿 “感恩有你,一路同行”。(文末有福利哦~)
当大数据邂逅酷暑,谁的热度更高?— 大数据计算杭州峰会圆满落幕
今夏,什么最热?世界杯。。。 除了世界杯还有什么热?杭州的天气。。。 当杭州酷暑遇上大数据,哪个更热? 先不答,往下看。 众所周知,计算的价值绝不止于计算本身,而是让不会说话的数据发声。 从玛雅历法到圆周率,从万有引力定律到二进制,从固化的物体到虚拟的思维都由数据注入。
美团点评基于 Flink 的实时数仓平台实践
数据仓库的建设是“数据智能”必不可少的一环,也是大规模数据应用中必然面临的挑战,而 Flink 实时数仓在数据链路中扮演着极为重要的角色。本文中,美团点评高级技术专家鲁昊为大家分享了美团点评基于 Apache Flink 的实时数仓平台实践。
带你玩转Logview: MaxCompute Logview参数详解和问题排查
对于Logview上的诸多参数信息,究竟应该怎么“拨开云雾”,发现问题所在呢?又如何通过Logview了解每个instance、task运行状态及资源占用情况,如何分析执行计划,分析query存在问题,找到Long-Tails task,让数据分析业务高效又省钱呢?本文中,阿里巴巴计算平台产品专家云花将为大家揭晓答案。
借助Beats快速搭建可视化运维系统
本例实现了一个对个人PC的可视化运维dashboard。拓展至N个节点的集群也同理可以实现。对于个人或者企业而言,约等于0成本的对接,将一步迈入可视化运维监控的阶段。
PAI智能答疑机器人上线啦
随着人工智能相关产业的持续火热,越来越多的同学开始尝试使用机器学习算法去解决问题。阿里云机器学习PAI平台作为人工智能行业的黑产物,每天都会收到用户们大量的咨询。为了更好地服务PAI平台的用户,同时也为了缓解售后同学的工作量。
用炸弹开路——加速到来的证券投资行业人工智能时代
去年开始涉足人工智能技术应用于证券投资领域的研究,将近两年的研究实践,发现公开资料上很多关于人工智能(AI)对证券投资业发展影响的文章都存在几个明显的思维误区:①一个是对人工智能的认识有误。人工智能是个广域笼统的概念,但基石是机器学习,以机器学习算法构建逻辑和规则为基石的人工智能与自动化程序软件及通过数据回测构建起来的以固定逻辑运行的量化投资模型是完全不同的事物,区别就好比活鸡和模型鸡,需要明白自动化软件不是人工智能,国内大多数所谓智能投顾其实还不是真正意义上的人工智能投顾;②另一个是曲解了人工智能在证券投资行业的应用。
E-MapReduce的Presto组件默认支持访问oss数据
阿里云E-MapReduce从EMR-2.1.0版本镜像开始,Presto组件默认就支持访问oss数据了,不再需要引导操作额外支持。
Apache Flink 进阶(三):Checkpoint 原理解析与应用实践
大家好,今天我将跟大家分享一下 Flink 里面的 Checkpoint,共分为四个部分。首先讲一下 Checkpoint 与 state 的关系,然后介绍什么是 state,第三部分介绍如何在 Flink 中使用state,第四部分则介绍 Checkpoint 的执行机制。
Alibaba Cloud MaxCompute to Be Available in Indonesia Which Will Serve as the 12th Global Data Region
On February 9, 2018, Alibaba Cloud MaxCompute will be officially available in Jakarta. By then, Indonesia will be the 12th region in MaxCompute global.
Ververica Platform-阿里巴巴全新Flink企业版揭秘
本文主要从Ververica由来开始谈起,着重讲了Ververica Platform的四个核心插件App Manager、Libra Service、Stream Ledger、Gemini,以及阿里巴巴实时计算云原生版本相关特性及典型应用场景。
Apache Flink 零基础入门(四):客户端操作的 5 种模式
本文主要分享 Flink 的 5 种任务提交的方式。熟练掌握各种任务提交方式,有利于提高我们日常的开发和运维效率。
云端大规模视频分析: MaxCompute在视觉计算中的应用
本文PPT来自阿里云iDST视觉计算技术专家慕开于10月15日在2016年杭州云栖大会上发表的《云端大规模视频分析:MaxCompute在视觉计算中的应用》。
通过Gateway访问Presto
本文介绍使用HAProxy反向代理实现通过Gateway节点访问Presto服务的方法。该方法也很容扩展到其他组件,如Impala等。
为什么要写技术文章-我对写作收获的理解
为了迎接更好的自己。 过去的止步不前 程序员最反感别人没写文档,最不喜欢自己写文档。 我一直很认同技术人员应该持续写技术文章,可以总结经验,打造个人品牌,等等。但加上公司内部分享,实际也没写多少篇,这可能也是很多技术人员的通病吧。
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。