E-MapReduce集群使用Oozie工作流简单示例

本文简单介绍了,如何在E-MapReduce上提交Oozie workflow job。提供了可以直接下载运行的示例代码,欢迎使用。

3111 0
|
机器学习/深度学习 SQL 人工智能
|

阿里重磅开源全球首个批流一体机器学习平台Alink,Blink功能已全部贡献至Flink

11月28日,Flink Forward Asia 2019 在北京国家会议中心召开,阿里在会上发布Flink 1.10版本功能前瞻,同时宣布基于Flink的机器学习算法平台Alink正式开源,这也是全球首个批流一体的算法平台,旨在降低算法开发门槛,帮助开发者掌握机器学习的生命全周期。

3940 0
来自: 实时计算 Flink  版块
|
网络协议 Linux 分布式数据库
|

TCP的backlog导致的HBase超时问题排查

TCP的backlog导致的超时问题排查

3047 0
|
存储 监控 关系型数据库
|

MaxCompute帮助创业公司中减轻MySQL存储压力

从0到1 在我们公司初创的时候,组齐了三人的团队就开始做产品研发。当时整条业务线的东西都需要我们自己写,要在短时间内把东西做出来,效率是非常关键的。 我们的产品模式本身其实是需要验证的。创业有很多不确定性,在上线之前没人能知道,我们的一个项目究竟能达到多大的规模,能做到什么样。

3127 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 MaxCompute
|

解决MaxCompute SQL count distinct多个字段的方法

按照惯性思维,统计一个字段去重后的条数我们的sql写起来如下: Distinct的作用是用于从指定集合中消除重复的元组,经常和count搭档工作,语法如下 COUNT( { [ DISTINCT ] expression ] | * } ) 这时,可能会碰到如下情况,你想统计同时有多列字段重复的数目,你可能会立马想到如下方法: select count( distinct col1 , col2 , col3 , .......) from table 但是,这样是有问题的,如果值包含空,那么我们的结果是什么呢?如果你实验过,正如你实验的一样,结果会比实际少。

5630 0
来自: 大数据计算 MaxCompute  版块
|
存储 API 调度
|

Mars 如何分布式地执行

先前,我们已经介绍过 Mars 是什么。如今 Mars 已在 Github 开源并对内上线试用,本文将介绍 Mars 已实现的分布式执行架构,欢迎大家提出意见。 架构 Mars 提供了一套分布式执行 Tensor 的库。

3351 0
来自: 大数据计算 MaxCompute  版块
|
流计算 API 存储
|

Apache Flink 零基础入门(五):流处理核心组件 Time&Window 深度解析

为什么要有 Window; Window 中的三个核心组件:WindowAssigner、Trigger 和 Evictor;Window 中怎么处理乱序数据,乱序数据是否允许延迟,以及怎么处理迟到的数据;最后我们梳理了整个 Window 的数据流程,以及 Window 中怎么保证 Exactly

4455 0
来自: 实时计算 Flink  版块
|
分布式计算 大数据 MaxCompute
|

操作系统顶级会议SOSP 阿里云MaxCompute开启NewSQL时代

  近日,第26届操作系统原理大会(SOSP)在上海举行,来自亚洲、欧洲、北美等地区的高校、学术机构和众多科技企业研究人员齐聚一堂。阿里巴巴受邀参加此次会议,除在展区展示系统软件技术的同时,阿里集团副总裁周靖人在BOF环节向参会人员介绍了阿里在数据库、计算、机器学习、网络等领域的多项重点技术。

3548 0
来自: 大数据计算 MaxCompute  版块
|
资源调度 网络性能优化 调度
|

阿里巴巴搜索在离线统一调度

1. 发展历程         Hippo是搜索事业部调度系统团队自研的支撑集团内外多个BU搜索与推荐体系和阿里云上Opensearch/ES等的调度系统,经过了5年的快速发展,提供了可靠、简单、低成本的资源及应用托管方案,通过自动化运维、机器合池、智能弹性调度、混部和在离线统一调度等手段解决成本和效率的问题。

5019 0
来自: 智能搜索推荐  版块
|
分布式计算 搜索推荐 大数据
|

融合大数据能力,解决在存量时代下的力分之困

上月,有微博爆料逻辑思维计划在2018年提交IPO申请,2019年底前创业板上市。虽然很快罗振宇方面就出面否认,但从近日阿里应用分发发布的2017年Q2应用行业报告显示,5家知识付费平台同比增长率均在50%以上,目前用户已达到5000万,知识付费正处于高速增长中。

2749 0
来自: 大数据计算 MaxCompute  版块
|
存储 SQL 消息中间件
|

美团点评基于 Flink 的实时数仓平台实践

数据仓库的建设是“数据智能”必不可少的一环,也是大规模数据应用中必然面临的挑战,而 Flink 实时数仓在数据链路中扮演着极为重要的角色。本文中,美团点评高级技术专家鲁昊为大家分享了美团点评基于 Apache Flink 的实时数仓平台实践。

5169 0
来自: 实时计算 Flink  版块
|
消息中间件 数据采集 分布式计算
|

在 Cloudera Data Flow 上运行你的第一个 Flink 例子

本文主要是介绍如何在 CDH6.3 中安装 Flink 1.9 以及运行你的第一个 Flink 例子。

2910 0
来自: 实时计算 Flink  版块
|
监控 安全 大数据
|

阿里云Elasticsearch11月2日正式商业化,双十一大促最低5折

阿里云Elasticsearch是阿里云和Elasticsearch开源公司Elasitc联合打造的重磅产品,经过了2个月的公测锤炼,已于11月2日正式商业化。我们决定在双十一期间(11月10日~11日)以最低5折的产品优惠回馈广大用户。

2868 0
|
分布式计算 安全 大数据
|

开源大数据周刊-第46期

2607 0
|
机器学习/深度学习 人工智能 分布式计算
|

用炸弹开路——加速到来的证券投资行业人工智能时代

去年开始涉足人工智能技术应用于证券投资领域的研究,将近两年的研究实践,发现公开资料上很多关于人工智能(AI)对证券投资业发展影响的文章都存在几个明显的思维误区:①一个是对人工智能的认识有误。人工智能是个广域笼统的概念,但基石是机器学习,以机器学习算法构建逻辑和规则为基石的人工智能与自动化程序软件及通过数据回测构建起来的以固定逻辑运行的量化投资模型是完全不同的事物,区别就好比活鸡和模型鸡,需要明白自动化软件不是人工智能,国内大多数所谓智能投顾其实还不是真正意义上的人工智能投顾;②另一个是曲解了人工智能在证券投资行业的应用。

2741 0
来自: 大数据计算 MaxCompute  版块
|
流计算 资源调度 Java
|

Apache Flink 零基础入门(四):客户端操作的 5 种模式

本文主要分享 Flink 的 5 种任务提交的方式。熟练掌握各种任务提交方式,有利于提高我们日常的开发和运维效率。

7075 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 人工智能 算法
|

人工智能居然会模仿人类品酒

《机器学习实践应用》作者傲海,手把手带领大家在机器学习PAI上,体验各种酒的口感,完成整个机器“品酒”的过程,内容包含:如何上传数据、如何做数据预处理、如何分类、如何评估四个部分,全程在线实操,并产出结果。

2613 0
来自: 大数据计算 MaxCompute  版块
|
数据可视化
|

分享你的花样DataV

投稿你与DataV的“爱恨情仇”就有机会获得丰富的奖品!

5200 0
来自: 数据可视化DataV  版块
|
机器学习/深度学习 存储 算法
|

追求极致的AI·OS——AI·OS引擎平台

6195 0
来自: 智能搜索推荐  版块
|
SQL 大数据 测试技术
|

blink测试技术介绍

blink测试团队成立一年多的时间,从无到有,逐步建立起完整的blink测试体系,从代码质量到集成测试再到预发测试,全方位保障blink质量,取得了显著的成果。

4178 0
来自: 实时计算 Flink  版块
|
算法 大数据 测试技术
|

京信通信:数据智能为生产调试“增效瘦身”

“数据驱动测试优化,突破自动测试边界,赋能智慧测试新模式。”——京信智能制造副总经理葛鑫 “进入车间,映入眼帘的是一条长约20 米的 O 型生产线,产线前三名工人和几个机器人正协同工作,将各种元器件的印刷线路板(PCBA 板)与产品壳体组装起来。

2652 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 测试技术
|

扩展Spark Catalyst,打造自定义的Spark SQL引擎

在Spark2.2版本中,引入了新的扩展点,使得用户可以在Spark session中自定义自己的parser,analyzer,optimizer以及physical planning stragegy rule。

4489 0
|
流计算 SQL HIVE
|

小红书如何实现高效推荐?解密背后的大数据计算平台架构

小红书作为生活分享类社区,目前有8500万用户,年同比增长为300%,大约每天有30亿条笔记在发现首页进行展示。推荐是小红书非常核心且重要的场景之一,本文主要分享在推荐业务场景中小红书的实时计算应用。

9203 0
来自: 实时计算 Flink  版块
|
大数据
|

国庆宅在家?不如来玩玩阿里云大数据产品系列教程~

爱学习的你的国庆最佳选择

2618 1
来自: 大数据计算 MaxCompute  版块
|
城市大脑 监控 算法
|

阿里云双11访谈之数据智能

在阿里云双11访谈之数据智能专场中,阿里云交互设计师梓铭、阿里云人工智能资深产品运营席嘉和阿里云DataV资深产品运营苇如为大家简单分享了数据智能的应用,介绍了阿里云新近发布的产品ET城市大脑以及它所用到的技术支撑和在其他领域的应用,最后还介绍了双11的具体优惠活动。

2582 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Shell MaxCompute
|

如何制作可以在 MaxCompute 上使用的 crcmod

之前我们介绍过在 PyODPS DataFrame 中使用三方包。对于二进制包而言,MaxCompute 要求使用包名包含 cp27-cp27m 的 Wheel 包。但对于部分长时间未更新的包,例如 oss2 依赖的 crcmod,PyPI 并未提供 Wheel 包,因而需要自行打包。

3407 0
来自: 大数据计算 MaxCompute  版块
|
资源调度 分布式计算 大数据
|

面向大数据与云计算调度挑战的阿里经济体核心调度系统—Fuxi 2.0全揭秘

随阿里经济体和阿里云丰富的业务需求(尤其是双十一)和磨练,伏羲的内涵不断扩大,从单一的资源调度器(对标开源系统的YARN)扩展成大数据的核心调度服务,覆盖数据调度(Data Placement)、资源调度(Resouce Management)、计算调度(Application Manager)、和本地微(自治)调度(即正文中的单机调度)等多个领域,并在每一个细分领域致力于打造超越业界主流的差异化能力。

4172 1
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute SQL
|

MaxCompute 最新特性介绍2019年8月版

距离上一次MaxCompute新功能的线上发布已经过去了大约一个季度的时间,而在这一段时间里,MaxCompute不断地在增加新的功能和特性,比如参数化视图、UDF支持动态参数、支持分区裁剪、生成建表DDL语句功能等功能都已经得到了广大开发者的广泛使用。

3011 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute Java
|

这样才能正确解锁MaxCompute客户端

飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。

3819 0
来自: 大数据计算 MaxCompute  版块
|
新零售 人工智能 分布式计算
|

赋能数据处理能力 阿里云MaxCompute助企业洞察市场

阿里云在上月中,就将MaxCompute大数据计算服务向香港市场开放上线,此前该服务已先后于中国大陆及新加坡推出。 阿里巴巴集团旗下电子商务平台最大特点及优势,在于其平台上的人工智能及大数据处理能力,可以洞察消费者的需要,并因不同人的偏好而提供个性化设定,大大提升消费者体验,并可为商家反馈重要的市场数据,从而精准去计划市场策略。

2215 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 新零售 人工智能
|

阿里云机器学习PAI征文大赛正式启动

征文大赛奖品丰厚

2478 0
来自: 人工智能平台PAI  版块
|
流计算 API SQL
|

修改代码150万行!与 Blink 合并后的 Apache Flink 1.9.0 究竟有哪些重大变更?

早在今年1月,阿里便宣布将内部过去几年打磨的大数据处理引擎 Blink 进行开源并向 Apache Flink 贡献代码。Flink 1.9.0 版本在结构上有重大变更,修改代码达 150 万行,本文将梳理 Flink 1.9.0 中非常值得关注的重大变更与新增功能特性。

4553 0
来自: 实时计算 Flink  版块
|
流计算 API Scala
|

Flink SQL 系列 | 5 个 TableEnvironment 我该用哪个?

本文为 Flink SQL 系列文章的第二篇,前面对 Flink 1.9 Table 新架构及 Planner 的使用进行了详细说明,本文详细讲解 5 个 TableEnvironment 及其适用场景,并介绍 Flink 社区对 TableEnvironment 的未来规划。

5869 1
来自: 实时计算 Flink  版块
|
分布式计算 DataWorks TensorFlow
|

MaxCompute Mars 完全指南

Mars 能利用并行和分布式技术,加速 Python 数据科学栈,包括 numpy、pandas 和 scikit-learn。同时,也能轻松与 TensorFlow、PyTorch 和 XGBoost 集成。

4041 0
来自: 大数据计算 MaxCompute  版块
|
算法
|

ALS算法实现用户音乐打分预测

很多人在决定是否看一部电影之前都会去豆瓣看下评分作为参考,看完电影也会给一个自己的分数。每个人对每个商品或者电影或是音乐都有一个心理的分数,这个分数标明用户是否对这个内容满意。作为内容的提供方,如果可以预测出每个用户对于内容的心理分数,就能更好的理解用户,并给用户提供好的内容推荐。

3761 2
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 存储 人工智能
|

揭秘工业级大规模GNN图采样

互联网下的图数据纷繁复杂且规模庞大,如何将GNN应用于如此复杂的数据上呢?答案是图采样。结合阿里巴巴开源的GNN框架Graph-Learn(https://github.com/alibaba/graph-learn),本文重点介绍GNN训练过程中的各种图采样和负采样技术。

3539 0
来自: 人工智能平台PAI  版块
|
SQL 消息中间件 存储
|

小米流式平台架构演进与实践

小米业务线众多,从信息流,电商,广告到金融等覆盖了众多领域,小米流式平台为小米集团各业务提供一体化的流式数据解决方案,主要包括数据采集,数据集成和流式计算三个模块。目前每天数据量达到 1.2 万亿条,实时同步任务 1.5 万,实时计算的数据 1 万亿条。

2598 0
来自: 实时计算 Flink  版块
|
存储 消息中间件 人工智能
|

开源大数据周刊-第51期

2280 0
|
算法 搜索推荐 Python
|

Graphical Model在收藏夹作弊行为识别上的应用

Graphical Model通常应用在问题本身带有多个相互联系的变量的场景,并提供了一种基于图的表达方式让你去建模这些联系从而挖掘潜在的因果关系。在本文中,我们创新性地将概率图模型应用到了淘宝平台收藏作弊行为检测的任务中,取得了远超传统分类模型的结果(Top1%记录中召回60%的作弊行为)。

2584 0
来自: 智能搜索推荐  版块
|
SQL Kubernetes Java
|

102万行代码,1270 个问题,Flink 新版发布了什么?(附最佳实践电子书)

2 月 12 日,Apache Flink 1.10.0 正式发布,在 Flink 的第一个双位数版本中正式完成了 Blink 向 Flink 的合并。在此基础之上,Flink 1.10 版本在生产可用性、功能、性能上都有大幅提升。本文将详细为大家介绍该版本的重大变更与新增特性。

2237 0
来自: 实时计算 Flink  版块
|
SQL 存储 分布式计算
|

使用Relational Cache加速EMR Spark数据分析

Relational Cache的强大功能赋予了Spark更多的可能,通过Relational Cache,用户可以提前将任意关系型数据(Table/View/Dataset)cache到任意Spark支持的DataSource中,并支持灵活的cache数据组织方式,基于此,Relational Cache可以在诸多应用场景中帮助用户加速Spark数据分析。

3428 0
|
分布式计算 云计算 MaxCompute
|

【转载】刚刚又传来好消息,硬核!新一代大国重器!MaxCompute

作者:杨国英 十年前,马云、马化腾和李彦宏坐在一起开会聊起它,马化腾说为时过早,李彦宏说没有新意,只有马云说,如果我们不做,将来会死掉!为了做它,整个公司几乎吵到分裂! 然而十年后的今天,它已经成为新一代大国重器,中国最硬核的技术,与美国巨头抗衡的唯一中国力量。

2557 0
来自: 大数据计算 MaxCompute  版块
|
消息中间件 分布式计算 监控
|

日志数据如何同步到MaxCompute

日常工作中,企业需要将通过ECS、容器、移动端、开源软件、网站服务、JS等接入的实时日志数据进行应用开发。包括对日志实时查询与分析、采集与消费、数据清洗与流计算、数据仓库对接等场景。本次分享主要介绍日志数据如何同步到MaxCompute。

3691 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 Web App开发 人工智能
|

开源大数据周刊-第43期

阿里云E-MapReduce动态 E-MapReduce发布新版本,可以在控制台管理meta表结构。 资讯 人脸识别,要靠哪些技术支撑,是否会泄露个人隐私? 本文介绍人脸识别用到哪些技术,讨论如何保护用户隐私 一图看懂AI阵营:学习AI 站错队可导致自取灭亡 本文介绍现在AI技术阵营,对AI各流派进行细分,梳理了17种方法,并用 图直观展现。

1873 0
|
机器学习/深度学习 分布式计算 自然语言处理
|

【译】Spark NLP使用入门

原文链接: [https://www.kdnuggets.com/2019/06/spark-nlp-getting-started-with-worlds-most-widely-used-nlp-library-enterprise.html) 译者:辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。

4206 0
|
SQL 容器 流计算
|

Apache Flink 零基础入门(八): SQL 编程实践

本文是 Apache Flink 零基础入门系列文章第八篇,将通过五个实例讲解 Flink SQL 的编程实践。

4159 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 存储 监控
|

开源大数据周刊-2018年07月13日 第93期

开源大数据周刊-2018年07月13日 第93期

1863 0