|
机器学习/深度学习 分布式计算 算法
|

开源深度学习库BigDL在阿里云E-MapReduce上的实践

近些年来机器学习中的子领域深度学习成为一个热门的话题。本文要介绍Intel开源的深度学习框架BigDL,它也是在Spark上的一个算法库,提供了全面的深度学习算法支持,包括数值计算(Tensor)和高阶神经网络等。

7320 0
|
大数据 调度
|

【大数据开发套件调度配置实践】——不同周期任务依赖配置

大数据开发过程中常遇到不同运行周期的任务进行依赖,常见**天任务依赖小时任务**、**小时任务依赖分钟任务**。那么如何通过大数据开发套件开发这两种场景呢? 本文将从这两个场景出发,结合调度依赖/参数/调度执行等,介绍不同周期调度依赖的最佳操作实践。

9280 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Shell MaxCompute
|

PyODPS 安装常见问题解决

10675 2
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 MaxCompute
|

MaxCompute 学习计划(二)

学习MaxCompute SQL和UDF的checklist

9217 0
来自: 大数据计算 MaxCompute  版块
|
资源调度 测试技术 Apache
|

YARN中的CPU资源隔离-CGroups

YARN中集成了CGroups的功能,使得NodeManger可以对container的CPU的资源使用进行控制,比如可以对单个container的CPU使用进行控制,也可以对NodeManger管理的总CPU进行控制。

10273 1
|
大数据 分布式计算 流计算
|

阿里巴巴高级技术专家章剑锋:大数据发展的 8 个要点

章剑锋(简锋),开源界老兵,Apache Member,曾就职于 Hortonworks,目前在阿里巴巴计算平台事业部任高级技术专家,并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ,以及 Apache Pig 的 Committer。

8452 0
来自: 实时计算 Flink  版块
|
SQL 分布式计算 MaxCompute
|

MaxComputeSql性能调优

 转载自xiaorui         部分用户(尤其对外输出)使用MaxCompute(原Odps)时,由于对产品的使用层面和执行层面了解程度不同,导致提交的任务执行时间过长、占用了较多集群资源;严重的会导致失败、不仅需要投入支持同学精力协助解决、也影响了用户正常业务。 合并整理部分性能提升方法方

7683 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 算法
|

Spark中的资源调度

本文对Spark的资源调度的进行了介绍,涉及到4个维度的调度,包括SparkApplication/pool/TaskSetManager/Task。

7860 0
|
分布式数据库 Hbase
|

E-MapReduce的HBase集群使用Hue

E-MapReduce的HBase集群中使用Hue,方便用户访问查询数据

7264 0
|
存储 分布式计算 大数据
|

阿里巴巴大数据实践之数据建模

随着DT时代互联网、智能设备及其他信息技术的发展,数据爆发式增长,如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。 为什么需要数据建模 如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。

7579 0
来自: 大数据计算 MaxCompute  版块
|
流计算 缓存 监控
|

深入了解 Flink 网络栈(二):监控、指标和处理背压

在之前的文章中,我们从高级抽象到底层细节各个层面全面介绍了 Flink 网络栈的工作机制。作为这一系列的第二篇文章,本文将在第一篇的基础上更进一步,主要探讨如何监视与网络相关的指标,从而识别背压等因素带来的影响,或找出吞吐量和延迟的瓶颈所在。

8848 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 并行计算 算法
|

大规模数据的分布式机器学习平台

来自阿里云IDST褚崴为大家带来分布式机器学习平台方面的内容,主要从大数据的特点和潜在价值开始讲起,然后介绍阿里的业务场景中常用到的机器学习算法,以及阿里采用的分布式机器学习框架,最后介绍了PAI算法平台,一起来看下吧。

7203 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 开发工具
|

阿里云大学精品课程:深入理解阿里云数加大数据开发套件Data IDE-基本知识

基于阿里云数加·MaxCompute构建大数据仓库的开发工具利器Data IDE《MaxCompute(原ODPS)开发入门指南——数据开发工具篇》,那么基于Data IDE进行数据开发想必也遇到一些不少的困惑,就自己在培训过程中的一些经验或者说阿里集团内的踩坑之路与大家在此分享,也欢迎拍砖。

7699 0
来自: 大数据计算 MaxCompute  版块
|
算法 数据挖掘 搜索推荐
|

技术论文:电子商务中基于生命阶段的推荐(发表于 ACM KDD2015 )

ACM SIGKDD 国际会议(简称 KDD)是数据挖掘研究领域的顶级盛会,它每年能收到上千篇来自国际知名大学和研究机构的学术论文投稿,这其中仅有一小部分优秀论文可以被接收。2015年5月18日,KDD组委会发布工业和政府相关方向论文的录用消息,阿里巴巴集团搜索事业部推荐团队投稿的论文被录用,表

7004 0
来自: 智能搜索推荐  版块
|
存储 关系型数据库 数据库
|

时序数据库场景下的Elasticsearch(一):技术特点简介

本文介绍了时间序列数据的特点和主流的技术分类,以及Elasticsearch在时序数据库场景下的技术特点。

11646 2
|
机器学习/深度学习 算法框架/工具 网络可视化
|

PAI实现的深度学习网络可视化编辑功能-FastNeuralNetwork

在深度学习领域流传着这样一句话,“一张好的表示图,胜过一千个公式” 本文会介绍如何通过PAI-DSW中的FastNerualNetwork功能实现深度学习网络的可视化编辑。 神经网络最早诞生于生物领域,用来模仿生物大脑复杂的神经元构成,后来人类为了探索大脑是如何思考,通过一层一层的数学公式来模拟大脑分析事物的过程。

7101 0
来自: 人工智能平台PAI  版块
|
负载均衡 微服务 Perl
|

istio网络转发分析

通过demo分析istio的网络转发流程,从而对istio实现原理有更为直观的认识。本文先介绍了涉及到的相关概念和背景知识,然后对具体应用进行分析。背景知识概念分散,参考文章较多,敬请谅解。

8570 0
来自: 智能搜索推荐  版块
|
SQL 新零售 消息中间件
|

Flink: 实时规则引擎助力新零售发展

10430 1
来自: 实时计算 Flink  版块
|
存储 消息中间件 监控
|

Flink: 快速构建统一的实时日志平台

8557 1
来自: 实时计算 Flink  版块
|
SQL 数据可视化 关系型数据库
|

E-MapReduce结合DataV进行数据展现

6576 0
|
机器学习/深度学习 算法 语音技术
|

【玩转数据系列十六】机器学习PAI通过声音分辨男女(含语音特征提取相关数据和代码)

机器学习PAI通过声音数据分辨男女(含语音特征提取相关数据和代码)

8519 1
来自: 人工智能平台PAI  版块
|
分布式计算 监控 大数据
|

【阿里云网站日志分析实践】通过Log Service日志服务导入MaxCompute分析

日志服务收集的日志除了可以被实时查询外,还可以把日志数据投递到大数据计算服务MaxCompute(原ODPS),进一步进行个性化BI分析及数据挖掘。通过日志服务投递日志数据到MaxCompute具有如下优势: 使用非常简单。用户只需要完成2步配置即可以把日志服务Logstore的日志数

6470 0
来自: 大数据计算 MaxCompute  版块
|
流计算 存储 Apache
|

Apache Flink : Checkpoint 原理剖析与应用实践

本文将分享 Flink 中 Checkpoint 的应用实践,包括四个部分,分别是 Checkpoint 与 state 的关系、什么是 state、如何在 Flink 中使用 state 和 Checkpoint 的执行机制

7428 0
|
大数据 云计算
|

阿里云数加合作伙伴-袋鼠云获A轮融资,成立一年半获三轮投资超亿元

创投市场再次风起。2017年7月,袋鼠云宣布,获得来自戈壁创投主投、元璟资本跟投的A轮融资,相对于当前冷淡的投资市场,此举也再次引发了行业对大数据、云计算技术创新企业的关注。据袋鼠云CEO陈吉平(花名:拖雷)介绍,获得的资金将投入到三个方面:数据智能产品研发、高端数据智能人才的引进和培养、袋鼠云品牌打造和市场推广。

7001 0
来自: 大数据计算 MaxCompute  版块
|
大数据 人工智能 存储
|

AI加持的阿里云飞天大数据平台技术揭秘

摘要:2019云栖大会大数据&AI专场,阿里云智能计算平台事业部研究员关涛、资深专家徐晟来为我们分享《AI加持的阿里云飞天大数据平台技术揭秘》。本文主要讲了三大部分,一是原创技术优化+系统融合,打破了数据增长和成本增长的线性关系,二是从云原生大数据平台到全域云数仓,阿里开始从原生系统走入到全域系统模式,三是大数据与AI双生系统,讲如何更好的支撑AI系统以及通过AI系统来优化大数据系统。

9429 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 算法
|

大数据分析平台产品对比之MaxCompute 篇

之前尝试使用过一些国内外的云产品,特别是大数据分析型产品,例如:亚马逊的EMR、Redshift,Google的Bigquery以及阿里云的MaxCompute。相信大多数人对亚马逊的EMR、Redshift,Google的Bigquery都比较了解。

10161 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 调度
|

【8.23更新--技术干货全家桶】大数据计算技术共享计划 — MaxCompute技术公开课第二季

5月底MaxCompute开启大数据计算技术共享计划,第一季,为大数据爱好者和企业客户带来了MaxCompute数据开发实战的四次主题分享,有1500多名用户线上参加了共享季直播。7月24日,MaxCompute开启第二季技术公开课,近6000名大数据爱好者和企业客户参加了第二季的5次主题直播,越来越多的大数据专家、技术牛人、爱好者参与到我们的技术共享活动中来,让我们一起玩大数据如烹小鲜吧。

7213 0
来自: 大数据计算 MaxCompute  版块
|
Java 分布式数据库 Apache
|

HBase ThriftServer Kerberos认证

8570 0
|
数据可视化 数据安全/隐私保护
|

DataV 发布分享 Token 验证

有很多同学希望把 DataV 创建的数据可视化大屏整合到自己的网站中,我们很早就提供了这样的支持。 但是如果限定权限则成为了一个问题。 如你嵌入到自己网站中的大屏,可能不希望被别人提取出来,自己打开。

8366 0
来自: 数据可视化DataV  版块
|
SQL 大数据 BI
|

双11数据大屏背后的秘密:大规模流式增量计算及应用

回顾大数据技术领域大事件,最早可追溯到06年Hadoop的正式启动,而环顾四下,围绕着数据库及数据处理引擎,业内充斥着各种各样的大数据技术。在云栖社区2017在线技术峰会大数据技术峰会上,阿里云大数据计算平台架构师钱正平做了题为《大规模流式增量计算及应用》的分享,钱正平结合阿里巴巴真实的业务场景为大家分享了流式增量计算编程方面的挑战和当前的解决方案。

7009 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 自然语言处理 算法
|

深度学习在锦囊细选上的应用

本文就将lstm用户行为序列预测term的偏好 和 ctr预估相结合做了探索和应用,并在线下和线上取得了正向的效果。

6785 0
来自: 智能搜索推荐  版块
|
SQL 分布式计算 MaxCompute
|

什么是PyODPS DataFrame

这篇文章解释了PyODPS DataFrame是什么,能做什么事情,以及简单介绍一下实现的原理。

7530 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 数据库
|

双管齐下,MaxCompute数据上云与生态

在票选最美云上大数据暨大数据技术峰会上,来自飞天一部的朋春从MaxCompute提供的离线、实时数据通道入手,延伸到DTS、Logstash、DataX等官方/开源软件,向大家介绍如何从数据库、本地文件等多种存储向MaxCompute导入数据,分享最后还介绍了如何在Python和R语言中使用MaxCompute。

7875 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 Java
|

MaxCompute Studio提升UDF和MapReduce开发体验

MaxCompute Studio能为用户开发MaxCompute UDF和MapReduce程序提供支持,提高开发效率。

7183 0
来自: 大数据计算 MaxCompute  版块
|
流计算 存储 监控
|

日均百亿级日志处理:微博基于 Flink 的实时计算平台建设

传统基于 Hadoop 生态的离线数据存储计算方案已在业界形成统一的默契,但受制于离线计算的时效性制约,越来越多的数据应用场景已从离线转为实时。微博广告实时数据平台以此为背景进行设计与构建,目前该系统已支持日均处理日志数量超过百亿,接入产品线、业务日志类型若干。

7952 1
来自: 实时计算 Flink  版块
|
存储 测试技术 索引
|

Cuckoo Hashing的应用及性能优化

Cuckoo Hash Table 使用了两个哈希函数来解决冲突。Cuckoo查询操作的理论复杂度为最差O(1),而Cuckoo的插入复杂度为均摊O(1)。我们引入Cuckoo是希望它在实际应用中,能够在较高的空间利用率下,仍然维持不错的查询性能。

12762 1
来自: 智能搜索推荐  版块
|
数据可视化 计算机视觉 机器学习/深度学习
|

手绘稿如何1秒变身数据大屏?深度学习让人人成为可视化专家

想在1天内快速搞定实时业务数据大屏吗?想用最短路径逆袭成为数据可视化大神吗?想在除了PRD外什么都没有的情况下,体验职场真人版绝境求生吗?

12133 0
来自: 数据可视化DataV  版块
|
SQL 分布式计算 MaxCompute
|

odps之sql性能优化

前一段时间做了一些作业成本优化的工作,这里做下总结。 首先说明本篇中谈及的优化主要的目标是在不大幅度增加作业运行时长的条件下对作业运行成本的优化。 ## 1. odps的优化引擎并没有那么智能 odps自带的优化引擎会对sql作业做一定的优化处理,如列裁剪、分区裁剪和谓词下推。

8707 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 数据挖掘
|

大数据Workshop:《云数据·大计算:海量日志数据分析与应用》环境准备

本手册为阿里云MVP Meetup Workshop之《云计算·大数据:海量日志数据分析与应用》场的前提准备条件所需。

6128 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 大数据
|

MaxCompute(原ODPS)开发入门指南——数据开发工具篇

大家在使用大数据计算服务MaxCompute时,最头疼就是我现在已有的数据如何快速上云?我的日志数据如何采集到MaxCompute上?等等。。。具体详见《MaxCompute(原ODPS)开发入门指南——数据上云篇》。

7843 0
来自: 大数据计算 MaxCompute  版块
|
运维 数据可视化 算法
|

阿里集团搜索中台TisPlus

                        阿里集团搜索中台TisPlus 搜索中台的发展     从阿里很多技术产品的发展路径来看都遵循着技术驱动、产品驱动、数据驱动三个阶段,那阿里巴巴的搜索技术的发展也基本基于上述的发展路径。

9611 1
来自: 智能搜索推荐  版块
|
分布式计算 大数据 测试技术
|

从未停止进化的MaxCompute

2017云栖大会·杭州峰会将于10月10日-14日在杭州云栖小镇隆重举行,据相关数据显示大会多场主题分论坛门票都已经售罄。在这110余场主题分论坛中,可能备受大家最为感兴趣是人工智能、大数据的专场。大数据的热度在深圳峰会、成都峰会、上海峰会都逐一印证。

6481 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 大数据
|

阿里云大数据开发套件 新手不得不面对的问题(持续更新)

概念 大数据开发套件(Data IDE) 是阿里云数加重要的Paas平台产品,是”DataWorks”中最重要的核心组件。提供全面托管的工作流服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。

6665 1
来自: 大数据计算 MaxCompute  版块
|
移动开发 分布式计算 大数据
|

阿里云大数据利器Maxcompute学习之--窗口函数实现分组TopN

看到很多用户经常会问如何对分组内进行排序。官方文档:https://help.aliyun.com/document_detail/34994.html?spm=5176.doc27891.6.611.

7182 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute
|

MaxCompute优化系列-如何使用`MAPJOIN` ?

MAPJOIN 当一个大表和一个或多个小表做JOIN时,最好使用MAPJOIN,性能比普通的JOIN要快很多。 另外,MAPJOIN 还能解决数据倾斜的问题。 MAPJOIN的基本原理是:在小数据量情况下,SQL会将用户指定的小表全部加载到执行JOIN操作的程序的内存中,从而加快JOIN的执行速度。

9701 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 大数据
|

MaxCompute(原ODPS)开发入门指南——计量计费篇

近期介绍大量数据上云用户关于MaxCompute的一些问题,现就MaxCompute产品线的一些工具栈可以和大家进行交流,也欢迎大家拍砖和来扰,一起学习一起进步!也希望能够在帮助到大家!

7245 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 MaxCompute
|

从MapReduce的执行来看如何优化MaxCompute(原ODPS) SQL

SQL基础有这些操作(按照执行顺序来排列): from join(left join, right join, inner join, outer join ,semi join) where group by select sum distinct count order by 如果我们能理解mapreduce是怎么实现这些SQL中的基本操作的,那么我们将很容易理解怎么优化SQL写法。

7150 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute 大数据
|

唱吧基于 MaxCompute 的大数据之路

在使用 MaxCompute之前,唱吧使用自建体系来存储处理各端收集来的日志数据,包括请求访问记录、埋点数据、服务器业务数据等。但随着每天处理数据量的增长,积累的历史数据越来越多,来自其他部门同事的需求越来越复杂,自建体系逐渐暴露出了能力上的短板。

6368 0
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 大数据
|

【大数据新手上路】“零基础”系列课程--Flume收集网站日志数据到MaxCompute

概述:大数据时代,谁掌握了足够的数据,谁就有可能掌握未来,而其中的数据采集就是将来的流动资产积累。 任何规模的企业,每时每刻都在产生大量的数据,但这些数据如何归集、提炼始终是一个困扰。而大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,从中分析和挖掘出有价值的

7192 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 测试技术
|

手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎

最近,经常有客户咨询如何低成本搭建高性能的海量数据搜索引擎,比如实现公众号检索、影讯检索等等。由于客户的数据在阿里云上,所以希望找到云上解决方案。笔者开始调研一些云上产品,很多人向我推荐了OpenSearch,所以花了点时间好好研究了下,用过之后发现效果不错,自带分词、云数据库同步功能,在研究过程中也发现了一些问题,分享给大家。

6748 0
来自: 大数据计算 MaxCompute  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

4
今日
67310
内容
127
活动
439313
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务