|
分布式计算 Hadoop 分布式数据库
|

阿里封神谈hadoop生态学习之路

在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop、hive、spark等。笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1、ODPS等项目,目前base在E-Mapreduce。在这,笔者尽可能梳理下hadoop的学习之路。

50602 13
|
机器学习/深度学习 算法 对象存储
|

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

伴随着今日阿里云机器学习PAI在云栖大会的重磅发布,快来感受下人工智能的魅力。 一、背景 随着互联网的发展,产生了大量的图片以及语音数据,如何对这部分非结构化数据行之有效的利用起来,一直是困扰数据挖掘工程师的一到难题。

50383 63
来自: 人工智能平台PAI  版块
|
SQL 算法 安全
|

odps是什么?

ODPS(Open Data Processing Service),原是阿里云从 09年开始自研的大规模批量计算引擎,2016 年更名为MaxCompute。2022云栖大会上,阿里云ODPS全新升级为一体化大数据平台,存储、调度、元数据一体化融合 ,从 Processing 升级为 Platform,即 Open Data Platform and Service。提供了离线计算、实时交互式分析、机器学习等可扩展的智能计算引擎,满足用户多元化数据计算需求。

77820 12
来自: 大数据计算 MaxCompute  版块
|
消息中间件 存储 供应链
|

数据仓库介绍与实时数仓案例

1.数据仓库简介 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

44863 237
来自: 实时计算 Flink  版块
|
分布式计算 算法 大数据
|

分布式快照算法: Chandy-Lamport

Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照(Distributed Snapshot)算法 Chandy-Lamport 算法,那么分布式快照算法可以用来解决什么问题呢?

24175 70
|
分布式计算 MaxCompute
|

MaxCompute执行作业慢的原因排查

大家在平时开发过程中经常遇到作业(SQL、MR等)执行慢的原因,今天带大家一起学习自排查方法。 1、wait wait ,job querying 遇到这个提示,就是资源出现了排队,如果你是后付费用户,那就是整个后付费的共享池已经没有富余的资源了,要等前一个作业处理完。

25105 4
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 BI
|

阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能

目前阿里云大数据产品已经免费向全部用户开放了多种公用数据集。开放的数据类别包括:股票价格数据,房产信息,影视及其票房数据。

25659 6
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 TensorFlow 算法框架/工具
|

【玩转数据系列十五】机器学习PAI为你自动写歌词,妈妈再也不用担心我的freestyle了(提供数据、代码)

背景 最近互联网上出现一个热词就是“freestyle”,源于一个比拼rap的综艺节目。在节目中需要大量考验选手的freestyle能力,freestyle指的是rapper即兴的根据一段主题讲一串rap。

21092 3
来自: 人工智能平台PAI  版块
|
人工智能 算法框架/工具 流计算
|

独家专访阿里集团副总裁贾扬清:我为什么选择加入阿里巴巴?

在这次访谈中,贾扬清向我们透露了他加入阿里的原因,并对他目前在阿里主要负责的工作做了详细说明,他不仅回顾了过去 6 年 AI 框架领域发生的变化,也分享了自己对于 AI 领域现状的观察和对未来发展的思考。结合自己的经验,贾扬清也给出了一些针对 AI 方向选择和个人职业发展的建议,对于 AI 从业者来

18141 2
来自: 实时计算 Flink  版块
|
弹性计算 分布式计算 Hadoop
|

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

 想用阿里云数加·大数据计算服务(MaxCompute),但是现在数据还在hadoop上,怎么办?   别烦恼,跟着我们走,来一次MaxCompute零基础数据迁移之旅~Let’s Go!

16030 0
来自: 大数据计算 MaxCompute  版块
|
数据采集 分布式计算 监控
|

阿里数据仓库实践分享

数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

16183 1
来自: 大数据计算 MaxCompute  版块
|
算法 搜索推荐 前端开发
|

搜索双链路实时计算体系@双11实战

该文章来自阿里巴巴技术协会(ATA)精选集  0. 前言 何为双链路实时计算体系?微观实时计算链路 a) 最细粒度商品/店铺/用户数据的实时 b) 底层模型的实时宏观实时计算链路 相比微观实时,宏观实时的对象粒度更粗,更上层 a) 以实时效果为目标,基于bandit learning的实

16224 0
来自: 智能搜索推荐  版块
|
机器学习/深度学习 自然语言处理 算法
|

DL应用:query生成和query推荐

引言  在机器翻译、图片描述、语义蕴涵、语音识别和文本摘要中,序列到序列的问题已经有太多大牛研究了,也取得了很多突破。谷歌的Attention is all you need[1],舍弃并超越了主流的rnn与cnn序列建模框架,刷出了新的state of the art,这种大胆创新的精神值得我们学习。

16255 1
来自: 智能搜索推荐  版块
|
机器学习/深度学习 人工智能 算法
|

阿里巴巴机器学习系列课程

亲爱的同学们,福利来临!随着机器学习领域的发展越来越火,阿里云机器学习PAI为广大机器学习爱好的学生提供免费的一站式算法平台,该平台提供上百种算法,并且兼容TensorFlow、Caffe、MXNET等深度学习框架,学生们还可以免费使用M40 GPU卡,这么好的福利到哪里去领呢? 点击开通机器学习PAI:https://data.

16156 4
来自: 人工智能平台PAI  版块

PyODPS DataFrame 处理笛卡尔积的几种方式

PyODPS 提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理,本文主要介绍如何使用 PyODPS 执行笛卡尔积的操作。 笛卡尔积最常出现的场景是两两之间需要比较或者运算。

13697 0
来自: 大数据计算 MaxCompute  版块
|
流计算 Apache
|

接着!!Apache Flink 全领域干货合集(持续更新)

Apache Flink 下一代开源大数据计算引擎, 可对有限数据流和无限数据流进行有状态计算,可部署在各种集群环境,对各种大小的数据规模进行快速计算。Flink 1.9.0 发布,在批流融合与功能特性上有重大更新,本专题将持续更新新增特性的具体说明及全领域干货。

16934 0
来自: 实时计算 Flink  版块
|
分布式计算 大数据 Hadoop
|

比自建 Hadoop 还便宜!云栖大会揭秘阿里云数加 MaxCompute

DT时代,越来越多的企业应用数据步入云端。 Hadoop是当下流行的大数据并行计算体系,横向扩展、生态圈成熟等一直是它的主要特点。 阿里云数加MaxCompute (原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。

12413 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 算法 搜索推荐
|

基于对象特征的推荐

(本实验选用数据为真实电商脱敏数据,仅用于学习,请勿商用) 在上一期基于协同过滤的的推荐场景中,我们介绍了如何通过PAI快速搭建一个基于协同过滤方案的推荐系统,这一节会介绍一些如何基于推荐对象特征的推荐方法。

12025 1
来自: 人工智能平台PAI  版块
|
SQL 分布式计算 大数据
|

高可用大数据计算服务如何持续发布和演进

票选最美云上大数据暨大数据技术峰会上,阿里云飞天一部计算平台高级专家无庸为大家带来题为“高可用大数据计算服务如何持续发布和演进”的演讲。本文先对MaxCompute架构进行了介绍,接着重点介绍在大数据计算服务下,高可用服务持续改进和发布的工具,包括Playback工具、Flighting工具和灰度上线、细粒度回滚等。

11199 1
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 大数据
|

iphoneX都面世了,你的数据仓库还停留在诺基亚时代吗?

    刚刚过去的苹果秋季发布会上,万众瞩目的iPhoneX 手机亮相。十年前,首代iPhone开启了颠覆键盘功能机的序幕,十年过去了,智能触屏手机已经彻底普及。     关注个人智能手机升级的IT人士,是否也了解你的企业数仓有没有跟上潮流趋势呢?是否升级到弹性分布式系统。

10337 2
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 搜索推荐 算法
|

【玩转数据系列四】听说啤酒和尿布很配?本期教你用协同过滤做推荐

数据挖掘的一个经典案例就是尿布与啤酒的例子。尿布与啤酒看似毫不相关的两种产品,但是当超市将两种产品放到相邻货架销售的时候,会大大提高两者销量。很多时候看似不相关的两种产品,却会存在这某种神秘的隐含关系,获取这种关系将会对提高销售额起到推动作用,然而有时这种关联是很难通过理性的分析得到的。这时候我们需

15261 2
来自: 人工智能平台PAI  版块
|
算法 搜索推荐 双11
|

实时离线平台Pora介绍@2015

11846 2
来自: 智能搜索推荐  版块
|
分布式计算 数据可视化 Java
|

原来MaxCompute还能这么玩系列(1)—— 通过Apache Zeppelin 快速实现数据可视化

通过简单的几步配置,教你如何快速实现MaxCompute的数据可视化

11051 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Spark 大数据
|

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

预聚合是高性能分析中的常用技术,通过预先聚合降低纬度,从而在查询时大幅减少计算量,提升响应速度。本文介绍了 spark-alchemy 这个开源库中的 HyperLogLog 这一个高级功能,并且探讨它是如何解决大数据中数据聚合的问题。

10943 0
|
机器学习/深度学习 算法 大数据
|

3天撸完一个团队半年的项目,单客户数据动辄几百万的行业也玩云?

自97年成立至今已接近20年,在前十六七年 明源云主要跑在传统ERP软件轨道上,4年前世界变了,云计算&移动互联网来了,两个最大的行业变量,如果不做出改变就可能被颠覆。因此,明源云决定开辟新战场,用互联网的方式来做地产行业。

10196 0
来自: 大数据计算 MaxCompute  版块
|
SQL 存储 关系型数据库
|

【转载文章】记录一次MySQL两千万数据的大表优化解决过程,提供三种解决方案

问题概述 使用阿里云rds for MySQL数据库(就是MySQL5.6版本),有个用户上网记录表6个月的数据量近2000万,保留最近一年的数据量达到4000万,查询速度极慢,日常卡死。严重影响业务。

13576 1
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 算法 搜索推荐
|

强化学习在电商环境下的若干应用与研究

本文描述了淘宝搜索算法AI技术团使用强化学习算法在淘宝的环境中怎么解决实际的业务问题的以及一些研究探索。

13912 0
来自: 智能搜索推荐  版块
|
机器学习/深度学习 自然语言处理 搜索推荐
|

基于DNN+GBDT的Query类目预测融合模型

 用户搜索意图的理解在搜索排序体系下有着重要的作用。在搜索引擎中,分析用户的搜索Query和哪些文档类目的意图更相关,被称为Query的类目预测。本文通过集合Query的语义和行为等特征,计算得到与Query最相关的类目,并在线上得到了相关性的体验的提升。

16512 0
来自: 智能搜索推荐  版块
|
分布式计算 大数据 Apache
|

Apache Spark 3.0 将内置支持 GPU 调度

如今大数据和机器学习已经有了很大的结合,在机器学习里面,因为计算迭代的时间可能会很长,开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FPGA 了。

10976 1
|
监控 安全 大数据
|

【入门指南】使用阿里云Elasticsearch搭建ELK日志系统

本文介绍了基于阿里云Elasticsearch搭建ELK日志系统的基本步骤,并对kibana和ES的日志检索和分析做简要介绍,可作为新手入门指导。

16028 0
|
搜索推荐 流计算
|

基于实时计算(Flink)打造一个简单的实时推荐系统

本文为您介绍如何基于阿里云实时计算快速搭建实时推荐系统。

15303 1
来自: 实时计算 Flink  版块
|
分布式计算 大数据 关系型数据库
|

阿里云大数据利器之-RDS迁移到Maxcompute实现动态分区

当前,很多用户的业务数据存放在传统关系型数据库上,例如阿里云的RDS,做业务读写操作。当数据量非常大的时候,此时传系关系型数据库会显得有些吃力,那么会经常有将mysql数据库的数据迁移到[大数据处理平台-大数据计算服务(Maxcompute,原ODPS)(https://www.aliyun.com/product/odps?spm=5176.doc27800.765261.309.dcjpg2),利用其强大的存储和计算能力进行各种查询计算,结果再回流到RDS。

9780 0
来自: 大数据计算 MaxCompute  版块
|
流计算 Apache 存储
|

Flink Checkpoint 问题排查实用指南

本文会统一聊一聊 Flink 中 Checkpoint 异常的情况(包括失败和慢),以及可能的原因和排查思路。

13962 0
来自: 实时计算 Flink  版块
|
分布式计算 大数据 调度
|

阿里云 MaxCompute 2020-1 月刊

您好,MaxCompute 2020.1月刊如期而至,在疫情肆虐的日子里,祝福每一位开发者,平安健康,一切顺利。

8782 0
来自: 大数据计算 MaxCompute  版块
|
算法 搜索推荐 流计算
|

广告场景下的实时计算

案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总 广告场景的综述,[计算广告与流处理技术综述](https://yq.aliyun.com/articles/691816): 在线流量反作弊、在线计费、在线反馈、在线索引、在线广告链接检测等 其中涉及的主要实时处理环节: 实时数据统计.

11440 0
来自: 实时计算 Flink  版块
|
Web App开发 数据可视化 安全
|

关于 Chrome (谷歌浏览器)升级到 80 后可能产生的影响以及解决方案

### 背景 Google 将在2020年**2月4号**发布的 Chrome 80 版本(schedule:[https://www.chromestatus.com/features/schedule](https://www.

45621 152
来自: 数据可视化DataV  版块
|
算法
|

FM算法介绍

概述 FM (Factorization Machine) 算法可进行回归和二分类预测,它的特点是考虑了特征之间的相互作用,是一种非线性模型,目前FM算法是推荐领域被验证的效果较好的推荐方案之一,在诸多电商、广告、直播厂商的推荐领域有广泛应用。

12316 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 分布式计算 大数据
|

阿里云数加产品家族图首次亮相

数加就是阿里云专业搞大数据各种神器的产品大家族其实技术型产品也没辣么难懂,一层各种形式计算完给到二层做数据展现&算法加工,三层通过各种算法延展粗各种数据应用.您买间屋也行,买一层可以,要是高兴买整栋楼都随您意!

9544 0
来自: 大数据计算 MaxCompute  版块
|
SQL 双11 流计算
|

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

通俗讲retract就是传统数据里面的更新操作,也就是说retract是流式计算场景下对数据更新的处理方式。

20022 10
来自: 实时计算 Flink  版块
|
消息中间件 Kafka 流计算
|

如何正确使用 Flink Connector?

本文主要分享 Flink connector 相关内容,分为以下三个部分的内容:第一部分会首先介绍一下 Flink Connector 有哪些。第二部分会重点介绍在生产环境中经常使用的 kafka connector 的基本的原理以及使用方法。第三部分答疑,对社区反馈的问题进行答疑。

11737 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 分布式计算 算法
|

Mars——基于张量的统一分布式计算框架

很高兴在这里宣布我们的新项目:Mars,一个基于张量的统一分布式计算框架。我们已经在 Github 开源:https://github.com/mars-project/mars 。 背景 Python Python 是一门相当古老的语言了,如今,在数据科学计算、机器学习、以及深度学习领域,Python 越来越受欢迎。

12741 0
来自: 大数据计算 MaxCompute  版块
|
Java Apache Scala
|

如何在 PyFlink 1.10 中自定义 Python UDF?

本篇从架构到 UDF 接口定义,再到具体的实例,向大家介绍了在 Apache Flink 1.10 发布之后,如何利用 PyFlink 进行业务开发。

9344 0
来自: 实时计算 Flink  版块
|
分布式计算 Java MaxCompute
|

flume java介绍

近期在做shark flume开发框架的测试,该框架是一个简单高效的面向数据的pipeline框架,采用flume java的思想,实现了一套flume java on MaxCompute的library。为了更好的了解shark自己也去阅读了flume java的paper,这里做一些总结,主要

9148 0
来自: 大数据计算 MaxCompute  版块
|
JSON 分布式计算 MaxCompute
|

PyODPS开发中的最佳实践

PyODPS支持用 Python 来对 MaxCompute 对象进行操作,它提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理,并且可以用 ml 模块来执行机器学习算法。

11474 0
来自: 大数据计算 MaxCompute  版块
|
运维 搜索推荐 调度
|

Ha3搜索引擎简介

Ha3是阿里巴巴搜索团队开发的搜索引擎平台,它为阿里集团包括淘宝、天猫在内的核心业务提供搜索服务支持。

25633 1
来自: 智能搜索推荐  版块
|
数据可视化 数据安全/隐私保护
|

DataV 支持 token 验证啦!

有很多同学希望把 DataV 创建的数据可视化大屏整合到自己的网站中,我们很早就提供了这样的支持。

9304 137
来自: 数据可视化DataV  版块
|
分布式计算 大数据 Hadoop
|

HAS-插件式Kerberos认证框架

HAS (Hadoop Authentication Service), 致力于解决开源大数据服务和生态系统的认证支持。目前开源大数据(Hadoop/Spark)在安全认证上只内置支持了Kerberos方式,HAS提出了一种新的认证方式, 通过与现有的认证和授权体系进行对接,使得在Hadoop/Spark在上面支持Kerberos以外的认证方式变成可能,并对最终用户简化和隐藏Kerberos的复杂性。

8932 0
|
监控 大数据 索引
|

【X-Pack解读】阿里云Elasticsearch X-Pack 监控组件功能详解

阿里云Elasticsearch集成了Elastic Stack商业版的X-Pack组件包,包括安全、告警、监控、报表生成、图分析、机器学习等组件,用户可以开箱即用。本文将对X-Pack 的监控组件功能进行详细解读。

10267 1

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

去重逻辑在业务处理中使用广泛,大致可以分两类:DISTINCT去重和FIRST_VALUE主键去重,两者的区别是DISTINCT去重是对整行数据进行去重,比如tt里面数据可能会有重复,我们要去掉重复的数据;FIRST_VALUE是根据主键进行去重,可以看成是一种业务层面的去重,但是真实的业务场景使用也很普遍,比如一个用户有多次点击,业务上只需要取第一条。

11551 0
来自: 实时计算 Flink  版块
|
存储 分布式计算 大数据
|

专访20年技术老兵云郎:16年峰回路,每一步都是更好的沉淀

从技术研发到产品经理,3次峰回路转,这条路,他走了16年 一个懂技术的产品,更有底气和研发“叫板” 一个具备产品思维的技术,更明白未来的方向

8326 0
来自: 大数据计算 MaxCompute  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
68920
内容
128
活动
439665
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务