|
存储 关系型数据库 MySQL
|

阿里云开源离线同步工具DataX3.0介绍

阿里云开源离线同步工具DataX3.0介绍 一. DataX3.0概览 ​ DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

105776 10
来自: 大数据计算 MaxCompute  版块
|
SQL 数据可视化 前端开发
|

DataV首次实战分享:教你30分钟创建汽车大屏

我是一个技术男,同样也是个汽车爱好者,上个月买了辆的宝马,却发现路上的“宝马越来越多”(⊙﹏⊙)b ...... 我喜欢钻研技术,也喜欢钻研汽车,最近研究了一下数据可视化,发现用datav可以玩出一些花样,这次就分享一下我做汽车数据大屏的经验。

69174 0
来自: 数据可视化DataV  版块
|
机器学习/深度学习 算法 对象存储
|

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

伴随着今日阿里云机器学习PAI在云栖大会的重磅发布,快来感受下人工智能的魅力。 一、背景 随着互联网的发展,产生了大量的图片以及语音数据,如何对这部分非结构化数据行之有效的利用起来,一直是困扰数据挖掘工程师的一到难题。

49620 7
来自: 人工智能平台PAI  版块
|
存储 算法 大数据
|

每个人都应该知道的25个大数据术语

如果你初来乍到,大数据看起来很吓人!根据你掌握的基本理论,让我们专注于一些关键术语以此给你的约会对象、老板、家人或者任何一个人带来深刻的印象。 让我们开始吧: 1.算法。“算法”如何与大数据相关?即使算法是一个通用术语,但大数据分析使其在当代更受青睐和流行。

42800 4
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 监控
|

大数据环境下该如何优雅地设计数据分层

发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。

40540 7
来自: 大数据计算 MaxCompute  版块
|
存储 运维 监控
|

盘古:阿里云飞天分布式存储系统设计深度解析

在10月19日的云栖社区在线培训上,来自盘古团队的吴洋分享了《盘古:飞天分布式存储系统实践》。他主要从以下三个方面进行了分享:盘古是什么?盘古是用来解决什么问题的?盘古是怎么解决问题的?他主要介绍了盘古的分布式系统架构和设计理念。

45135 9
来自: 大数据计算 MaxCompute  版块
|
SQL 算法 安全
|

odps是什么?

ODPS(Open Data Processing Service),原是阿里云从 09年开始自研的大规模批量计算引擎,2016 年更名为MaxCompute。2022云栖大会上,阿里云ODPS全新升级为一体化大数据平台,存储、调度、元数据一体化融合 ,从 Processing 升级为 Platform,即 Open Data Platform and Service。提供了离线计算、实时交互式分析、机器学习等可扩展的智能计算引擎,满足用户多元化数据计算需求。

72106 4
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 算法 计算机视觉
|

拍立淘-以图搜图中的图像搜索算法

移动端的以图搜图是一代又一代的图像人,搜索人的梦想。从90年代开始,学术界,工业界做了很多的努力和尝 试。拍立淘-以图搜图,从14年正式立项开始,通过算法/工程/产品的不断打磨,以及兄弟部门的紧密合作,在业务指标的增长的同时,沉淀下来了业界领先的图搜算法。

37052 2
来自: 智能搜索推荐  版块
|
机器学习/深度学习 数据采集 算法
|

【玩转数据系列二】机器学习应用没那么难,这次教你玩心脏病预测

心脏病是人类健康的头号杀手。全世界1/3的人口死亡是因心脏病引起的,而我国,每年有几十万人死于心脏病。 所以,如果可以通过提取人体相关的体侧指标,通过数据挖掘的方式来分析不同特征对于心脏病的影响,对于预测和预防心脏病将起到至关重要的作用。本文将会通过真实的数据,通过阿里云机器学习平台搭建心脏病预测案

27211 1
来自: 人工智能平台PAI  版块
|
消息中间件 存储 供应链
|

数据仓库介绍与实时数仓案例

1.数据仓库简介 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

42511 11
来自: 实时计算 Flink  版块
|
分布式计算 大数据 BI
|

阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能

目前阿里云大数据产品已经免费向全部用户开放了多种公用数据集。开放的数据类别包括:股票价格数据,房产信息,影视及其票房数据。

24766 2
来自: 大数据计算 MaxCompute  版块
|
运维 分布式计算 数据库
|

空格App亿元A轮融资背后:云上多场景技术架构实践与经验

空格APP上线仅仅60天就获得1亿A轮融资,同时依靠阿里云只用了两个礼拜就实现了APP上线。空格技术合伙人刘博本次分享主要介绍了阿里云在空格内的应用经验包括服务端整体架构的搭建和搜索、推荐和数据平台业务场景下的实践探索。

19973 0
来自: 大数据计算 MaxCompute  版块

优酷背后的大数据秘密

大家好,我是门德亮,现在在优酷数据中台做数据相关的事情。很荣幸,我正好见证了优酷从没有MaxCompute到有的这样一个历程,因为刚刚好我就是入职优酷差不多5年的时间,我们正好是在快到5年的时候,去做了从Hadoop到MaxCompute的这样一个升级。

22712 3
来自: 大数据计算 MaxCompute  版块
|
云栖大会
|

2017杭州云栖大会FAQ(持续更新中)

2017杭州云栖大会将于10月11-14日在杭州云栖小镇举办,作为全球最具影响力的科技展会之一,今年的云栖大会规模更大,内容也更丰富。为了帮助大家解决报名、参会中的一些问题,小编专门整理了下大会相关的FAQ,供大家参考。

18555 2
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 算法 大数据
|

权威详解 | 阿里新一代实时计算引擎 Blink,每秒支持数十亿次计算

阿里巴巴需要研发世界级一流的流式计算引擎,实时处理海量数据,提供在线统计、学习和预测能力,不仅支持阿里巴巴自己的核心电商场景,同时也能通过阿里云向外部中小企业提供流式计算服务,输出实时计算能力,这就是我今天要分享的最新一代阿里巴巴实时计算引擎Blink。

24550 2
来自: 实时计算 Flink  版块
|
算法 流计算
|

分布式Snapshot和Flink Checkpointing简介

最近在学习Flink的Fault Tolerance,了解到Flink在Chandy Lamport Algorithm的基础上扩展实现了一套分布式Checkpointing机制,这个机制在论文"Lightweight Asynchronous Snapshots for Distributed Dataflows"中进行了详尽的描述。

19996 0
来自: 实时计算 Flink  版块
|
人工智能 算法框架/工具 流计算
|

独家专访阿里集团副总裁贾扬清:我为什么选择加入阿里巴巴?

在这次访谈中,贾扬清向我们透露了他加入阿里的原因,并对他目前在阿里主要负责的工作做了详细说明,他不仅回顾了过去 6 年 AI 框架领域发生的变化,也分享了自己对于 AI 领域现状的观察和对未来发展的思考。结合自己的经验,贾扬清也给出了一些针对 AI 方向选择和个人职业发展的建议,对于 AI 从业者来

17652 1
来自: 实时计算 Flink  版块
|
机器学习/深度学习 自然语言处理 算法
|

【玩转数据系列六】文本分析算法实现新闻自动分类

新闻分类是文本挖掘领域较为常见的场景。目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式,消耗了大量的人力资源。本文尝试通过智能的文本挖掘算法对于新闻文本进行分类。无需任何人肉打标,完全由机器智能化实现。

19465 1
来自: 人工智能平台PAI  版块
|
SQL 存储 缓存
|

Flink SQL 功能解密系列 —— 维表 JOIN 与异步优化

流计算中一个常见的需求就是为数据流补齐字段。因为数据采集端采集到的数据往往比较有限,在做数据分析之前,就要先将所需的维度信息补全。比如采集到的交易日志中只记录了商品 id,但是在做业务时需要根据店铺维度或者行业纬度进行聚合,这就需要先将交易日志与商品维表进行关联,补全所需的维度信息。

28178 58
来自: 实时计算 Flink  版块
|
存储 分布式计算 搜索推荐
|

干货:解码OneData,阿里的数仓之路。

据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2013年的10倍。正在“爆炸式”增长的数据的潜在巨大价值正在被发掘,它有可能成为商业世界的“新能源”,变革我们的生产,影响我们生活。当我们面对如此庞大的数据之时,如果我们不能有序、有结构的进行分类组织

21001 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 大数据
|

使用 MaxCompute Studio 开发大数据应用

MaxCompute(原ODPS)是阿里云自主研发的分布式大数据处理平台。MaxCompute Studio 为开发者提供了良好的开发体验,本文将展开进行介绍。

15403 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 Apache
|

现代流式计算的基石:Google DataFlow

0. 引言 今天这篇继续讲流式计算。毫无疑问,Apache Flink 和 Apache Spark (Structured Streaming)现在是实时流计算领域的两个最火热的话题了。那么为什么要介绍 Google Dataflow 呢?Streaming Systems 这本书在分析 Fli...

18545 1
|
分布式计算 关系型数据库 大数据
|

[ETL实践指南]基于Kettle的MaxCompute插件实现数据上云

本文用到的 阿里云数加-大数据计算服务MaxCompute产品地址:https://www.aliyun.com/product/odps 简介 Kettle是一款开源的ETL工具,纯java实现,可以运行于Windows, Unix, Linux上运行,提供图形化的操作界面,可以通过拖拽控件的方式,方便地定义数据传输的拓扑。

20378 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 资源调度
|

MaxCompute常见错误汇总(更新ing)

从今天开始,小编会为大家陆续解读MaxCompute常见问题,帮助大家快速上手MaxCompute,玩转大数据计算平台。

23780 2
来自: 大数据计算 MaxCompute  版块
|
消息中间件 关系型数据库 Kafka
|

如何使用Kafka Connect实现同步RDS binlog数据

本文介绍如何在E-MapReduce上使用Kafka Connect实现同步RDS binlog数据

16108 1
|
新零售 搜索推荐 调度
|

通过Flink实时构建搜索引擎的索引

1.背景介绍 搜索引擎的出现大大降低了人们寻找信息的难度,已经深入到生活与工作的方方面面,简单列举几个应用如下: 互联网搜索,如谷歌,百度等; 垂直搜索,如淘宝、天猫的商品搜索; 站内搜索,各个内容网站提供的站内搜索服务; 企业内部搜索,员工查询企业内部信息; 广告投放,根据投放上下文检索出对应的广告主和广告内容; 搜索引擎的关键是让用户找到其所需信息,其整体架构如下: 从图示可知,一个搜索引擎从大的方面来看主要包括两部分,一部分是提供在线的搜索服务,一部分要把原始数据已离线的方式建立索引,建立索引是信息可搜索的前提。

17565 58
来自: 实时计算 Flink  版块
|
存储 分布式计算 监控
|

大数据阿里云产品的简单介绍理解

   很多人问,大数据是什么。一个时尚的技术名词,一个互联网时代的标志。给人高端大气上档次的感觉,很多公司不说自己有大数据都不好意思跟别人谈业务。那我就谈谈我的一些看法来结合阿里云的数加大数据产品比较粗俗的介绍下大数据到底是什么。

15604 1
来自: 大数据计算 MaxCompute  版块
|
消息中间件 Web App开发 监控
|

Flume+Kafka+Flink+Redis构建大数据实时处理系统:实时统计网站PV、UV展示

1.大数据处理的常用方法 大数据处理目前比较流行的是两种方法,一种是离线处理,一种是在线处理,基本处理架构如下: 在互联网应用中,不管是哪一种处理方式,其基本的数据来源都是日志数据,例如对于web应用来说,则可能是用户的访问日志、用户的点击日志等。

23537 15
来自: 实时计算 Flink  版块
|
机器学习/深度学习 算法 大数据
|

阿里云机器学习平台的思考

最近读了阿里的《大数据之路-阿里巴巴大数据实践》,对于其机器学习平台也蛮感兴趣,正好阿里出了本新书《解析阿里云机器学习平台》,顺便读了下,感触也不少,结合最近团队机器学习的一些思考,特别在此分享于你。

13219 0
来自: 大数据计算 MaxCompute  版块
|
算法 搜索推荐 前端开发
|

搜索双链路实时计算体系@双11实战

该文章来自阿里巴巴技术协会(ATA)精选集  0. 前言 何为双链路实时计算体系?微观实时计算链路 a) 最细粒度商品/店铺/用户数据的实时 b) 底层模型的实时宏观实时计算链路 相比微观实时,宏观实时的对象粒度更粗,更上层 a) 以实时效果为目标,基于bandit learning的实

15580 0
来自: 智能搜索推荐  版块
|
大数据
|

【内含分享PPT/视频/文章】阿里云MVP学院MaxCompute技术闭门会线上首播 | 2019大数据技术公开课第二季

数据的价值是解释业务还是预测业务?是支撑业务还是驱动业务?企业级计算服务的核心问题是什么?企业级计算平台要解决的核心问题是什么?商业和技术的平衡点在哪里? 一起直播学习,让数据真正驱动业务。

13507 0
来自: 大数据计算 MaxCompute  版块
|
安全 数据中心 分布式计算
|

如何有效降低大数据平台安全风险

在2019杭州云栖大会大数据企业级服务专场,由阿里云智能计算平台事业部资深技术专家李雪峰带来以“如何有效降低大数据平台安全风险”为题的演讲。本文首先概括了企业在大数据上云过程中会产生的安全顾虑。接着,在大数据平台中要处理的安全风险中,对数据中心物理安全与网络安全、大数据平台系统安全以及数据应用安全三部分做了详细的介绍。最后,描述了阿里云飞天大数据平台的安全体系。

13783 1
来自: 大数据计算 MaxCompute  版块
|
运维 流计算
|

阿里云实时计算产品案例&解决方案汇总

阿里云实时计算产品案例&解决方案汇总页

27956 1
来自: 实时计算 Flink  版块
|
对象存储 存储 分布式计算
|

JindoFS解析 - 云上大数据高性能数据湖存储方案

JindoFS 是云原生的文件系统,可以提供OSS 超大容量以及本地磁盘的性能

14742 0
|
机器学习/深度学习 自然语言处理 算法
|

DL应用:query生成和query推荐

引言  在机器翻译、图片描述、语义蕴涵、语音识别和文本摘要中,序列到序列的问题已经有太多大牛研究了,也取得了很多突破。谷歌的Attention is all you need[1],舍弃并超越了主流的rnn与cnn序列建模框架,刷出了新的state of the art,这种大胆创新的精神值得我们学习。

15708 1
来自: 智能搜索推荐  版块
|
机器学习/深度学习 人工智能 算法
|

阿里巴巴机器学习系列课程

亲爱的同学们,福利来临!随着机器学习领域的发展越来越火,阿里云机器学习PAI为广大机器学习爱好的学生提供免费的一站式算法平台,该平台提供上百种算法,并且兼容TensorFlow、Caffe、MXNET等深度学习框架,学生们还可以免费使用M40 GPU卡,这么好的福利到哪里去领呢? 点击开通机器学习PAI:https://data.

15829 3
来自: 人工智能平台PAI  版块
|
分布式计算 大数据 MaxCompute
|

阿里云数加MaxCompute购买咨询钉钉群

为企业解答阿里云MaxCompute大数据计算产品购买问题。

14082 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 数据处理 API
|

流计算精品翻译: The Dataflow Model

我们提出了Dataflow模型,并详细地阐述了它的语义,设计的核心原则,以及在实践开发过程中对模型的检验。

19308 1
来自: 实时计算 Flink  版块
|
SQL 分布式计算 算法
|

MaxCompute SQL原理解析及性能调优

分享内容 介绍了ODPS SQL的基于mapreduce是如何实现的及一些使用小技巧,回顾了mapreduce各个阶段可能产生的问题及相应的处理方法,同时介绍了一些应对数据倾斜的处理方法,最后介绍了一些关于数据集构造、特征选择的技巧帮助减少资源利用。

12492 0
来自: 大数据计算 MaxCompute  版块

PyODPS DataFrame 处理笛卡尔积的几种方式

PyODPS 提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理,本文主要介绍如何使用 PyODPS 执行笛卡尔积的操作。 笛卡尔积最常出现的场景是两两之间需要比较或者运算。

13313 0
来自: 大数据计算 MaxCompute  版块
|
流计算 Apache
|

接着!!Apache Flink 全领域干货合集(持续更新)

Apache Flink 下一代开源大数据计算引擎, 可对有限数据流和无限数据流进行有状态计算,可部署在各种集群环境,对各种大小的数据规模进行快速计算。Flink 1.9.0 发布,在批流融合与功能特性上有重大更新,本专题将持续更新新增特性的具体说明及全领域干货。

16531 0
来自: 实时计算 Flink  版块
|
分布式计算 大数据 Hadoop
|

比自建 Hadoop 还便宜!云栖大会揭秘阿里云数加 MaxCompute

DT时代,越来越多的企业应用数据步入云端。 Hadoop是当下流行的大数据并行计算体系,横向扩展、生态圈成熟等一直是它的主要特点。 阿里云数加MaxCompute (原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。

12152 0
来自: 大数据计算 MaxCompute  版块
|
流计算 Apache 人工智能
|

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾(附PPT下载)

8 月最后一天,由 Apache Kafka 与 Apache Flink 联合举办的 Meetup 深圳站圆满落幕,现场站无虚席,来自 Confluent 、中国农业银行 、虎牙直播、数见科技以及阿里巴巴的五位技术专家带来了丰富精彩的分享,全场干货满满!

14042 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 算法 搜索推荐
|

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

机器学习算法基于信用卡消费记录做信用评分 背景 如果你是做互联网金融的,那么一定听说过评分卡。评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应用于线性模型进行建模的一种方法。

15063 0
来自: 人工智能平台PAI  版块
|
SQL 分布式计算 大数据
|

HIVE MapJoin异常问题处理总结

HIVE被很广泛的使用,使用过程中也会遇到各种千奇百怪的问题。这里就遇到的MapJoin Local 内存不足的问题进行讨论,从问题描述、mapjion原理以及产生该问题的原因,解决方案做一下介绍,最后对该问题进行了进一步的思考,希望对解决该类问题的朋友有所帮助。

15040 1
|
人工智能 分布式计算 大数据
|

倒计时1天!相约杭州云栖,相遇数据智能

2016杭州云栖大会盛大开启,与阿里云大数据一起相约杭州云栖,相遇数据智能!我们精心准备了四大智能看点,等你用一颗大数据的心,鞠一捧智能的“水”。

11163 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 数据挖掘 API
|

PyOdps DataFrame来临,数据分析从未如此简单!

PyOdps正式发布DataFrame框架(此处应掌声经久不息),DTer的福音!有了它,就像卷福有了花生,比翼双飞,哦不,如虎添翼。 快过年了,大家一定没心情看长篇大论的分析文章。作为介绍PyOdps DataFrame的开篇文章,我只说说其用起来爽的地方。其余的部分,从使用、问题到实现原理,我

11537 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 算法
|

SQL优化器原理 - Join重排

这是MaxCompute有关SQL优化器原理的系列文章之一。我们会陆续推出SQL优化器有关优化规则和框架的其他文章。添加钉钉群“关系代数优化技术”(群号11719083)可以获取最新文章发布动态。 本文的目标是解释Join重排这个特性的基础概念和算法,如果想快速了解并在MaxCompute上使用这个特性,请直接跳到“总结”。

12191 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 安全 大数据
|

阿里怎么发工资?自研薪酬管理系统首次曝光

作者:墨逐   人力资源管理系统是用集中的数据将几乎所有的人力资源相关的信息(组织、招聘、薪资、绩效、审批等)统一管理起来,是企业运行必不可少的管理软件。国际上知名的有Oracle PeopleSoft、SAP 和Workday HCM,世界500强公司有超过一半都在使用。

11618 0
来自: 大数据计算 MaxCompute  版块
|
存储 缓存 分布式计算
|

JindoFS概述:云原生的大数据计算存储分离方案

JindoFS 是一套新的云原生的数据湖解决方案。在 JindoFS 之前,云上客户主要使用 HDFS 和 OSS/S3 作为大数据存储。HDFS 是 Hadoop 原生的存储系统,10 年来,HDFS 已经成为大数据生态的存储标准,但是我们也可以看到 HDFS 虽然不断优化,但是 JVM 的瓶颈也始终无法突破。

23215 3