|
存储 关系型数据库 MySQL
|

阿里云开源离线同步工具DataX3.0介绍

阿里云开源离线同步工具DataX3.0介绍 一. DataX3.0概览 ​ DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

105111 10
来自: 大数据计算 MaxCompute  版块
|
SQL 数据可视化 前端开发
|

DataV首次实战分享:教你30分钟创建汽车大屏

我是一个技术男,同样也是个汽车爱好者,上个月买了辆的宝马,却发现路上的“宝马越来越多”(⊙﹏⊙)b ...... 我喜欢钻研技术,也喜欢钻研汽车,最近研究了一下数据可视化,发现用datav可以玩出一些花样,这次就分享一下我做汽车数据大屏的经验。

69048 0
来自: 数据可视化DataV  版块
|
分布式计算 Hadoop 分布式数据库
|

阿里封神谈hadoop生态学习之路

在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop、hive、spark等。笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1、ODPS等项目,目前base在E-Mapreduce。在这,笔者尽可能梳理下hadoop的学习之路。

49429 8
|
数据可视化
|

DataV回调id——从入门到精通

细心的朋友们可能会发现DataV的编辑器右侧多出了一个“交互”tab,有没有好奇它是做什么的? 接下来就由小编带领大家一探究竟 配置 入门篇 首先来回顾一下什么是回调id,在DataV中回调id是指某个组件在响应用户操作或者自动触发更新时向别的组件传递的参数,这个参数可以在别的组件中用于数据查询时的动态变量。

68650 1
来自: 数据可视化DataV  版块
|
存储 运维 监控
|

盘古:阿里云飞天分布式存储系统设计深度解析

在10月19日的云栖社区在线培训上,来自盘古团队的吴洋分享了《盘古:飞天分布式存储系统实践》。他主要从以下三个方面进行了分享:盘古是什么?盘古是用来解决什么问题的?盘古是怎么解决问题的?他主要介绍了盘古的分布式系统架构和设计理念。

44966 9
来自: 大数据计算 MaxCompute  版块
|
数据可视化
|

DataV接入ECharts图表库 可视化利器强强联手

两个扛把子级产品的结合,而且文末有彩蛋。

24883 0
来自: 数据可视化DataV  版块
|
运维 分布式计算 数据库
|

空格App亿元A轮融资背后:云上多场景技术架构实践与经验

空格APP上线仅仅60天就获得1亿A轮融资,同时依靠阿里云只用了两个礼拜就实现了APP上线。空格技术合伙人刘博本次分享主要介绍了阿里云在空格内的应用经验包括服务端整体架构的搭建和搜索、推荐和数据平台业务场景下的实践探索。

19904 0
来自: 大数据计算 MaxCompute  版块

优酷背后的大数据秘密

大家好,我是门德亮,现在在优酷数据中台做数据相关的事情。很荣幸,我正好见证了优酷从没有MaxCompute到有的这样一个历程,因为刚刚好我就是入职优酷差不多5年的时间,我们正好是在快到5年的时候,去做了从Hadoop到MaxCompute的这样一个升级。

22495 3
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 算法 大数据
|

权威详解 | 阿里新一代实时计算引擎 Blink,每秒支持数十亿次计算

阿里巴巴需要研发世界级一流的流式计算引擎,实时处理海量数据,提供在线统计、学习和预测能力,不仅支持阿里巴巴自己的核心电商场景,同时也能通过阿里云向外部中小企业提供流式计算服务,输出实时计算能力,这就是我今天要分享的最新一代阿里巴巴实时计算引擎Blink。

24323 2
来自: 实时计算 Flink  版块
|
SQL 消息中间件 大数据
|

OPPO数据中台之基石:基于Flink SQL构建实数据仓库

本文整理自 2019 年 4 月 13 日在深圳举行的 Flink Meetup 会议,分享嘉宾张俊,目前担任 OPPO 大数据平台研发负责人,也是 Apache Flink contributor。

21853 2
来自: 实时计算 Flink  版块
|
机器学习/深度学习 TensorFlow 算法框架/工具
|

【玩转数据系列十五】机器学习PAI为你自动写歌词,妈妈再也不用担心我的freestyle了(提供数据、代码)

背景 最近互联网上出现一个热词就是“freestyle”,源于一个比拼rap的综艺节目。在节目中需要大量考验选手的freestyle能力,freestyle指的是rapper即兴的根据一段主题讲一串rap。

20702 2
来自: 人工智能平台PAI  版块
|
SQL 存储 缓存
|

Flink SQL 功能解密系列 —— 维表 JOIN 与异步优化

流计算中一个常见的需求就是为数据流补齐字段。因为数据采集端采集到的数据往往比较有限,在做数据分析之前,就要先将所需的维度信息补全。比如采集到的交易日志中只记录了商品 id,但是在做业务时需要根据店铺维度或者行业纬度进行聚合,这就需要先将交易日志与商品维表进行关联,补全所需的维度信息。

27715 2
来自: 实时计算 Flink  版块
|
分布式计算 关系型数据库 大数据
|

[ETL实践指南]基于Kettle的MaxCompute插件实现数据上云

本文用到的 阿里云数加-大数据计算服务MaxCompute产品地址:https://www.aliyun.com/product/odps 简介 Kettle是一款开源的ETL工具,纯java实现,可以运行于Windows, Unix, Linux上运行,提供图形化的操作界面,可以通过拖拽控件的方式,方便地定义数据传输的拓扑。

20225 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 资源调度
|

MaxCompute常见错误汇总(更新ing)

从今天开始,小编会为大家陆续解读MaxCompute常见问题,帮助大家快速上手MaxCompute,玩转大数据计算平台。

23651 2
来自: 大数据计算 MaxCompute  版块
|
消息中间件 关系型数据库 Kafka
|

如何使用Kafka Connect实现同步RDS binlog数据

本文介绍如何在E-MapReduce上使用Kafka Connect实现同步RDS binlog数据

16066 1
|
消息中间件 Web App开发 监控
|

Flume+Kafka+Flink+Redis构建大数据实时处理系统:实时统计网站PV、UV展示

1.大数据处理的常用方法 大数据处理目前比较流行的是两种方法,一种是离线处理,一种是在线处理,基本处理架构如下: 在互联网应用中,不管是哪一种处理方式,其基本的数据来源都是日志数据,例如对于web应用来说,则可能是用户的访问日志、用户的点击日志等。

23151 15
来自: 实时计算 Flink  版块
|
对象存储 存储 分布式计算
|

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS 是EMR打造的高性能大数据存储服务,可以为不同的计算引擎提供不同的存储服务,可以根据应用的场景来选择不同的存储模式。在2019杭州云栖大会大数据生态专场,阿里巴巴计算平台事业部EMR团队技术专家殳鑫鑫和Intel大数据团队软件开发经理徐铖共同向大家分享了云上大数据的高性能数据湖存储方案JindoFS的产生背景、架构以及与Intel DCPM的性能评测。

16357 1
|
机器学习/深度学习 算法 大数据
|

阿里云机器学习平台的思考

最近读了阿里的《大数据之路-阿里巴巴大数据实践》,对于其机器学习平台也蛮感兴趣,正好阿里出了本新书《解析阿里云机器学习平台》,顺便读了下,感触也不少,结合最近团队机器学习的一些思考,特别在此分享于你。

13203 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 SQL 分布式计算
|

【玩转数据系列一】人口普查统计案例

玩转数据系列文章通过简单地案例搭建,介绍如何通过阿里云机器学习平台进行数据挖掘。

16252 1
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 自然语言处理 算法
|

DL应用:query生成和query推荐

引言  在机器翻译、图片描述、语义蕴涵、语音识别和文本摘要中,序列到序列的问题已经有太多大牛研究了,也取得了很多突破。谷歌的Attention is all you need[1],舍弃并超越了主流的rnn与cnn序列建模框架,刷出了新的state of the art,这种大胆创新的精神值得我们学习。

15641 1
来自: 智能搜索推荐  版块
|
定位技术
|

基础平面地图——区域热力层使用教程

省级、地市级、区县级、乡镇街道及自定义区域范围等情况区域热力层的使用:GeoJSON边界数据提取、区域的文字标注显示偏移、区域自定义样式(区域热力层、区域(行政)下钻热力层)。区域(行政)下钻热力层直接作为省直辖市级、地市级区域热力层使用。

14499 0
来自: 数据可视化DataV  版块
|
机器学习/深度学习 算法 搜索推荐
|

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

机器学习算法基于信用卡消费记录做信用评分 背景 如果你是做互联网金融的,那么一定听说过评分卡。评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应用于线性模型进行建模的一种方法。

14890 0
来自: 人工智能平台PAI  版块
|
分布式计算 大数据 MaxCompute
|

阿里云MaxCompute 2019-7月刊

7月MaxCompute最新资讯,技术好文,8月精彩活动预告,尽在7月刊。

11375 0
来自: 大数据计算 MaxCompute  版块
|
存储 运维 监控
|

阿里云大数据计算平台的自动化、精细化运维之路

作者简介:     范伦挺   阿里巴巴 基础架构事业群-技术专家   花名萧一,2010年加入阿里巴巴,现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute、AnalyticDB、StreamComput

12135 0
来自: 大数据计算 MaxCompute  版块
|
存储 大数据 分布式计算
|

助力云上开源生态 - 阿里云开源大数据平台的发展

阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。在2019杭州云栖大会大数据生态专场上,阿里巴巴高级产品专家夏立为大家分享了阿里云EMR如何助力云上开源生态。

11765 0
|
分布式计算 Spark 大数据
|

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

预聚合是高性能分析中的常用技术,通过预先聚合降低纬度,从而在查询时大幅减少计算量,提升响应速度。本文介绍了 spark-alchemy 这个开源库中的 HyperLogLog 这一个高级功能,并且探讨它是如何解决大数据中数据聚合的问题。

10557 0
|
机器学习/深度学习 算法 大数据
|

3天撸完一个团队半年的项目,单客户数据动辄几百万的行业也玩云?

自97年成立至今已接近20年,在前十六七年 明源云主要跑在传统ERP软件轨道上,4年前世界变了,云计算&移动互联网来了,两个最大的行业变量,如果不做出改变就可能被颠覆。因此,明源云决定开辟新战场,用互联网的方式来做地产行业。

9866 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 人工智能 分布式计算
|

10月18日,德国法兰克福,阿里云MaxCompute2.0,全面布局AI人工智能

在2017年杭州云栖大会上,阿里云宣布大数据计算服务MaxCompute将于10月18日在德国法兰克福正式开服。通过MaxCompute2.0全新一代的人工智能系统,阿里云将携手更多欧洲本地合作伙伴建立科技生态,驱动当地云计算和大数据的发展,将中国先进的云计算推广至海外,在人工智能、深度学习等领域实现突破创新。

10136 0
来自: 大数据计算 MaxCompute  版块
|
SQL 存储 关系型数据库
|

【转载文章】记录一次MySQL两千万数据的大表优化解决过程,提供三种解决方案

问题概述 使用阿里云rds for MySQL数据库(就是MySQL5.6版本),有个用户上网记录表6个月的数据量近2000万,保留最近一年的数据量达到4000万,查询速度极慢,日常卡死。严重影响业务。

11314 1
来自: 大数据计算 MaxCompute  版块
|
分布式计算 资源调度 安全
|

从单租户IaaS到多租户PaaS——金融级别大数据平台MaxCompute的多租户隔离实践

摘要:在2017年云栖大会•北京峰会的大数据专场中,来自阿里云的高级技术专家李雪峰带来了主题为《金融级别大数据平台的多租户隔离实践》的演讲。在分享中,李雪峰首先介绍了基于传统IaaS单租户架构做隔离时面临的问题;然后,他重点分享了MaxCompute PaaS层面的多租户的架构以及MaxCompute在安全隔离方面的具体实践。

11738 0
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 大数据
|

从数砖开源 Delta Lake 说起

Spark AI 北美峰会的第一天,坊间传闻被证实,Databrics(俗称数砖,亦称砖厂)的杀手锏 Delta 产品特性作为 Delta Lake 项目开源!会前,笔者有幸同砖厂的两位大佬李潇和连城做了个线下交流,谈到 Delta 时被告知会有相关重磅在大会上宣布,但却没想到是开源出去。

9667 0
|
分布式计算 大数据 Apache
|

Apache Spark 3.0 将内置支持 GPU 调度

如今大数据和机器学习已经有了很大的结合,在机器学习里面,因为计算迭代的时间可能会很长,开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FPGA 了。

10512 1
|
分布式计算 MaxCompute Java
|

丰富、连接、待集成—MaxCompute 生态再出发

2019杭州云栖大会大数据生态专场,由阿里云高级技术专家李睿博带来以 “丰富、连接、待集成— MaxCompute 生态再出发” 为题的演讲。本文围绕 MaxCompute 生态进行讲述,主要包括 “更好的工具和接口”、“连接云上各种数据”、“开放自定义引擎” 三部分。主要内容包括 MaxCompute 获得了 Tableau 官方支持,更好的搬站工具和命令行工具体验,大数据+AI 在 Python 生态部分的工作进展,以及开放自定义引擎的能力。

9923 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 监控
|

阿里云 MaxCompute 2020-4 月刊

4月MaxCompute审计日志发布,可通过历史事件及明细查询、实时行为事件分析,满足您实时审计、问题回溯分析等需求。同时,MaxCompute在支持实时消费监控告警的基础上新发布支持对按量付费单个SQL作业的消费进行控制,帮您更好的监控消费。更多4月的新功能与新解决方案,欢迎阅读4月刊。

9137 0
来自: 大数据计算 MaxCompute  版块
|
搜索推荐 流计算
|

基于实时计算(Flink)打造一个简单的实时推荐系统

本文为您介绍如何基于阿里云实时计算快速搭建实时推荐系统。

14304 0
来自: 实时计算 Flink  版块
|
分布式计算 运维 大数据
|

阿里云数加助力东润环能开启新能源大数据时代

北京东润环能科技股份有限公司(以下简称“东润环能”)是一家从事新能源电力领域的数据信息服务公司,该司开创之初,提供了新能源发电功率预测系统、电网调度管理与支持系统、新能源城市规划与咨询服务等基础性产品,并逐步打造三大新能源互联网智慧服务生态圈平台,包括新能源投资开发生态圈第一平台、绿色电力交易与智.

9086 0
来自: 大数据计算 MaxCompute  版块
|
流计算 Apache 存储
|

Flink Checkpoint 问题排查实用指南

本文会统一聊一聊 Flink 中 Checkpoint 异常的情况(包括失败和慢),以及可能的原因和排查思路。

13044 0
来自: 实时计算 Flink  版块
|
存储 搜索推荐 数据库
|

细数阿里云服务器的十二种典型应用场景

文章转载:小白杨1990 如今,阿里云的产品可谓是多种多样,纷繁复杂。面对各种各样的技术和产品,ECS、RDS、OSS…等等一系列的东西,很容易让人找不到头绪,尤其是刚刚开始接触网站建设的朋友。阿里云湖北授权服务中心武汉捷讯结合阿里云官网的资料,针对建站相关的内容为大家整理一些阿里云典型的应用场景

10691 1
来自: 大数据计算 MaxCompute  版块
|
Web App开发 数据可视化 安全
|

关于 Chrome (谷歌浏览器)升级到 80 后可能产生的影响以及解决方案

### 背景 Google 将在2020年**2月4号**发布的 Chrome 80 版本(schedule:[https://www.chromestatus.com/features/schedule](https://www.

44244 0
来自: 数据可视化DataV  版块
|
监控 安全 数据安全/隐私保护
|

【X-Pack解读】阿里云Elasticsearch X-Pack 安全组件功能详解

阿里云Elasticsearch集成了Elastic Stack商业版的X-Pack组件包,包括安全、告警、监控、报表生成、图分析、机器学习等组件,用户可以开箱即用。接下来小编将在【X-Pack解读】系列里解读各个Elasticsearch X-Pack 组件功能。

11181 0
|
消息中间件 Kafka 流计算
|

如何正确使用 Flink Connector?

本文主要分享 Flink connector 相关内容,分为以下三个部分的内容:第一部分会首先介绍一下 Flink Connector 有哪些。第二部分会重点介绍在生产环境中经常使用的 kafka connector 的基本的原理以及使用方法。第三部分答疑,对社区反馈的问题进行答疑。

11310 0
来自: 实时计算 Flink  版块
|
SQL 分布式计算 MaxCompute
|

MaxCompute SQL-列转行和行转列

1. 假设我们在MaxCompute中有两张表,其中一张表是存用户基本信息,另一张表是存用户的地址信息等,表数据假设如下: user_basic_info: id name 1 a 2 b 3 c

13150 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 搜索推荐 算法
|

告别1人年,教你21天搭建推荐系统!

本文作者为阿里云技术专家郑重(卢梭),主要分享内容是如何在21天内快速搭建推荐系统。推荐系统的搭建是个复杂工程,涉及到实时计算、离线计算,以及各种数据采集、流转等,对自建推荐系统来说,1人年是跑不掉的。 本文介绍的内容还包括如何搭建一个个性化推荐系统所需的环境准备、基本配置和离线技术等基本功能的搭

9728 0
来自: 大数据计算 MaxCompute  版块
|
SQL Apache 流计算
|

【译】用SQL统一所有:一种有效的、语法惯用的流和表管理方法

现在还没有一个统一的流式SQL语法标准,各家都在做自己的。本文在一些业界应用的基础上提出了一个统一SQL语法的建议。Spark同样存在这个问题,社区版本在流式SQL上迟迟没有动作。EMR Spark在今年上半年提供了自己设计版本的流式SQL支持,也会在后续的更新中吸收和支持这些优秀的设计建议。

8349 0
|
SQL 数据库 HIVE
|

SQL优化器原理 - 查询优化器综述

本文主要是对数据库查询优化器的一个综述,包括查询优化器分类、查询优化器执行过程和CBO框架Calcite。

10706 0
来自: 大数据计算 MaxCompute  版块
|
运维 搜索推荐 调度
|

Ha3搜索引擎简介

Ha3是阿里巴巴搜索团队开发的搜索引擎平台,它为阿里集团包括淘宝、天猫在内的核心业务提供搜索服务支持。

21310 1
来自: 智能搜索推荐  版块
|
运维 分布式计算 大数据
|

高德地图基于阿里云MaxCompute的最佳实践

云计算带来的变革不言而喻,作为一种新型的IT交付模式,切实为企业节省IT成本、加快IT与企业业务结合效率、提升创新能力、加强管理水平以及增强系统本身的可靠性等方面提供巨大支持,是企业实现新发展的重要途径,它已然成为全球IT产业的主流声音。

8581 0
来自: 大数据计算 MaxCompute  版块
|
存储 消息中间件 算法
|

Apache Flink 漫谈系列(04) - State

实际问题 在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重新新计算一次,还是每次计算都是在上一次计算结果之上进行增量计算呢?答案是肯定的,Apache Flink是基于上一次的计算结果进行增量计算的。

13877 1
来自: 实时计算 Flink  版块
|
存储 消息中间件 监控
|

基于Flink的实时日志分析系统实践

10448 2
来自: 实时计算 Flink  版块
|
分布式计算 监控 大数据
|

【数据架构解读】基于阿里云数加StreamCompute和MaxCompute构建的访问日志统计分析

如何利用阿里云数加快速搭建属于自己的日志分析实时指挥大屏和报表。

8070 0
来自: 大数据计算 MaxCompute  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

3
今日
64083
内容
106
活动
438014
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务