|
SQL 数据可视化 前端开发
|

DataV首次实战分享:教你30分钟创建汽车大屏

我是一个技术男,同样也是个汽车爱好者,上个月买了辆的宝马,却发现路上的“宝马越来越多”(⊙﹏⊙)b ...... 我喜欢钻研技术,也喜欢钻研汽车,最近研究了一下数据可视化,发现用datav可以玩出一些花样,这次就分享一下我做汽车数据大屏的经验。

70212 178
来自: 数据可视化DataV  版块
|
存储 分布式计算 监控
|

大数据环境下该如何优雅地设计数据分层

发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。

41027 9
来自: 大数据计算 MaxCompute  版块
|
SQL 算法 安全
|

odps是什么?

ODPS(Open Data Processing Service),原是阿里云从 09年开始自研的大规模批量计算引擎,2016 年更名为MaxCompute。2022云栖大会上,阿里云ODPS全新升级为一体化大数据平台,存储、调度、元数据一体化融合 ,从 Processing 升级为 Platform,即 Open Data Platform and Service。提供了离线计算、实时交互式分析、机器学习等可扩展的智能计算引擎,满足用户多元化数据计算需求。

77205 12
来自: 大数据计算 MaxCompute  版块
|
弹性计算 关系型数据库 MySQL
|

【技术实验】mysql准实时同步数据到Elasticsearch

Elasticsearch作为大数据场景下搜索和分析的引擎,广泛应用于实时数据分析等场景。本文作者梳理了从MySQL准实时同步数据到Elasticsearch的实操步骤,帮助开发者理解和快速上手。

24862 154
|
消息中间件 存储 供应链
|

数据仓库介绍与实时数仓案例

1.数据仓库简介 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

44441 237
来自: 实时计算 Flink  版块
|
分布式计算 MaxCompute
|

MaxCompute执行作业慢的原因排查

大家在平时开发过程中经常遇到作业(SQL、MR等)执行慢的原因,今天带大家一起学习自排查方法。 1、wait wait ,job querying 遇到这个提示,就是资源出现了排队,如果你是后付费用户,那就是整个后付费的共享池已经没有富余的资源了,要等前一个作业处理完。

24968 4
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 BI
|

阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能

目前阿里云大数据产品已经免费向全部用户开放了多种公用数据集。开放的数据类别包括:股票价格数据,房产信息,影视及其票房数据。

25544 6
来自: 大数据计算 MaxCompute  版块
|
监控 数据可视化 数据挖掘
|

Kibana:数据分析的可视化利器

阿里云Elastisearch集成了可视化工具Kibana,用户可以使用Kibana的开发工具便捷的查询和分析存储在Elastisearch中的数据。除了柱状图、线状图、饼图、环形图等经典可视化功能外,还拥有地理位置分析、数据图谱分析、时序数据分析等高级功能。

20318 6
|
SQL 分布式计算 大数据
|

Python+大数据计算平台,PyODPS架构手把手教你搭建

在2016年10月的云栖社区在线培训上,来自阿里云大数据事业部的秦续业分享了《双剑合壁——Python和大数据计算平台的结合实战》。他主要介绍了数据分析和机器学习的方法、DataFrame整体架构以及基础API、前端、后端、机器学习的具体实现方法。

18477 4
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 自然语言处理 算法
|

【玩转数据系列六】文本分析算法实现新闻自动分类

新闻分类是文本挖掘领域较为常见的场景。目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式,消耗了大量的人力资源。本文尝试通过智能的文本挖掘算法对于新闻文本进行分类。无需任何人肉打标,完全由机器智能化实现。

19920 1
来自: 人工智能平台PAI  版块
|
存储 分布式计算 监控
|

【大数据干货】轻松处理每天2TB的日志数据,支撑运营团队进行大数据分析挖掘,随时洞察用户个性化需求。

“用户每天产生的日志量大约在2TB。我们需要将这些海量的数据导入云端,然后分天、分小时的展开数据分析作业,分析结果再导入数据库和报表系统,最终展示在运营人员面前。”墨迹天气运维部经理章汉龙介绍,整个过程中数据量庞大,且计算复杂,这对云平台的大数据能力、生态完整性和开放性提

17132 4
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 搜索推荐
|

干货:解码OneData,阿里的数仓之路。

据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2013年的10倍。正在“爆炸式”增长的数据的潜在巨大价值正在被发掘,它有可能成为商业世界的“新能源”,变革我们的生产,影响我们生活。当我们面对如此庞大的数据之时,如果我们不能有序、有结构的进行分类组织

21753 2
来自: 大数据计算 MaxCompute  版块
|
弹性计算 分布式计算 Hadoop
|

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

 想用阿里云数加·大数据计算服务(MaxCompute),但是现在数据还在hadoop上,怎么办?   别烦恼,跟着我们走,来一次MaxCompute零基础数据迁移之旅~Let’s Go!

15989 0
来自: 大数据计算 MaxCompute  版块
|
存储 SQL 运维
|

流计算StreamCompute

背景 每年的双十一除了“折扣”,全世界(特别是阿里人)都关注的另一个焦点是面向媒体直播的“实时大屏”(如下图所示)。包括总成交量在内的各项指标,通过数字维度展现了双十一狂欢节这一是买家,卖家及物流小二一起创造的奇迹! 双十一媒体直播大屏 这一大屏背后需要实时处理海量的庞大电商系统各个模块产生的

19200 76
来自: 实时计算 Flink  版块
|
分布式计算 关系型数据库 大数据
|

[ETL实践指南]基于Kettle的MaxCompute插件实现数据上云

本文用到的 阿里云数加-大数据计算服务MaxCompute产品地址:https://www.aliyun.com/product/odps 简介 Kettle是一款开源的ETL工具,纯java实现,可以运行于Windows, Unix, Linux上运行,提供图形化的操作界面,可以通过拖拽控件的方式,方便地定义数据传输的拓扑。

20962 3
来自: 大数据计算 MaxCompute  版块
|
数据采集 分布式计算 监控
|

阿里数据仓库实践分享

数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

16162 1
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 资源调度
|

MaxCompute常见错误汇总(更新ing)

从今天开始,小编会为大家陆续解读MaxCompute常见问题,帮助大家快速上手MaxCompute,玩转大数据计算平台。

24417 8
来自: 大数据计算 MaxCompute  版块
|
消息中间件 关系型数据库 Kafka
|

如何使用Kafka Connect实现同步RDS binlog数据

本文介绍如何在E-MapReduce上使用Kafka Connect实现同步RDS binlog数据

16419 1
|
算法 搜索推荐 大数据
|

品《阿里巴巴大数据实践-大数据之路》一书(下)

今天继续谈阿里的这本书,包括数据服务平台、数据挖掘平台、数据建模、数据管理及数据应用,希望于你有启示。 1、数据服务平台 数据服务平台可以叫数据开放平台,数据部门产出海量数据,如何能方便高效地开放出去,是我们一直要解决的难题,在没有数据服务的年代,阿里的数据开放的方式简单、粗暴,一般是直接将数据导出给对方,我想,现在大多公司的开放应该也是如此吧,虽然PaaS喊了这么多年,但真正成就的又有几个? 即使如阿里,在数据开放这个方向上的探索和实践,至今也有7个年头了,任何关于数据开放毕其功于一役的做法都将失败,任何一次数据开放的改进都是伴随着对于业务理解的深入而成长起来的。

16045 2
来自: 大数据计算 MaxCompute  版块
|
对象存储 存储 分布式计算
|

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS 是EMR打造的高性能大数据存储服务,可以为不同的计算引擎提供不同的存储服务,可以根据应用的场景来选择不同的存储模式。在2019杭州云栖大会大数据生态专场,阿里巴巴计算平台事业部EMR团队技术专家殳鑫鑫和Intel大数据团队软件开发经理徐铖共同向大家分享了云上大数据的高性能数据湖存储方案JindoFS的产生背景、架构以及与Intel DCPM的性能评测。

16962 58
|
大数据 分布式计算 安全
|

混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

2019杭州云栖大会大数据企业级服务专场,由斗鱼大数据高级专家张龙带来以 “混合云模式下 MaxCompute+Hadoop 混搭大数据架构实践” 为题的演讲。本文讲述了从 Apache Hadoop 阶段到 Cloudera CDH 阶段斗鱼大数据架构的发展历程。提出了上云过程中斗鱼遇到的问题和跳战,包括数据安全、数据同步以及迁移任务。概括了混合云模式给斗鱼带来资源效率更高和资源成本更低的变化。

16269 2
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 分布式计算 大数据
|

互联网下半场的角逐,玩转轻资产的大数据服务 | 阿里云栖开发者沙龙大数据专场(北京站)干货集锦

MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。欢迎加入钉钉交流群11782920。

13771 0
来自: 大数据计算 MaxCompute  版块
|
安全 数据安全/隐私保护
|

新版发布功能上线,新增「大屏快照」功能!

新版发布功能上线,新增「大屏快照」功能! 发布分享 链接设置 分享链接 ​ 打开「发布分享」按钮之后,会随机生成一个分享链接,此链接每次打开之后都会变更,上一次的分享链接随即失效且不能恢复到历史分享链接。

15148 152
来自: 数据可视化DataV  版块
|
运维 流计算
|

阿里云实时计算产品案例&解决方案汇总

阿里云实时计算产品案例&解决方案汇总页

28996 3
来自: 实时计算 Flink  版块
|
分布式计算 大数据 MaxCompute
|

【逐云】阿里“水电煤”背后的人物故事

《逐云》第三期,我们拍了阿里巴巴通用计算平台负责人关涛,记录了他的学生时代,以及为什么从美回国来到阿里巴巴做通用计算平台,以及他对未来的展望。

13433 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 分布式计算 算法
|

凑单算法——基于Graph Embedding的bundle mining

本文描述如何在凑单场景突破找相似、发现惊喜的同时做到成交翻倍,实现体验和数据上的双赢。

16097 0
来自: 智能搜索推荐  版块
|
对象存储 存储 分布式计算
|

JindoFS解析 - 云上大数据高性能数据湖存储方案

JindoFS 是云原生的文件系统,可以提供OSS 超大容量以及本地磁盘的性能

15108 0
|
机器学习/深度学习 人工智能 算法
|

阿里巴巴机器学习系列课程

亲爱的同学们,福利来临!随着机器学习领域的发展越来越火,阿里云机器学习PAI为广大机器学习爱好的学生提供免费的一站式算法平台,该平台提供上百种算法,并且兼容TensorFlow、Caffe、MXNET等深度学习框架,学生们还可以免费使用M40 GPU卡,这么好的福利到哪里去领呢? 点击开通机器学习PAI:https://data.

16122 4
来自: 人工智能平台PAI  版块
|
数据采集 分布式计算 大数据
|

企业大数据平台下数仓建设思路

介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾经数据魔方、淘宝指数的数据架构设计专家。 与阿里云大数据数仓结缘 介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的

14575 1
来自: 大数据计算 MaxCompute  版块
|
分布式计算 数据处理 API
|

流计算精品翻译: The Dataflow Model

我们提出了Dataflow模型,并详细地阐述了它的语义,设计的核心原则,以及在实践开发过程中对模型的检验。

19980 1
来自: 实时计算 Flink  版块
|
流计算 Apache
|

接着!!Apache Flink 全领域干货合集(持续更新)

Apache Flink 下一代开源大数据计算引擎, 可对有限数据流和无限数据流进行有状态计算,可部署在各种集群环境,对各种大小的数据规模进行快速计算。Flink 1.9.0 发布,在批流融合与功能特性上有重大更新,本专题将持续更新新增特性的具体说明及全领域干货。

16867 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 自然语言处理 算法
|

阿士比亚:搜索团队智能内容生成实践

本文主要介绍阿里巴巴-搜索事业部算法团队上半年在智能内容生成方向工作的一些实践和思考。

16248 0
来自: 智能搜索推荐  版块

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

TopN 是统计报表和大屏非常常见的功能,主要用来实时计算排行榜。流式的 TopN 不同于批处理的 TopN,它的特点是持续的在内存中按照某个统计指标(如出现次数)计算 TopN 排行榜,然后当排行榜发生变化时,发出更新后的排行榜。

17769 0
来自: 实时计算 Flink  版块
|
算法 机器学习/深度学习 数据处理
|

【玩转数据系列三】利用图算法实现金融行业风控

本文将针对阿里云平台上图算法模块来进行实验。图算法一般被用来解决关系网状的业务场景。与常规的结构化数据不同,图算法需要把数据整理成首尾相连的关系图谱。图算法更多的是考虑边和点的概念。阿里云机器学习平台上提供了丰富的图算法组件,包括K-Core、最大联通子图、标签传播聚类等。

13694 1
来自: 人工智能平台PAI  版块
|
SQL 分布式计算 算法
|

SQL优化器原理 - Join重排

这是MaxCompute有关SQL优化器原理的系列文章之一。我们会陆续推出SQL优化器有关优化规则和框架的其他文章。添加钉钉群“关系代数优化技术”(群号11719083)可以获取最新文章发布动态。 本文的目标是解释Join重排这个特性的基础概念和算法,如果想快速了解并在MaxCompute上使用这个特性,请直接跳到“总结”。

12546 1
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute Python
|

在PyODPS DataFrame自定义函数中使用pandas、scipy和scikit-learn

背景 [PyODPS DataFrame]http://pyodps.readthedocs.io/zh_CN/latest/) 提供了类似 pandas 的接口,来操作 ODPS 数据,同时也支持在本地使用 pandas,和使用数据库来执行。

14930 2
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 大数据
|

解决大数据难题 阿里云MaxCompute获科技大奖

据介绍,MaxCompute(大规模分布式的数据计算平台)是国内最早自研的大数据计算平台之一,主要应用于大规模数据处理场景。目前,这项源自浙江、解决世界级难题的成果已拥有EB(百京)级别的数据存储能力、百PB(千兆)级的单日计算能力。

10631 0
来自: 大数据计算 MaxCompute  版块
|
存储 运维 监控
|

阿里云大数据计算平台的自动化、精细化运维之路

作者简介:     范伦挺   阿里巴巴 基础架构事业群-技术专家   花名萧一,2010年加入阿里巴巴,现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute、AnalyticDB、StreamComput

12561 0
来自: 大数据计算 MaxCompute  版块
|
存储 缓存 分布式计算
|

JindoFS概述:云原生的大数据计算存储分离方案

JindoFS 是一套新的云原生的数据湖解决方案。在 JindoFS 之前,云上客户主要使用 HDFS 和 OSS/S3 作为大数据存储。HDFS 是 Hadoop 原生的存储系统,10 年来,HDFS 已经成为大数据生态的存储标准,但是我们也可以看到 HDFS 虽然不断优化,但是 JVM 的瓶颈也始终无法突破。

23905 3
|
存储 分布式计算 大数据
|

5W1H(六何分析法)全景洞察大数据

我们从大数据的特征说起,谈到了大数据的价值,再聊什么时候做,谁去做,选择什么平台,最后聊到了怎么做的问题。通过对一些真实的场景分析,了解了大数据的全貌。

11591 58
|
分布式计算 监控 关系型数据库
|

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

基本架构 RDS -> SLS -> Spark Streaming -> Spark HDFS 上述链路主要包含3个过程: 如何把 RDS 的 binlog 收集到 SLS。 如何通过 Spark Streaming 将 SLS 中的日志读取出来,进行分析。

11343 0
|
算法 搜索推荐 双11
|

实时离线平台Pora介绍@2015

11776 2
来自: 智能搜索推荐  版块
|
机器学习/深度学习 分布式计算 数据挖掘
|

MaxCompute上你从未体验过的数据分析和机器学习过程

PyODPS,拥有对于Python用户传统的数据分析和机器学习愉快的体验,包括了DataFrame框架和机器学习模块,它们类似于pandas+scikit-learn,能用它们进行数据分析、绘图、机器学习等等。

10427 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 数据可视化 Java
|

原来MaxCompute还能这么玩系列(1)—— 通过Apache Zeppelin 快速实现数据可视化

通过简单的几步配置,教你如何快速实现MaxCompute的数据可视化

10993 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 算法 大数据
|

3天撸完一个团队半年的项目,单客户数据动辄几百万的行业也玩云?

自97年成立至今已接近20年,在前十六七年 明源云主要跑在传统ERP软件轨道上,4年前世界变了,云计算&移动互联网来了,两个最大的行业变量,如果不做出改变就可能被颠覆。因此,明源云决定开辟新战场,用互联网的方式来做地产行业。

10160 0
来自: 大数据计算 MaxCompute  版块
|
大数据 分布式计算 MaxCompute
|

【最全合集】一文看尽 2019杭州云栖大会 MaxCompute 技术分享

本文汇集2019杭州云栖大会上MaxCompute的主题分享,内容涵盖MaxCompute技术关键进展及展望,超大规模企业级计算引擎,分布式智能调度执行框架,列式存储引擎,MaxCompute生态,大数据平台的安全风控以及混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践等内容,从底层技术到最佳实践,内容广泛而深入,希望能让读者有所收获。

10960 0
来自: 大数据计算 MaxCompute  版块
|
存储 JSON 分布式计算
|

标签分类理论

最近在做DMP,负责设计一套标签管理系统。在对现有标签进行整理的过程中,整理出了这套东西。 0. 标签的定义:标签分类学(Taxonomy) 对于标签(tag),很难列出一个公认的定义,指明这个概念的种差与属概念。所以为了把握这个概念,就需要采取定义另一种办法:分类与枚举。 我们要解决的第一个

13400 1
来自: 大数据计算 MaxCompute  版块
|
SQL 存储 关系型数据库
|

【转载文章】记录一次MySQL两千万数据的大表优化解决过程,提供三种解决方案

问题概述 使用阿里云rds for MySQL数据库(就是MySQL5.6版本),有个用户上网记录表6个月的数据量近2000万,保留最近一年的数据量达到4000万,查询速度极慢,日常卡死。严重影响业务。

13327 1
来自: 大数据计算 MaxCompute  版块
|
分布式计算 资源调度 安全
|

从单租户IaaS到多租户PaaS——金融级别大数据平台MaxCompute的多租户隔离实践

摘要:在2017年云栖大会•北京峰会的大数据专场中,来自阿里云的高级技术专家李雪峰带来了主题为《金融级别大数据平台的多租户隔离实践》的演讲。在分享中,李雪峰首先介绍了基于传统IaaS单租户架构做隔离时面临的问题;然后,他重点分享了MaxCompute PaaS层面的多租户的架构以及MaxCompute在安全隔离方面的具体实践。

12028 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 大数据
|

数据库工程师快速上手MaxCompute进行ETL

案例说明 本案例主要是介绍如何通过数加MaxCompute+大数据开发套件两个产品实现简单的网站数据统计分析。 适用人群 MaxCompute初学者,特别是无大数据开发基础但有数据库使用基础。 案例侧重 数据库工程师快速上手MaxCompute进行大数据开发,简单了解在MaxCompute做大数据ETL过程,同时了解一些MaxCompute SQL和常用数据库SQL的基本区别。

10625 0
来自: 大数据计算 MaxCompute  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
67719
内容
128
活动
439503
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务