|
弹性计算 数据可视化 API
|

数据库开放权限太危险,又不想写API。DataV给你另外一个选择。

~ DataV 后台21日晚上线,现在暂时还不能用哦 ~ DataV 增加了一个新的数据代理协议,旨在提供更安全的数据查询。它将 SQL 查询字符串和数据库 id 加密后传到这个应用,而后这个应用连接数据库将查询后的结果返回到 DataV 的页面中。 根据新的协议,我做了一个示例应用在githu

47523 141
来自: 数据可视化DataV  版块
|
分布式计算 Hadoop 分布式数据库
|

阿里封神谈hadoop生态学习之路

在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop、hive、spark等。笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1、ODPS等项目,目前base在E-Mapreduce。在这,笔者尽可能梳理下hadoop的学习之路。

50642 13
|
机器学习/深度学习 算法 对象存储
|

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

伴随着今日阿里云机器学习PAI在云栖大会的重磅发布,快来感受下人工智能的魅力。 一、背景 随着互联网的发展,产生了大量的图片以及语音数据,如何对这部分非结构化数据行之有效的利用起来,一直是困扰数据挖掘工程师的一到难题。

50440 63
来自: 人工智能平台PAI  版块
|
供应链 数据可视化 前端开发
|

你刚吃的兰州牛肉面,背后就藏着大数据

兰州拉面都拥抱大数据了,此刻我只想问,黄焖鸡、麻辣烫和沙县小吃,你们还在等什么?

43965 58
来自: 数据可视化DataV  版块
|
存储 分布式计算 监控
|

大数据环境下该如何优雅地设计数据分层

发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。

41147 9
来自: 大数据计算 MaxCompute  版块
|
SQL 算法 安全
|

odps是什么?

ODPS(Open Data Processing Service),原是阿里云从 09年开始自研的大规模批量计算引擎,2016 年更名为MaxCompute。2022云栖大会上,阿里云ODPS全新升级为一体化大数据平台,存储、调度、元数据一体化融合 ,从 Processing 升级为 Platform,即 Open Data Platform and Service。提供了离线计算、实时交互式分析、机器学习等可扩展的智能计算引擎,满足用户多元化数据计算需求。

77971 12
来自: 大数据计算 MaxCompute  版块
|
JavaScript 前端开发 大数据
|

ajax请求总是不成功?浏览器的同源策略和跨域问题详解

XMLHttpRequest cannot load http://oldwang.com/isdad. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://xiao

30901 1
来自: 数据可视化DataV  版块
|
弹性计算 关系型数据库 MySQL
|

【技术实验】mysql准实时同步数据到Elasticsearch

Elasticsearch作为大数据场景下搜索和分析的引擎,广泛应用于实时数据分析等场景。本文作者梳理了从MySQL准实时同步数据到Elasticsearch的实操步骤,帮助开发者理解和快速上手。

24914 154
|
消息中间件 存储 供应链
|

数据仓库介绍与实时数仓案例

1.数据仓库简介 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

44940 237
来自: 实时计算 Flink  版块
|
分布式计算 算法 大数据
|

分布式快照算法: Chandy-Lamport

Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照(Distributed Snapshot)算法 Chandy-Lamport 算法,那么分布式快照算法可以用来解决什么问题呢?

24345 70
|
分布式计算 MaxCompute
|

MaxCompute执行作业慢的原因排查

大家在平时开发过程中经常遇到作业(SQL、MR等)执行慢的原因,今天带大家一起学习自排查方法。 1、wait wait ,job querying 遇到这个提示,就是资源出现了排队,如果你是后付费用户,那就是整个后付费的共享池已经没有富余的资源了,要等前一个作业处理完。

25293 4
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 BI
|

阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能

目前阿里云大数据产品已经免费向全部用户开放了多种公用数据集。开放的数据类别包括:股票价格数据,房产信息,影视及其票房数据。

25764 6
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute 存储
|

吴刚专访--大数据和 MaxCompute 技术和故事

2019大数据技术公开课第一季《技术人生专访》来袭,本季将带领开发者们探讨大数据技术,分享不同国家的工作体验。本文整理自阿里巴巴计算平台事业部高级技术专家吴刚的专访,将为大家介绍Apache ORC开源项目、主流的开源列存格式ORC和Parquet的区别以及MaxCompute选择ORC的原因。

19832 4
来自: 大数据计算 MaxCompute  版块
|
监控 数据可视化 数据挖掘
|

Kibana:数据分析的可视化利器

阿里云Elastisearch集成了可视化工具Kibana,用户可以使用Kibana的开发工具便捷的查询和分析存储在Elastisearch中的数据。除了柱状图、线状图、饼图、环形图等经典可视化功能外,还拥有地理位置分析、数据图谱分析、时序数据分析等高级功能。

20480 6
|
机器学习/深度学习 TensorFlow 算法框架/工具
|

【玩转数据系列十五】机器学习PAI为你自动写歌词,妈妈再也不用担心我的freestyle了(提供数据、代码)

背景 最近互联网上出现一个热词就是“freestyle”,源于一个比拼rap的综艺节目。在节目中需要大量考验选手的freestyle能力,freestyle指的是rapper即兴的根据一段主题讲一串rap。

21109 3
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 自然语言处理 算法
|

【玩转数据系列六】文本分析算法实现新闻自动分类

新闻分类是文本挖掘领域较为常见的场景。目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式,消耗了大量的人力资源。本文尝试通过智能的文本挖掘算法对于新闻文本进行分类。无需任何人肉打标,完全由机器智能化实现。

20045 1
来自: 人工智能平台PAI  版块
|
人工智能 算法框架/工具 流计算
|

独家专访阿里集团副总裁贾扬清:我为什么选择加入阿里巴巴?

在这次访谈中,贾扬清向我们透露了他加入阿里的原因,并对他目前在阿里主要负责的工作做了详细说明,他不仅回顾了过去 6 年 AI 框架领域发生的变化,也分享了自己对于 AI 领域现状的观察和对未来发展的思考。结合自己的经验,贾扬清也给出了一些针对 AI 方向选择和个人职业发展的建议,对于 AI 从业者来

18153 2
来自: 实时计算 Flink  版块
|
弹性计算 分布式计算 Hadoop
|

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

 想用阿里云数加·大数据计算服务(MaxCompute),但是现在数据还在hadoop上,怎么办?   别烦恼,跟着我们走,来一次MaxCompute零基础数据迁移之旅~Let’s Go!

16166 0
来自: 大数据计算 MaxCompute  版块
|
数据采集 分布式计算 监控
|

品《阿里巴巴大数据实践-大数据之路》一书(上)

7月有人推荐阿里巴巴刚出的这本书《阿里巴巴大数据实践-大数据之路》,到亚马逊一看才是预售状态,拍下直到8月才拿到。 翻看目录一看,欢喜的很,正好出差两天就带在身边,由于在机场滞留超过12个小时,就把它读完了。

18937 3
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 搜索推荐
|

干货:解码OneData,阿里的数仓之路。

据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2013年的10倍。正在“爆炸式”增长的数据的潜在巨大价值正在被发掘,它有可能成为商业世界的“新能源”,变革我们的生产,影响我们生活。当我们面对如此庞大的数据之时,如果我们不能有序、有结构的进行分类组织

21913 2
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 大数据
|

阿里云MaxCompute 2019-5月刊

5月MaxCompute新功能发布,精彩技术好文推荐,技术干货下载,6月重要活动抢先知道,尽在5月刊。

15479 0
来自: 大数据计算 MaxCompute  版块
|
存储 SQL 运维
|

流计算StreamCompute

背景 每年的双十一除了“折扣”,全世界(特别是阿里人)都关注的另一个焦点是面向媒体直播的“实时大屏”(如下图所示)。包括总成交量在内的各项指标,通过数字维度展现了双十一狂欢节这一是买家,卖家及物流小二一起创造的奇迹! 双十一媒体直播大屏 这一大屏背后需要实时处理海量的庞大电商系统各个模块产生的

19258 76
来自: 实时计算 Flink  版块
|
分布式计算 大数据 Apache
|

现代流式计算的基石:Google DataFlow

0. 引言 今天这篇继续讲流式计算。毫无疑问,Apache Flink 和 Apache Spark (Structured Streaming)现在是实时流计算领域的两个最火热的话题了。那么为什么要介绍 Google Dataflow 呢?Streaming Systems 这本书在分析 Fli...

19466 60
|
消息中间件 关系型数据库 Kafka
|

如何使用Kafka Connect实现同步RDS binlog数据

本文介绍如何在E-MapReduce上使用Kafka Connect实现同步RDS binlog数据

16534 1
|
新零售 搜索推荐 调度
|

通过Flink实时构建搜索引擎的索引

1.背景介绍 搜索引擎的出现大大降低了人们寻找信息的难度,已经深入到生活与工作的方方面面,简单列举几个应用如下: 互联网搜索,如谷歌,百度等; 垂直搜索,如淘宝、天猫的商品搜索; 站内搜索,各个内容网站提供的站内搜索服务; 企业内部搜索,员工查询企业内部信息; 广告投放,根据投放上下文检索出对应的广告主和广告内容; 搜索引擎的关键是让用户找到其所需信息,其整体架构如下: 从图示可知,一个搜索引擎从大的方面来看主要包括两部分,一部分是提供在线的搜索服务,一部分要把原始数据已离线的方式建立索引,建立索引是信息可搜索的前提。

18347 160
来自: 实时计算 Flink  版块
|
算法 搜索推荐 大数据
|

品《阿里巴巴大数据实践-大数据之路》一书(下)

今天继续谈阿里的这本书,包括数据服务平台、数据挖掘平台、数据建模、数据管理及数据应用,希望于你有启示。 1、数据服务平台 数据服务平台可以叫数据开放平台,数据部门产出海量数据,如何能方便高效地开放出去,是我们一直要解决的难题,在没有数据服务的年代,阿里的数据开放的方式简单、粗暴,一般是直接将数据导出给对方,我想,现在大多公司的开放应该也是如此吧,虽然PaaS喊了这么多年,但真正成就的又有几个? 即使如阿里,在数据开放这个方向上的探索和实践,至今也有7个年头了,任何关于数据开放毕其功于一役的做法都将失败,任何一次数据开放的改进都是伴随着对于业务理解的深入而成长起来的。

16113 2
来自: 大数据计算 MaxCompute  版块
|
消息中间件 Web App开发 监控
|

Flume+Kafka+Flink+Redis构建大数据实时处理系统:实时统计网站PV、UV展示

1.大数据处理的常用方法 大数据处理目前比较流行的是两种方法,一种是离线处理,一种是在线处理,基本处理架构如下: 在互联网应用中,不管是哪一种处理方式,其基本的数据来源都是日志数据,例如对于web应用来说,则可能是用户的访问日志、用户的点击日志等。

25460 17
来自: 实时计算 Flink  版块
|
对象存储 存储 分布式计算
|

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS 是EMR打造的高性能大数据存储服务,可以为不同的计算引擎提供不同的存储服务,可以根据应用的场景来选择不同的存储模式。在2019杭州云栖大会大数据生态专场,阿里巴巴计算平台事业部EMR团队技术专家殳鑫鑫和Intel大数据团队软件开发经理徐铖共同向大家分享了云上大数据的高性能数据湖存储方案JindoFS的产生背景、架构以及与Intel DCPM的性能评测。

17107 58
|
大数据 分布式计算 安全
|

混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

2019杭州云栖大会大数据企业级服务专场,由斗鱼大数据高级专家张龙带来以 “混合云模式下 MaxCompute+Hadoop 混搭大数据架构实践” 为题的演讲。本文讲述了从 Apache Hadoop 阶段到 Cloudera CDH 阶段斗鱼大数据架构的发展历程。提出了上云过程中斗鱼遇到的问题和跳战,包括数据安全、数据同步以及迁移任务。概括了混合云模式给斗鱼带来资源效率更高和资源成本更低的变化。

16327 2
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 SQL 分布式计算
|

【玩转数据系列一】人口普查统计案例

玩转数据系列文章通过简单地案例搭建,介绍如何通过阿里云机器学习平台进行数据挖掘。

16895 1
来自: 人工智能平台PAI  版块
|
安全 数据安全/隐私保护
|

新版发布功能上线,新增「大屏快照」功能!

新版发布功能上线,新增「大屏快照」功能! 发布分享 链接设置 分享链接 ​ 打开「发布分享」按钮之后,会随机生成一个分享链接,此链接每次打开之后都会变更,上一次的分享链接随即失效且不能恢复到历史分享链接。

15182 152
来自: 数据可视化DataV  版块
|
安全 数据中心 分布式计算
|

如何有效降低大数据平台安全风险

在2019杭州云栖大会大数据企业级服务专场,由阿里云智能计算平台事业部资深技术专家李雪峰带来以“如何有效降低大数据平台安全风险”为题的演讲。本文首先概括了企业在大数据上云过程中会产生的安全顾虑。接着,在大数据平台中要处理的安全风险中,对数据中心物理安全与网络安全、大数据平台系统安全以及数据应用安全三部分做了详细的介绍。最后,描述了阿里云飞天大数据平台的安全体系。

14148 2
来自: 大数据计算 MaxCompute  版块
|
运维 流计算
|

阿里云实时计算产品案例&解决方案汇总

阿里云实时计算产品案例&解决方案汇总页

29110 3
来自: 实时计算 Flink  版块
|
分布式计算 大数据 Spark
|

Spark in action on Kubernetes - Playground搭建与架构浅析

前言Spark是非常流行的大数据处理引擎,数据科学家们使用Spark以及相关生态的大数据套件完成了大量又丰富场景的数据分析与挖掘。Spark目前已经逐渐成为了业界在数据处理领域的行业标准。但是Spark本身的设计更偏向使用静态的资源管理,虽然Spark也支持了类似Yarn等动态的资源管理器,但是这些资源管理并不是面向动态的云基础设施而设计的,在速度、成本、效率等领域缺乏解决方案。

13490 1
|
分布式计算 大数据 MaxCompute
|

【逐云】阿里“水电煤”背后的人物故事

《逐云》第三期,我们拍了阿里巴巴通用计算平台负责人关涛,记录了他的学生时代,以及为什么从美回国来到阿里巴巴做通用计算平台,以及他对未来的展望。

13481 0
来自: 大数据计算 MaxCompute  版块
|
对象存储 存储 分布式计算
|

JindoFS解析 - 云上大数据高性能数据湖存储方案

JindoFS 是云原生的文件系统,可以提供OSS 超大容量以及本地磁盘的性能

15206 0
|
机器学习/深度学习 分布式计算 算法
|

凑单算法——基于Graph Embedding的bundle mining

本文描述如何在凑单场景突破找相似、发现惊喜的同时做到成交翻倍,实现体验和数据上的双赢。

16227 0
来自: 智能搜索推荐  版块
|
机器学习/深度学习 自然语言处理 算法
|

DL应用:query生成和query推荐

引言  在机器翻译、图片描述、语义蕴涵、语音识别和文本摘要中,序列到序列的问题已经有太多大牛研究了,也取得了很多突破。谷歌的Attention is all you need[1],舍弃并超越了主流的rnn与cnn序列建模框架,刷出了新的state of the art,这种大胆创新的精神值得我们学习。

16274 1
来自: 智能搜索推荐  版块
|
机器学习/深度学习 人工智能 算法
|

阿里巴巴机器学习系列课程

亲爱的同学们,福利来临!随着机器学习领域的发展越来越火,阿里云机器学习PAI为广大机器学习爱好的学生提供免费的一站式算法平台,该平台提供上百种算法,并且兼容TensorFlow、Caffe、MXNET等深度学习框架,学生们还可以免费使用M40 GPU卡,这么好的福利到哪里去领呢? 点击开通机器学习PAI:https://data.

16173 4
来自: 人工智能平台PAI  版块
|
分布式计算 大数据 MaxCompute
|

阿里云数加MaxCompute购买咨询钉钉群

为企业解答阿里云MaxCompute大数据计算产品购买问题。

14450 0
来自: 大数据计算 MaxCompute  版块
|
数据采集 分布式计算 大数据
|

企业大数据平台下数仓建设思路

介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾经数据魔方、淘宝指数的数据架构设计专家。 与阿里云大数据数仓结缘 介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的

14647 1
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 网络安全
|

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

目前Aliyun E-MapReduce支持了zeppelin和hue,在Aliyun E-MapReduce集群上可以很方便的使用zeppelin和hue。本文将详细介绍如何在Aliyun E-MapReduce玩转Zeppelin和Hue!

13375 23
|
机器学习/深度学习 自然语言处理 算法
|

阿士比亚:搜索团队智能内容生成实践

本文主要介绍阿里巴巴-搜索事业部算法团队上半年在智能内容生成方向工作的一些实践和思考。

16633 0
来自: 智能搜索推荐  版块
|
算法 机器学习/深度学习 数据处理
|

【玩转数据系列三】利用图算法实现金融行业风控

本文将针对阿里云平台上图算法模块来进行实验。图算法一般被用来解决关系网状的业务场景。与常规的结构化数据不同,图算法需要把数据整理成首尾相连的关系图谱。图算法更多的是考虑边和点的概念。阿里云机器学习平台上提供了丰富的图算法组件,包括K-Core、最大联通子图、标签传播聚类等。

13801 1
来自: 人工智能平台PAI  版块

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

TopN 是统计报表和大屏非常常见的功能,主要用来实时计算排行榜。流式的 TopN 不同于批处理的 TopN,它的特点是持续的在内存中按照某个统计指标(如出现次数)计算 TopN 排行榜,然后当排行榜发生变化时,发出更新后的排行榜。

18144 1
来自: 实时计算 Flink  版块
|
机器学习/深度学习 算法 对象存储
|

机器学习PAI全新功效——实时新闻热点Online Learning实践

(本实验会用到流式机器学习算法,正处于邀测状态,需要申请开通)PAI地址:https://data.aliyun.com/product/learn流式机器学习算法申请:https://data.aliyun.com/paionlinelearning打开新闻客户端,往往会收到热点新闻推送相关的内容。

14086 0
来自: 人工智能平台PAI  版块
|
SQL 分布式计算 DataWorks
|

阿里云 MaxCompute 2019-11 月刊

Tableau官方支持MaxCompute数据源,MaxCompute提供了对SQL查询任务结果的动态脱敏功能, 数据迁移工具全新发布等精彩内容尽在 11月刊,欢迎阅读。

11244 0
来自: 大数据计算 MaxCompute  版块
|
人工智能 分布式计算 大数据
|

倒计时1天!相约杭州云栖,相遇数据智能

2016杭州云栖大会盛大开启,与阿里云大数据一起相约杭州云栖,相遇数据智能!我们精心准备了四大智能看点,等你用一颗大数据的心,鞠一捧智能的“水”。

11392 1
来自: 大数据计算 MaxCompute  版块
|
分布式计算 数据挖掘 API
|

PyOdps DataFrame来临,数据分析从未如此简单!

PyOdps正式发布DataFrame框架(此处应掌声经久不息),DTer的福音!有了它,就像卷福有了花生,比翼双飞,哦不,如虎添翼。 快过年了,大家一定没心情看长篇大论的分析文章。作为介绍PyOdps DataFrame的开篇文章,我只说说其用起来爽的地方。其余的部分,从使用、问题到实现原理,我

11779 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 并行计算 TensorFlow
|

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

11497 1

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

2
今日
69050
内容
128
活动
439682
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务