|
分布式计算 关系型数据库 大数据
|

大数据开发套件—数据集成常见问题

我们在进行大数据开发过程中,会遇到各种问题,本文将定期收集整理一些在使用阿里云数加大数据开发套件进行数据同步过程中遇到的常见问题,供大家参考~

4075 0
来自: 大数据计算 MaxCompute  版块
|
存储 分布式数据库 Apache
|

E-MapReduce的HBase集群间迁移

E-MapReduce提供HBase服务,本文介绍了几种HBase集群间迁移的方法

3595 0
|
分布式计算 JavaScript 安全
|

MaxCompute 项目空间内的访问控制和权限管理

本文将为您介绍项目空间内的访问控制和权限管理。

4599 0
来自: 大数据计算 MaxCompute  版块
|
Web App开发 监控 流计算
|

实时欺诈检测(风控)

基于实时计算,您可以轻松完成实时欺诈检测系统。 实时欺诈检测系统能够及时发现用户高危行为并采取措施,降低损失。 系统架构:   实时欺诈检测(风控)系统流程如下: 用户的行为经由App上报或Web日志记录下来,发送到一个消息队列里去。

5945 0
来自: 实时计算 Flink  版块
|
分布式计算 供应链 安全
|

30秒在线卖出3000套房,对于云系统来说只是小意思!

数字经济时代,互联网改变着我们生活的方方面面,同时也在改变着商业世界的运营法则。而随着云计算、移动互联网、人工智能、大数据新一代技术的应用和发展,以及传统行业转型升级的日益深化,二者之间的关系变得愈发紧密。

3557 0
来自: 大数据计算 MaxCompute  版块
|
消息中间件 人工智能 分布式计算
|

开源大数据周刊-第67期

3403 0
|
分布式计算 大数据 MaxCompute
|

MaxCompute UDF系列之全角转半角

我们在做文本挖掘处理的时候,需要经常把全角字符转成半角处理,今天为大家提供一个全角转半角的MaxCompute UDF,下载地址见附件。 效果如下: MaxCompute UDF代码如下: package com.

4094 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 大数据
|

邀您参与阿里云MaxCompute2.0最佳实践征文活动

DT时代,越来越多的企业应用数据步入云端。与传统Hadoop相比,阿里云大数据计算服务MaxCompute(原名ODPS)向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

3101 0
来自: 大数据计算 MaxCompute  版块
|
存储 算法 大数据
|

基于实时计算(flink)打造舆情分析平台——新华智云

基于实时计算打造舆情分析平台——新华智云 1.客户&产品简介: 新华智云是一家致力于通过大数据技术驱动媒体变革的公司,数芯是新华智云推出的实时舆情分析平台,旨在满足用户一系列舆情分析需求。

5789 0
来自: 实时计算 Flink  版块
|
分布式计算 MaxCompute 大数据
|

TPCx-BB官宣最新世界纪录,阿里巴巴计算力持续突破

飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。不仅首次将数据规模拓展到100TB,性能达到25641.21QPM,更在TPCx-BB已有最大30TB规模上,将性能提升近一倍,达到6427.86QPM,单位价格下降一半,达到169.76$/QPM。

4238 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 运维 DataWorks
|

MaxCompute安全管理指南-基础篇

背景及目的 方便和辅助MaxCompute的project owner或安全管理员进行project的日常安全运维,保障数据安全。 MaxCompute有安全模型,DataWorks也有安全模型,当通过DataWorks使用MaxCompute,而DataWorks的安全模型不满足业务安全需求时,合理的将两个安全模型结合使用就尤其重要。

4816 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 Java
|

这家数据公司为什么能成为数百万企业的选择?

今年年初,Oracle发布了一份大数据变化趋势报告,报告中指出,越来越多的企业将用户分析甚至是企业应用同大数据加以结合。从AI支持型应用到Megabox等数据流客户端,各家企业都将迎来自己的大数据转型及下一代数据驱动型应用。

3272 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 算法 流计算
|

深度预测平台RTP介绍

前言 RTP平台是阿里内部一个通用的在线预测平台,不仅支持淘系搜索、推荐、聚划算、淘金币等业务,也支持国际化相关icbu、lazada等搜索推荐业务,同时还支持着淘客,优酷、飞猪等大文娱的搜索推荐场景。

11055 0
来自: 智能搜索推荐  版块
|
机器学习/深度学习 运维 监控
|

如何使用阿里云机器学习PAI的离线周期性调度功能

3615 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 搜索推荐 大数据
|

专访 Elasticsearch 创始人 Shay Banon:让数据自己说话

11 月 13 日,在 2017 杭州云栖大会上,Elasticsearch 与阿里云宣布达成战略合作,共同研发及发布阿里云上提供托管的 Elasticsearch,为中国市场提供崭新的用户体验。Elasticsearch 挺进中国市场面临的机遇和挑战如何?阿里云 Elasticsearch 为中国用户提供了哪些新服务?为此,InfoQ 采访了 Elasticsearch 的创始人兼首席执行官 Shay Banon。

5209 0
|
存储 分布式计算 运维
|

MaxCompute预付费资源监控工具-CU管家

很多MaxCompute预付费用户,经常会问到我,我买了150CU,但是很多作业还是要排队,到底是哪些任务占满了资源,能否把让这些不重要的任务不干扰重要生产任务。 今天为大家带来了MaxCompute CU管家公测版,我们看看它具备哪些实用功能,可以帮到运维人员。

3483 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 算法 数据挖掘
|

图(关系网络)数据分析及阿里应用

2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,阿里巴巴资深技术专家钱正平为大家分享了大数据技术背景下图数据的应用前景,以及阿里巴巴在图数据的建模、查询和系统优化等方面做出的初步探索。

5328 0
来自: 大数据计算 MaxCompute  版块
|
SQL HIVE 流计算
|

如何在 Flink 1.9 中使用 Hive?

Apache Flink 从 1.9.0 版本开始增加了与 Hive 集成的功能,用户可以通过 Flink 来访问 Hive 的元数据,以及读写 Hive 中的表。本文将主要从项目的设计架构、最新进展、使用说明等方面来介绍这一功能。

5819 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 算法 搜索推荐
|

强化学习在锦囊位置调控上的探索和实践

1. 背景     在手淘的搜索中,当用户输入query进行搜索之后,一方面有适合他的商品展现出来,另一方面,如何更好地理解用户意图,为其推荐更合适的关键词进行细分查找,从而更高效的引导用户到他想找的商品,也是一件非常重要的事情。

3461 0
来自: 智能搜索推荐  版块
|
分布式计算 资源调度 Hadoop
|

都是default惹的祸-yarn调度(一)-fair调度器drf调度策略作业不执行问题的调查和源码分析

问题背景 yarn的fair类型资源池,是企业级hadoop用户常用的资源池类型。该资源池默认的队列调度策略是fair,即分配资源时只考虑内存限制。 对一个多个团队混合使用的大集群来说,如果想要在分配资源时同时考虑内存和cpu限制,需要指定调度策略为drf。

4423 0
|
分布式计算 并行计算 TensorFlow
|

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

4579 0
|
SQL 存储 缓存
|

EMR Spark Relational Cache的执行计划重写

背景 EMR Spark提供的Relational Cache功能,可以通过对数据模型进行预计算和高效地存储,加速Spark SQL,为客户实现利用Spark SQL对海量数据进行即时查询的目的。Relational Cache的工作原理类似物化视图,在用户提交SQL语句时对语句进行分析,并选出可用的预计算结果来加速查询。

3533 0
|
存储 运维 大数据
|

阿里云Elasticsearch 智能化运维实践

背景   Elasticsearch作为一个开箱即用的搜索引擎,其丰富的功能和极低的使用门槛吸引着越来越多的公司和用户选择它作为搜索和数据分析的工具。用户在运维Elasticsearch集群时往往会遇到很多难题,具体来说有下面列举的几点: 使用方式往往比较粗糙,默认的设置并不适合每一个集群和业务,非精细化的设计将会极大的增加集群隐患; 集群出现问题,无法及时定位原因、寻找解决方案,低效的沟通或者解决问题的方式可能会使得问题变得愈发严重; ES提供的监控指标繁杂,指标多,意义不明确,需要一定的专业知识才可以理解,缺乏全局视角; 此外,集群潜在的异常无法发现,更不能及时规避风险。

4934 0
|
流计算 SQL 消息中间件
|

趣头条基于 Flink 的实时平台建设实践

本文由趣头条实时平台负责人席建刚分享趣头条实时平台的建设,整理者叶里君。文章将从平台的架构、Flink 现状,Flink 应用以及未来计划四部分分享。

4014 0
来自: 实时计算 Flink  版块
|
SQL 分布式计算 大数据
|

MaxCompute如何对SQL查询结果实现分页获取

 由于MaxCompute SQL本身不提供类似数据库的select * from table limit x offset y的分页查询逻辑。但是有很多用户希望在一定场景下能够使用获取类似数据库分页的逻辑,对查询结果进行分页/分批获取结果,本文将介绍几种方法,来实现上述场景。

6001 0
来自: 大数据计算 MaxCompute  版块
|
流计算 资源调度 Java
|

Apache Flink 零基础入门(二):开发环境搭建和应用的配置、部署及运行

本文主要面向于初次接触 Flink、或者对 Flink 有了解但是没有实际操作过的同学。希望帮助大家更顺利地上手使用 Flink,并着手相关开发调试工作。

9153 0
来自: 实时计算 Flink  版块
|
分布式计算 Cloud Native 大数据
|

从 Spark 到 Kubernetes — MaxCompute 的云原生开源生态实践之路

MaxCompute依托于阿里云的飞天基础架构,与今天业界常见的依托虚拟机技术 + 开源引擎的云原生方案有很大的不同。 随着联合计算平台的推出,MaxCompute 从可以无缝集成 Spark,到今天可以通过提供标准的 Kubernetes 拥抱更加丰富的开源生态,一直秉承“保持自研优势,拥抱开源生态”的原则,走出了一条与众不同的实践之路。

3816 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 人工智能 分布式计算
|

开源大数据周刊-第22期

本周关注:大数据部门、数据科学家、机器学习发展与机遇、spark2.0 Structured Streaming、Hbase运维、Sqoop、Flink的第一本书籍。

2731 0
|
人工智能 搜索推荐 异构计算
|

从HA3到AI·OS -- 全图化引擎破茧之路

9217 0
来自: 智能搜索推荐  版块
|
分布式计算 大数据 测试技术
|

DCA公布第七批大数据产品能力评测结果,阿里云MaxCompute超大规模集群引关注

MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。

3578 0
来自: 大数据计算 MaxCompute  版块

E-MapReduce集群使用Oozie工作流简单示例

本文简单介绍了,如何在E-MapReduce上提交Oozie workflow job。提供了可以直接下载运行的示例代码,欢迎使用。

3231 0
|
大数据 Apache 分布式计算
|

阿里巴巴大数据产品最新特性介绍 | 2019大数据技术公开课第三季

2019大数据技术公开课第三季将为你带来阿里云飞天大数据平台系列产品的最新特性介绍,四位产品专家,四次主题分享,带你全面了解飞天大数据平台主力产品的最新技术动态。

3386 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 SQL 人工智能
|

阿里重磅开源全球首个批流一体机器学习平台Alink,Blink功能已全部贡献至Flink

11月28日,Flink Forward Asia 2019 在北京国家会议中心召开,阿里在会上发布Flink 1.10版本功能前瞻,同时宣布基于Flink的机器学习算法平台Alink正式开源,这也是全球首个批流一体的算法平台,旨在降低算法开发门槛,帮助开发者掌握机器学习的生命全周期。

4125 0
来自: 实时计算 Flink  版块
|
新零售 消息中间件 监控
|

【阿里云MVP第五期】阿里云赵弘扬:基于Elasticsearch构建网站日志处理系统

本文节选自阿里云MVP第五期嘉宾阿里云产品专家赵弘扬分享话题《基于Elasticsearch构建网站日志处理系统》。介绍如何基于阿里云的Elasticsearch,离线数仓加工工具,数据同步工具等产品来快速构建日志处理系统。

3352 0
|
网络协议 Linux 分布式数据库
|

TCP的backlog导致的HBase超时问题排查

TCP的backlog导致的超时问题排查

3319 0
|
SQL 分布式计算 MaxCompute
|

MaxCompute SQL 2.0全新的计算引擎

本文PPT来自阿里云数据事业部专家少杰于10月15日在2016年杭州云栖大会上发表的《MaxCompute SQL 2.0全新的计算引擎》。

3138 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Spark 机器学习/深度学习
|

Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望

阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark 3.0即将重磅发布的新功能。

3637 0
|
SQL Web App开发 分布式计算
|

阿里云MaxCompute 2018-5月刊

5月,MaxCompute提供全表扫描的设置操作,可允许或禁止全表扫描;支持OSS上的Hive文件格式;支持OSS压缩格式GZIP。。。更多新功能新体验,欢迎阅读本文了解。

3142 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 算法 搜索推荐
|

打击黑灰产的利器 —— 图神经网络(GNN)

阿里巴巴安全部数据与算法团队一直致力于与黑灰产进行对抗,保障用户在淘宝、天猫、闲鱼等平台上的使用体验和切身利益。面对狡猾的黑灰产,我们研究出了一系列算法武器,图神经网络(GNN)是其中重要的防控技术。本文结合阿里开源GNN框架Graph-Learn(https://github.com/alibaba/graph-learn)进行介绍。

4558 1
来自: 人工智能平台PAI  版块
|
流计算 API 存储
|

Apache Flink 零基础入门(五):流处理核心组件 Time&Window 深度解析

为什么要有 Window; Window 中的三个核心组件:WindowAssigner、Trigger 和 Evictor;Window 中怎么处理乱序数据,乱序数据是否允许延迟,以及怎么处理迟到的数据;最后我们梳理了整个 Window 的数据流程,以及 Window 中怎么保证 Exactly

4717 0
来自: 实时计算 Flink  版块
|
存储 API 调度
|

Mars 如何分布式地执行

先前,我们已经介绍过 Mars 是什么。如今 Mars 已在 Github 开源并对内上线试用,本文将介绍 Mars 已实现的分布式执行架构,欢迎大家提出意见。 架构 Mars 提供了一套分布式执行 Tensor 的库。

3672 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 Hadoop
|

开源大数据周刊-第26期

云栖社区开源大数据专题回顾、后Hadoop时代圆桌讨论、Hadoop上云的冰与火、Flink的未来、城市大脑、大数据时代几个关键问题剖析

2802 0
|
机器学习/深度学习 人工智能 大数据
|

开源大数据周刊-第81期

2879 0
|
分布式计算 MaxCompute 人工智能
|

爽!MaxCompute老铁们再也不用点点点了!

MaxCompute实现预付费项目自动续费。

2992 0
来自: 大数据计算 MaxCompute  版块
|
大数据 云计算
|

什么是飞天?全球级大数据计算平台,自主研发!

飞天大数据平台就是数字化时代的核心技术。这是中国在新一轮科技革命中把握机遇的关键。

3956 0
来自: 大数据计算 MaxCompute  版块
|
算法框架/工具 Python
|

数据科学老司机在线开车系列: 如何自己训练一个热狗识别模型

前情提要 美剧《硅谷》大家想必都没怎么看过,大家可能都不知道人工智能识别热狗曾是硅谷最赚钱的技术之一。去年 HBO 发布了官方的 Not Hotdog 应用,支持 iOS 和 Android 平台,据说是用 TensorFlow、Keras 和 React Native 打造的,但是源码没有公开。

3529 0
来自: 人工智能平台PAI  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69522
内容
128
活动
439956
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务