|
机器学习/深度学习 算法 搜索推荐
|

强化学习在电商环境下的若干应用与研究

本文描述了淘宝搜索算法AI技术团使用强化学习算法在淘宝的环境中怎么解决实际的业务问题的以及一些研究探索。

13858 0
来自: 智能搜索推荐  版块
|
SQL 大数据 数据库
|

为什么说流处理即未来?

本文整理自 Flink 创始公司 Ververica 联合创始人兼 CTO - Stephan 在 Flink Forward China 2018 上的演讲《Stream Processing takes on Everything》。

10254 0
来自: 实时计算 Flink  版块
|
算法 测试技术 大数据
|

ComputeColStats UDF中 近似算法的介绍

一,前面的话 表和列的统计信息对CBO的结果有着极大地影响,能够高效和准确的收集统计信息是极其重要的。但高效和准确是矛盾的,更准确的统计信息往往需要更多的计算,我们能做的是在高效和准确之间找到更好的平衡。

9277 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 Apache
|

Apache Spark 3.0 将内置支持 GPU 调度

如今大数据和机器学习已经有了很大的结合,在机器学习里面,因为计算迭代的时间可能会很长,开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FPGA 了。

10959 1
|
监控 安全 大数据
|

【入门指南】使用阿里云Elasticsearch搭建ELK日志系统

本文介绍了基于阿里云Elasticsearch搭建ELK日志系统的基本步骤,并对kibana和ES的日志检索和分析做简要介绍,可作为新手入门指导。

15987 0
|
SQL 分布式计算 大数据
|

MaxCompute模板与样例

代码模板和示例是用户熟悉新产品和提高开发效率的有效方式,studio提供了一系列的开发模板和代码实例。用户可以通过这些功能,快速熟悉MaxCompute,玩转大数据下的程序开发。

9205 0
来自: 大数据计算 MaxCompute  版块
|
搜索推荐 流计算
|

基于实时计算(Flink)打造一个简单的实时推荐系统

本文为您介绍如何基于阿里云实时计算快速搭建实时推荐系统。

15268 1
来自: 实时计算 Flink  版块
|
Web App开发 数据可视化 双11
|

双11数据大屏直播 / 双11作战大屏

双11大屏直播地址:https://h5.m.taobao.com/qn/pc/niuba-interview.html?spm=a1zb6.8232479.0.0.qfgVCn#!/interview/10035359

9762 0
来自: 大数据计算 MaxCompute  版块
|
流计算 Apache 存储
|

Flink Checkpoint 问题排查实用指南

本文会统一聊一聊 Flink 中 Checkpoint 异常的情况(包括失败和慢),以及可能的原因和排查思路。

13937 0
来自: 实时计算 Flink  版块
|
分布式计算 大数据 调度
|

阿里云 MaxCompute 2020-1 月刊

您好,MaxCompute 2020.1月刊如期而至,在疫情肆虐的日子里,祝福每一位开发者,平安健康,一切顺利。

8775 0
来自: 大数据计算 MaxCompute  版块
|
SQL 存储 缓存
|

EMR Spark Relational Cache的执行计划重写

作者:王道远,花名健身, 阿里巴巴计算平台EMR技术专家。 背景 EMR Spark提供的Relational Cache功能,可以通过对数据模型进行预计算和高效地存储,加速Spark SQL,为客户实现利用Spark SQL对海量数据进行即时查询的目的。

9391 0
|
监控 安全 数据安全/隐私保护
|

【X-Pack解读】阿里云Elasticsearch X-Pack 安全组件功能详解

阿里云Elasticsearch集成了Elastic Stack商业版的X-Pack组件包,包括安全、告警、监控、报表生成、图分析、机器学习等组件,用户可以开箱即用。接下来小编将在【X-Pack解读】系列里解读各个Elasticsearch X-Pack 组件功能。

11693 0
|
机器学习/深度学习 分布式计算 大数据
|

阿里云数加产品家族图首次亮相

数加就是阿里云专业搞大数据各种神器的产品大家族其实技术型产品也没辣么难懂,一层各种形式计算完给到二层做数据展现&算法加工,三层通过各种算法延展粗各种数据应用.您买间屋也行,买一层可以,要是高兴买整栋楼都随您意!

9527 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 人工智能 算法
|

【上报纸啦】95后大学生用机器学习PAI大战老年痴呆

中国青年报原文链接:http://zqb.cyol.com/html/2017-07/28/nw.D110000zgqnb_20170728_2-06.htm 燕山大学信息科学与技术专业出身的95后大学生谭创创,没想到自己会与阿尔茨海默症(俗称“老年痴呆症”)为“敌”。

9123 1
来自: 人工智能平台PAI  版块
|
SQL 分布式计算 MaxCompute
|

MaxCompute SQL-列转行和行转列

1. 假设我们在MaxCompute中有两张表,其中一张表是存用户基本信息,另一张表是存用户的地址信息等,表数据假设如下: user_basic_info: id name 1 a 2 b 3 c

13887 0
来自: 大数据计算 MaxCompute  版块
|
SQL Apache 流计算
|

【译】用SQL统一所有:一种有效的、语法惯用的流和表管理方法

现在还没有一个统一的流式SQL语法标准,各家都在做自己的。本文在一些业界应用的基础上提出了一个统一SQL语法的建议。Spark同样存在这个问题,社区版本在流式SQL上迟迟没有动作。EMR Spark在今年上半年提供了自己设计版本的流式SQL支持,也会在后续的更新中吸收和支持这些优秀的设计建议。

8548 0
|
机器学习/深度学习 分布式计算 算法
|

Mars——基于张量的统一分布式计算框架

很高兴在这里宣布我们的新项目:Mars,一个基于张量的统一分布式计算框架。我们已经在 Github 开源:https://github.com/mars-project/mars 。 背景 Python Python 是一门相当古老的语言了,如今,在数据科学计算、机器学习、以及深度学习领域,Python 越来越受欢迎。

12691 0
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 NoSQL
|

MaxCompute访问TableStore(OTS) 数据(20170601更新)

MaxCompute作为阿里云大数据平台的核心计算组件,承担了集团内外大部分的分布式计算需求。

10801 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Java MaxCompute
|

flume java介绍

近期在做shark flume开发框架的测试,该框架是一个简单高效的面向数据的pipeline框架,采用flume java的思想,实现了一套flume java on MaxCompute的library。为了更好的了解shark自己也去阅读了flume java的paper,这里做一些总结,主要

9124 0
来自: 大数据计算 MaxCompute  版块
|
运维 搜索推荐 调度
|

Ha3搜索引擎简介

Ha3是阿里巴巴搜索团队开发的搜索引擎平台,它为阿里集团包括淘宝、天猫在内的核心业务提供搜索服务支持。

25461 1
来自: 智能搜索推荐  版块
|
存储 大数据 数据挖掘
|

读透《阿里巴巴数据中台实践》,其到底有什么高明之处?

最近阿里巴巴分享了《阿里巴巴数据中台实践》这个PPT(自行搜索原始文章),对于数据中台的始作俑者,还是要怀着巨大的敬意去学习的,因此仔细的研读了,希望能发现一些不一样的东西。 读这些专业的PPT,实际是非常耗时的,你需要把这些PPT外表的光鲜扒光,死抠上面的每一个字去理解底下隐藏的含义,然后跟你的已有知识体系去对比,看看是否有助于完善自己的认知,对于自己不理解的,还需要经常去检索相关的文档。

13492 58
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 MaxCompute
|

Python实现MaxCompute UDF/UDAF/UDTF

参数与返回值类型 参数与返回值通过如下方式指定: @odps.udf.annotate(signature) Python UDF目前支持ODPS SQL数据类型有:bigint, string, double, boolean和datetime。

11482 0
来自: 大数据计算 MaxCompute  版块
|
Web App开发 JavaScript 前端开发
|

(ElasticsSearch学习)歌词检索Demo的实现:二. 搭建spring boot+spring data+jest+elasticsearch环境,实现歌词的全文检索

一个ElasticSearchDemo,讲解如何使用Jsoup爬取歌词数据写入阿里云Elasticsearch,并搭建Web框架实现歌词的全文检索。 本文主要讲解如何使用Spring Boot快速搭建Web框架,结合Spring Data 和 Jest 快速实现对阿里云ElasticSearch的全文检索功能。

10261 1
|
运维 分布式计算 大数据
|

高德地图基于阿里云MaxCompute的最佳实践

云计算带来的变革不言而喻,作为一种新型的IT交付模式,切实为企业节省IT成本、加快IT与企业业务结合效率、提升创新能力、加强管理水平以及增强系统本身的可靠性等方面提供巨大支持,是企业实现新发展的重要途径,它已然成为全球IT产业的主流声音。

8958 0
来自: 大数据计算 MaxCompute  版块
|
存储 消息中间件 算法
|

Apache Flink 漫谈系列(04) - State

实际问题 在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重新新计算一次,还是每次计算都是在上一次计算结果之上进行增量计算呢?答案是肯定的,Apache Flink是基于上一次的计算结果进行增量计算的。

14485 1
来自: 实时计算 Flink  版块

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

去重逻辑在业务处理中使用广泛,大致可以分两类:DISTINCT去重和FIRST_VALUE主键去重,两者的区别是DISTINCT去重是对整行数据进行去重,比如tt里面数据可能会有重复,我们要去掉重复的数据;FIRST_VALUE是根据主键进行去重,可以看成是一种业务层面的去重,但是真实的业务场景使用也很普遍,比如一个用户有多次点击,业务上只需要取第一条。

11511 0
来自: 实时计算 Flink  版块
|
分布式计算 运维 算法
|

DII—算法服务利器

随着集团内各种离线处理、实时反馈、在线学习和分析系统的发展壮大,为算法同学使用数据提供了更多的手段和玩法,能够从数据中挖掘出更多的宝藏。但是仅仅产出数据是不够的,他们需要将数据结合算法在线服务的方式应用到业务中去,才能真正产生价值。从搜索事业部的现状来看,算法的作用方式主要有两种,一种是嵌入引擎内.

11890 2
来自: 智能搜索推荐  版块
|
存储 消息中间件 监控
|

基于Flink的实时日志分析系统实践

11444 2
来自: 实时计算 Flink  版块
|
SQL 分布式计算 JavaScript
|

阿里云大数据利器Maxcompute-使用mapjoin优化查询

small is beautiful,small is powerful

9724 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 搜索推荐 OLAP
|

基于MaxCompute构建企业用户画像(用户标签的制作)

在数据化营销时代,数据的价值越发显得更为珍贵。那如何让自己的数据发挥价值,也就是说如何让公司沉睡的数据能够驱动业务发展给公司带来商业价值?在营销里面我们都谈精准营销,谈用户画像,那用户画像到底如何构建,用户的标签如何开发?本示例给与最简单的demo,那个大家清楚认识基于MaxCompute如何构建企业用户标签。

9031 0
来自: 大数据计算 MaxCompute  版块
|
存储 数据采集 监控
|

“NASA”计划背后,阿里巴巴大数据系统架构概述

DT时代,人们比以往任何时候都收集到更多的数据。据IDC报告,预计到2020年,全球数据总量将超过40ZB(相当于40万亿GB),这一数据量是2011年的22倍!正在“爆炸式”增长的数据,其潜在巨大价值有待发掘。

9057 0
来自: 大数据计算 MaxCompute  版块
|
运维 自然语言处理 Java
|

使用llvm实现一门语言 —— cava

本文将介绍如何使用llvm+bison+flex技术实现一门编程语言。 以我们实现的cava语言为例,介绍编译器各阶段,词法分析 -> 语法分析 -> 语义分析 -> 中间代码优化 -> 目标代码生成,最终生成汇编指令,再由汇编语言根据不同的指令集生成对应的可执行程序是如何实现的。

11434 0
来自: 智能搜索推荐  版块
|
存储 分布式计算 Oracle
|

Oracle存储过程迁移ODPS-00(专有云):Oracle - ODPS数据类型转换

oracle 数据类型 转到ODPS,映射关系

8920 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 监控 Oracle
|

基于OGG Datahub插件将Oracle数据同步上云

一、背景介绍 随着数据规模的不断扩大,传统的RDBMS难以满足OLAP的需求,本文将介绍如何将Oracle的数据实时同步到阿里云的大数据处理平台当中,并利用大数据工具对数据进行分析。 OGG(Oracle GoldenGate)是一个基于日志的结构化数据备份工具,一般用于Oracle数据

9232 1
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 分布式计算 算法
|

开源深度学习库BigDL在阿里云E-MapReduce上的实践

近些年来机器学习中的子领域深度学习成为一个热门的话题。本文要介绍Intel开源的深度学习框架BigDL,它也是在Spark上的一个算法库,提供了全面的深度学习算法支持,包括数值计算(Tensor)和高阶神经网络等。

7410 0
|
SQL 分布式计算 MaxCompute
|

MaxCompute 学习计划(二)

学习MaxCompute SQL和UDF的checklist

9323 0
来自: 大数据计算 MaxCompute  版块
|
资源调度 测试技术 Apache
|

YARN中的CPU资源隔离-CGroups

YARN中集成了CGroups的功能,使得NodeManger可以对container的CPU的资源使用进行控制,比如可以对单个container的CPU使用进行控制,也可以对NodeManger管理的总CPU进行控制。

10534 1
|
大数据 分布式计算 流计算
|

阿里巴巴高级技术专家章剑锋:大数据发展的 8 个要点

章剑锋(简锋),开源界老兵,Apache Member,曾就职于 Hortonworks,目前在阿里巴巴计算平台事业部任高级技术专家,并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ,以及 Apache Pig 的 Committer。

8546 0
来自: 实时计算 Flink  版块
|
SQL 分布式计算 MaxCompute
|

MaxComputeSql性能调优

 转载自xiaorui         部分用户(尤其对外输出)使用MaxCompute(原Odps)时,由于对产品的使用层面和执行层面了解程度不同,导致提交的任务执行时间过长、占用了较多集群资源;严重的会导致失败、不仅需要投入支持同学精力协助解决、也影响了用户正常业务。 合并整理部分性能提升方法方

7763 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 算法
|

Spark中的资源调度

本文对Spark的资源调度的进行了介绍,涉及到4个维度的调度,包括SparkApplication/pool/TaskSetManager/Task。

8007 0
|
存储 分布式计算 大数据
|

阿里巴巴大数据实践之数据建模

随着DT时代互联网、智能设备及其他信息技术的发展,数据爆发式增长,如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。 为什么需要数据建模 如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。

7660 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 分布式计算 大数据
|

Apache Spark + Intel Analytics Zoo 进行深度学习

Analytics Zoo 是由 Intel 开源,基于 Apache Spark 和 Inte BigDL 的大数据分析和 AI 平台,方便用户开发基于大数据、端到端的深度学习应用。本文简单介绍了如何在阿里云 E-MapReduce 使用 Analytics Zoo 来进行深度学习。

7291 0
|
分布式计算 Hadoop 数据安全/隐私保护
|

E-MapReduce集群中HDFS服务集成Kerberos

本文介绍在E-MapReduce集群中HDFS服务集成Kerberos。

6824 0
|
SQL HIVE
|

使用Ranger对Hive数据进行脱敏

Ranger支持对Hive数据的脱敏处理(Data Masking),它对`select`的返回结果进行脱敏处理,对用户屏蔽敏感信息。

8922 0
|
安全 大数据 分布式数据库
|

E-MapReduce大数据安全实践

E-MapReduce从EMR-2.7.x/EMR-3.5.x版本开始支持创建安全类型的集群,即集群中的开源组件以Kerberos的安全模式启动,在这种安全环境下只有经过认证的客户端(Client)才能访问集群的服务(Service,如HDFS)。

6578 0
|
SQL 分布式计算 大数据
|

MaxCompute UDF系列之判断字符串中是否包含汉字

为了验证字符串中是否包含中文汉字,今天为大家提供一个自动判断中文字符的MaxCompute UDF,下载地址见附件。 效果如下: MaxCompute UDF代码如下: package com.

7583 0
来自: 大数据计算 MaxCompute  版块
|
负载均衡 微服务 Perl
|

istio网络转发分析

通过demo分析istio的网络转发流程,从而对istio实现原理有更为直观的认识。本文先介绍了涉及到的相关概念和背景知识,然后对具体应用进行分析。背景知识概念分散,参考文章较多,敬请谅解。

8989 0
来自: 智能搜索推荐  版块
|
存储 分布式计算 大数据
|

阿里云MaxCompute携手华大基因打造精准医疗应用云平台,十万基因组计算成本降低至1000美金以内

摘要:华大基因股份公司总监金鑫介绍了华大基因,并浅谈了与阿里云的情缘,包括Maxcompute等方面应用案例。一起来看下吧。   关于华大基因 华大基因是中国最领先的基因科技公司,华大基因为消除人类病痛、经济危机、国家灾难、濒危动物保护、缩小贫富差距等方面提供分子遗传层面的技术支持。

7040 1
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 数据可视化 大数据
|

年服务人次3300万+,网鱼网咖的大数据挑战及架构

从98年成立至今的18年中,网鱼累计签约门店已接近900家,已拥有超过830万会员,2016年网鱼网咖共服务了3300多万人次,服务范围覆盖全国100多个城市,现在网鱼网咖已走出国门,在加拿大、澳大利亚、新加坡等国家开设多家门店。

7243 0
来自: 大数据计算 MaxCompute  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

7
今日
68740
内容
128
活动
439629
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务