|
机器学习/深度学习 自然语言处理 搜索推荐
|

深度语义模型以及在淘宝搜索中的应用

传统的搜索文本相关性模型,如BM25通常计算Query与Doc文本term匹配程度。由于Query与Doc之间的语义gap, 可能存在很多语义相关,但文本并不匹配的情况。为了解决语义匹配问题,出现很多LSA,LDA等语义模型。

10431 0
来自: 智能搜索推荐  版块
|
SQL 分布式计算 MaxCompute
|

PyODPS 中使用 Python UDF

PyODPS 中使用 Python UDF 包含两方面,一个是直接使用,也就是在 MaxCompute SQL 中使用;一个是间接的方式,也就是 PyODPS DataFrame,这种方式你不需要直接写 Python UDF,而是写普通的 Python 函数或者类。

9127 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute
|

5分钟学会使用DataHub接入实时数据到MaxCompute(原ODPS)

DataHub服务是MaxCompute提供的流数据服务, 并提供把实时数据准实时归档到MaxCompute中功能, 在延时上可以做到5分钟数据在MaxCompute中可见;相对于MaxCompute之前提供的批量数据接口Tunnel实时性有了极大的提高。本文简要介绍如何快速通过DataHub创建.

8595 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 MaxCompute
|

【MaxCompute官宣】大数据计算技术共享计划 — 技术公开课第四季干货集锦!

MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分 析处理海量数据。欢迎加入钉钉交流群11782920。

7143 0
来自: 大数据计算 MaxCompute  版块
|
开发者
|

2019北京Elastic开发者大会日程重磅上线 | 由阿里云联合赞助

2019年度Elastic中国开发者大会(北京)是由Elastic官方在中国举办的第三次开发者大会。阿里云作为Elasticsearch云上生态的主要推动者,很荣幸作为本次大会战略级合作伙伴参与其中,届时将和Elastic技术社区联合发布《Elasticsearch中国开发者报告》。

7745 0
|
机器学习/深度学习 分布式计算 大数据
|

Apache Spark + Intel Analytics Zoo 进行深度学习

Analytics Zoo 是由 Intel 开源,基于 Apache Spark 和 Inte BigDL 的大数据分析和 AI 平台,方便用户开发基于大数据、端到端的深度学习应用。本文简单介绍了如何在阿里云 E-MapReduce 使用 Analytics Zoo 来进行深度学习。

6921 0
|
SQL 分布式计算 MaxCompute
|

MaxCompute的分区配置和使用

详细介绍MaxCompute里的分区的用法

8505 0
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 大数据
|

阿里云MaxCompute携手华大基因打造精准医疗应用云平台,十万基因组计算成本降低至1000美金以内

摘要:华大基因股份公司总监金鑫介绍了华大基因,并浅谈了与阿里云的情缘,包括Maxcompute等方面应用案例。一起来看下吧。   关于华大基因 华大基因是中国最领先的基因科技公司,华大基因为消除人类病痛、经济危机、国家灾难、濒危动物保护、缩小贫富差距等方面提供分子遗传层面的技术支持。

6689 0
来自: 大数据计算 MaxCompute  版块
|
数据挖掘 大数据 BI
|

云数据,大计算—海量日志数据分析与应用

网站日志分析是大数据应用场景中非常常见的一种,今天我们通过实例对网站日志数据进行分析,从日志采集——>日志数据清洗、加工做画像分析——>BI报表展现,更进一步,通过社交数据分析做好友推荐 ,对整个全链路过程做实验操作演练,希望能给大家提供一些帮助。

6882 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 数据可视化 大数据
|

年服务人次3300万+,网鱼网咖的大数据挑战及架构

从98年成立至今的18年中,网鱼累计签约门店已接近900家,已拥有超过830万会员,2016年网鱼网咖共服务了3300多万人次,服务范围覆盖全国100多个城市,现在网鱼网咖已走出国门,在加拿大、澳大利亚、新加坡等国家开设多家门店。

6830 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 调度
|

【8.23更新--技术干货全家桶】大数据计算技术共享计划 — MaxCompute技术公开课第二季

5月底MaxCompute开启大数据计算技术共享计划,第一季,为大数据爱好者和企业客户带来了MaxCompute数据开发实战的四次主题分享,有1500多名用户线上参加了共享季直播。7月24日,MaxCompute开启第二季技术公开课,近6000名大数据爱好者和企业客户参加了第二季的5次主题直播,越来越多的大数据专家、技术牛人、爱好者参与到我们的技术共享活动中来,让我们一起玩大数据如烹小鲜吧。

6890 0
来自: 大数据计算 MaxCompute  版块
|
监控 安全 大数据
|

【入门指南】操作阿里云Kibana

Elastic公司的“ELK”是目前最火的日志分析三剑客,其中ElasticSearch负责日志的索引,Logstash负责日志的收集,Kibana负责日志的展示和分析。Elastic与阿里云达成了合作伙伴关系,推出“阿里云 Elasticsearch”服务,提供了开箱即用的Elasticsearch和Kibana环境。

8870 0
|
SQL 分布式计算 监控
|

hive在E-MapReduce集群的实践(一)hive异常排查入门

hive是hadoop集群最常用的数据分析工具,只要运行sql就可以分析海量数据。初学者在使用hive时,经常会遇到各种问题,不知道该怎么解决。 本文是hive实践系列的第一篇,以E-MapReduce集群环境为例,介绍常见的hive执行异常,定位和解决方法,以及hive日志查看方法。

6781 0
|
SQL 分布式计算 大数据
|

大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《社交数据分析:好友推荐》篇

本手册为云栖大会Workshop《云计算·大数据:海量日志数据分析与应用》的《社交数据分析:好友推荐》篇而准备。主要阐述如何在大数据开发套件中使用MR实现好友推荐。

6520 0
来自: 大数据计算 MaxCompute  版块
|
编解码
|

【云上ELK系列】Logstash迁移Elasticsearch数据方法解读

用Logstash实现Elasticsearch集群快速迁移,解读Logstash中metadata的功效,避免踩坑

6525 0
|
SQL HIVE
|

MaxCompute2.0性能评测:更强大、更高效之上的更快速

MaxCompute2.0(原Odps):通过性能评测,MaxCompute2.0离线计算比同类产品Hive2.0 on Tez性能优势快约90%以上;MaxCompute2.0从新一代执行引擎到编译引擎、基于代价的优化器全流程针对性能提升做出了卓越改进。        本次评测侧重于已发

6099 0
来自: 大数据计算 MaxCompute  版块
|
Web App开发 分布式计算 数据可视化
|

MaxCompute Studio使用心得系列4——可视化查看所有job并分析运行情况

“通过`show p -all;`命令查看所有执行过的job,再通过`wait instanceid;`查看这个job的logview,最后通过logview再查看具体的执行日志。” 这样的方式查看所有job并分析运行情况实在太麻烦,MaxCompute Studio已经可以轻松完成了。

5758 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute
|

如何理解maxcompute常见报错信息?【阿里云MVP月度分享】

貌似大部分人在遇到报错的时候,都懒得用翻译软件翻译报错信息,一般直接抛出来问,甚至连报错信息都懒得复制,直接截图出来。所以这里特地总结了一下,最近一段时间有人经常在群里问到的报错信息。 ODPS-0130252:Cartesian product is not allowed “不允许笛卡尔积”主要是为了防止用户误操作,不小心漏了关联条件,造成大量的资源的耗费。

9185 0
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 算法
|

基于MaxCompute的媒体大数据开放平台建设

摘要:随着自媒体的发展,传统媒体面临着巨大的压力和挑战,新华智云运用大数据和人工智能技术,致力于为媒体行业赋能。通过媒体大数据开放平台,将媒体行业全网数据汇总起来,借助平台数据处理能力和算法能力,将有价值数据内容和能力开放给用户。

5690 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 新零售 人工智能
|

阿里推荐与搜索引擎 - AI·OS综述

AI·OS(Online Serving),大数据深度学习在线服务体系,由我们工程、算法、效率的同事们砥砺十年而成,支撑起海内外阿里电商全部的搜索和推荐业务,时刻置身大数据主战场,引导成交占据集团大盘主体;此外,作为中台技术中坚,AI·OS已是包括电商、阿里云、优酷、菜鸟、盒马、钉钉等等在内全集团的基础设施;更为重要的是,AI·OS体系的云产品矩阵服务于全球开发者,今年预期在数千万级的营收规模。

10822 0
来自: 智能搜索推荐  版块
|
机器学习/深度学习 监控 安全
|

【X-Pack解读】阿里云Elasticsearch X-Pack 告警组件功能详解

阿里云Elasticsearch集成了Elastic Stack商业版的X-Pack组件包,包括安全、告警、监控、报表生成、图分析、机器学习等组件,用户可以开箱即用。本文将对X-Pack 的告警组件功能进行详细解读。

6672 0
|
消息中间件 分布式计算 Kafka
|

基于MaxCompute构建Noxmobi全球化精准营销系统

摘要:大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

5413 0
来自: 大数据计算 MaxCompute  版块
|
运维 算法 大数据
|

基于实时计算(Flink)与高斯模型构建实时异常检测系统

案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总 1. 概述 异常检测(anomaly detection)指的是对不符合预期模式或数据集(英语:dataset)中其他项目的项目、事件或观测值的识别。

7688 0
来自: 实时计算 Flink  版块
|
SQL Web App开发 存储
|

帮助企业做好MaxCompute大数据平台成本优化的最佳实践

阿里云大数据计算服务MaxCompute通过灵活性、简单性和创新为您企业的业务环境带来了变革,但是您企业是否通过其实现了原本预期的节省成本的目标呢?本文中,我们将为广大读者诸君介绍优化您企业MaxCompute开销的一些关键性的策略。

5363 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute
|

当 Elasticsearch 遇上 MaxCompute —— 「Elasticsearch on MaxCompute 」简介

转自haixiaElasticsearch on MaxCompute Elasticsearch 是目前最流行的开源分布式搜索系统之一,它有着优秀的近实时搜索性能和丰富的周边配套工具。以 Elasticsearch 为核心的 Elastic Stack (Elasticsearch + Log

6468 0
来自: 大数据计算 MaxCompute  版块
|
SQL 大数据 关系型数据库
|

如何使用RDS创建Hive元数据库

1. 问题背景 E-MapReduce中支持的Hive,会默认在Master节点的Mysql数据库中记录元数据信息。通常,用户会将数据存储在E-MapReduce的HDFS中,使用Hive处理HDFS中的数据。当集群释放时,节点的所有数据包括HDFS数据和Hive元数据都会被删除。前面我撰文说过,

5151 0
|
算法 搜索推荐
|

推荐系统之冷启动问题

5479 0
来自: 人工智能平台PAI  版块
|
存储 分布式计算 安全
|

【大数据干货】阿里云数加让企业更专注于业务,助力东润环能高效利用大数据资源

最重要的是采用阿里云数加,东润环能将所有精力都放在业务上,节省了自建机房在学习成本、开发成本、管理成本、投入机房资源和运维成本的总成本,“相比自建Hadoop物理集群,使用阿里云数加MaxCompute的总成本有较大降低,应用开发效率有很大提高。”东润环能技术研发部总监王云如是说。

5367 0
来自: 大数据计算 MaxCompute  版块
|
流计算 供应链 SQL
|

【阿里内部应用】利用blink CEP实现流计算中的超时统计问题

案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总 一. 背景介绍 如<利用blink+MQ实现流计算中的延时统计问题>一文中所描述的场景,我们将其简化为以下案例:实时流的数据源结构如下: 物流订单号 支付时间 仓接单时间 仓出库时间 LP1 2018-08-01 08:00 ...

5000 0
来自: 实时计算 Flink  版块
|
分布式计算 容灾 大数据
|

MaxCompute( 原名ODPS)大数据容灾方案与实现(及项目落地实例)专有云

一,背景与概述    复杂系统的灾难恢复是个难题,具有海量数据及复杂业务场景的大数据容灾是个大难题。    MaxCompute是集团内重要数据平台,是自主研发的大数据解决方案,其规模和稳定性在业界都是领先的。

6066 0
来自: 大数据计算 MaxCompute  版块
|
运维 监控 安全
|

【ELK入门】Elastic中文社区运维监控实战之架构篇

阿里云MVP曾勇撰写的《ELK运维监控入门实战》系列,以Elasticsearch中文社区网站运维监控体系搭建作为案例,讲解了ELK监控系统的相关原理和技术实现,可作为对ELK感兴趣的同学的入门级文章。本篇作为第一篇,介绍了项目背景和技术架构。

6258 0
|
监控 数据可视化 搜索推荐
|

借助阿里云数加,小小的美甲行业被美甲帮玩出了天价。

“数加对于创业公司来说是一个非常好的平台,可以在有限的投入下,充分地享受到阿里云已经有的技术和经验,站在巨人肩膀上,从而少走弯路。针对海量数据进行处理,也是一个特别有优势的地方。

5420 0
来自: 大数据计算 MaxCompute  版块
|
流计算 NoSQL Redis
|

基于Flink和规则引擎的实时风控解决方案

对一个互联网产品来说,典型的风控场景包括:注册风控、登陆风控、交易风控、活动风控等,而风控的最佳效果是防患于未然,所以事前事中和事后三种实现方案中,又以事前预警和事中控制最好。 这要求风控系统一定要有实时性。

12788 2
来自: 实时计算 Flink  版块
|
分布式计算 监控 BI
|

基于阿里云MaxCompute实现游戏数据运营

一、总览 一个游戏/系统的业务数据分析,总体可以分为图示的几个关键步骤:   1、数据采集:通过SDK埋点或者服务端的方式获取业务数据,并通过分布式日志收集系统,将各个服务器中的数据收集起来并送到指定的地方去,比如HDFS等;(注:本文Demo中,使用flume,也可选用logstash、Flue.

4673 0
来自: 大数据计算 MaxCompute  版块
|
流计算 Java 监控
|

Flink 在人工智能领域的应用实践

Flink 机器学习进度几何?如何将 Flink 与 TensorFlow 等框架相结合?有哪些 Flink 在机器学习上的生产实践应用?为你呈现 Flink 机器学习的具体应用实践与最新技术落地案例。

5899 0
来自: 实时计算 Flink  版块
|
分布式计算 Spark 大数据
|

Apache Spark中国技术交流社区历次直播回顾(持续更新)

Apache Spark中国技术交流社区,由阿里巴巴开源大数据技术团队成立,持续输出spark相关技术直播、原创文章、精品翻译,钉钉群内千人交流学习,欢迎加入。钉钉入群 https://qr.dingtalk.com/action/joingroup?code=v1,k1,jmHATP9Tk+okK7QZ5sw2oWSNLhkt2lCRvfHRdW7XhUQ=&_dt_no_comment=1&origin=11 更多视频和ppt资料请入群获得。

7291 0
|
索引 存储 对象存储
|

【最佳实践】如何从AWS中的Elasticsearch索引平滑迁移至阿里云

阿里云的易用、便捷、稳定、以及低门槛深受广大开发者欢迎,本次实践是针对希望将Elasticsearch索引迁移至阿里云的客户所准备。本次Elasticsearch索引迁移方案参考架构图如下:

5758 0
|
流计算 大数据 Apache
|

重磅揭晓!Flink Forward Asia 2019 议程完整出炉

60 年前,人工智能的诞生刷新了人类对技术的期待;过去 10 年,大数据、云计算等核心技术的发展,推动了整个社会的重构与革新;5 年时间,移动互联网从诞生到逐步实现万物互联,数据在现实中的边界正在不断被拓展;技术迭变的进程不断加快,新兴技术的涌现昼夜不停。

10142 12
来自: 实时计算 Flink  版块
|
弹性计算 分布式计算 大数据
|

为什么选择ali-E-MapReduce

E-MapReduce是构建于阿里云ECS弹性虚拟机之上,利用开源大数据生态系统,包括但不限于Hadoop、Spark、Hbase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。我们提供的软件基本都是开源的软件,会有一些性能的优化,但是绝对不引入任何不兼容的改动。

4576 0
|
分布式计算 大数据 API
|

产品3周迭代一次,启信宝驾驭8000万企业征信的平台架构

启信宝的企业数据范围广、维度多,覆盖8000万以上的企业, 19个产业链,95个细分行业,100个以上企业数据维度,企业覆盖率达98%以上。

4784 0
来自: 大数据计算 MaxCompute  版块
|
人工智能 机器学习/深度学习 达摩院
|

【转载】阿里达摩院做AI的这2年

2017 年 10 月的杭州云栖大会上,阿里巴巴正式宣布成立达摩院,未来三年将投入将超过 1000 亿人民币用于基础科学和颠覆式技术创新研究。达摩院官网正式上线后,我们看到达摩院重点布局机器智能、数据计算、机器人、金融科技以及X实验室五大领域,相应设置有 14 个实验室,共有近 70 名海内外专家坐镇。

4997 0
来自: 大数据计算 MaxCompute  版块
|
新零售 人工智能 算法
|

从IaaS到AI,马云为何让阿里云去扛人工智能大旗?

绝大多数人对阿里云的定位仍是国内市场最大的IaaS提供商。不过,随着国内人工智能市场在2016年迎来爆发,阿里开始在人工智能领域发力,阿里云的这一角色正在悄然转变。 布局AI领域,阿里云扛起阿里人工智能大旗 虽然阿里不是BAT三座山头中在人工智能领域的声势最旺的那个(百度躺枪),但事实上阿里从2015年也已经开始了人工智能领域的布局。

5332 0
来自: 大数据计算 MaxCompute  版块
|
监控 算法 安全
|

数据脱敏平台-大数据时代的隐私保护利器

什么是数据脱敏 又称数据漂白、数据去隐私化或数据变形。是对核心业务数据中敏感的信息,进行变形、转换、混淆,使得对业务数据中的身份、组织等隐私敏感信息进行去除或掩盖,以保护数据能被合理、安全地利用。

6012 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 MaxCompute
|

阿里云MaxCompute 2018-12月刊

MaxCompute12月刊等待您的查收,12月产品更新文档、技术直播干货整理,1月最新产品发布动态,详情请阅读本文

4352 0
来自: 大数据计算 MaxCompute  版块
|
新零售 分布式计算 大数据
|

阿里云MaxCompute,用计算力让数据发声

计算的价值绝不止计算本身,而是让本不会说话的数据发声。 从玛雅历法到圆周率,从万有引力定律到二进制,从固化的物体到虚拟的思维都由数据注入。阿里云大数据计算服务MaxCompute以技术驱动产品,用计算力让数据发声。

5145 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 数据可视化
|

MaxCompute Studio 2.8.2 新版本发布啦!

MaxCompute Studio 2.8.2 新版本,主要新增可视化建表、保存/查看历史job日志、查看历史执行sql脚本,重点优化Editor性能解决大脚本文件实时编译卡顿问题等等~

4665 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Spark NoSQL
|

11月28日Spark社区直播【Tablestore结合Spark的云上流批一体大数据架构 】

传统Lambda架构组件多运维复杂,如何使用一套存储和一套计算来实现流批架构充分享受技术红利?以Delta Lake为代表的新型数据湖方案越来越流行,传统的Lambda架构如何向数据湖架构进行扩展?以及结构化数据结合Delta Lake的最佳解决方案是什么。本次分享将会结合理论讲解和实际场景为您一一解答。

4425 0
|
机器学习/深度学习 算法 openCL
|

Jarvis-拍立淘里面的深度学习引擎

深度学习的原理?局部响应归一化的作用?兄弟今天不是来讨论这个的,那都是科学家和算法同学的事儿。作为一个深度学习引擎,使命只有一个——就是快速和准确的计算。那怎么才能快呢?。。。借助于GPU(OpenCL),可以让运算飞起。。。

4891 0
来自: 智能搜索推荐  版块
|
SQL 流计算 消息中间件
|

Flink 1.9 实战:使用 SQL 读取 Kafka 并写入 MySQL

《Flink SQL 1.9.0 技术内幕和最佳实践》,许多小伙伴对演示环节的 Demo 代码非常感兴趣,迫不及待地想尝试下,所以写了这篇文章分享下这份代码。

12229 0
来自: 实时计算 Flink  版块
|
关系型数据库 大数据 MySQL
|

基于DataIDE数据集成实现香港ECS上的MySQL数据同步到数加MaxCompute

最近有朋友问,客户在香港ECS上搭建的MySQl,大概有100GB以上的数据,能否通过MaxCompute做海量数据分析,我的回答是YES! 但客户担心香港与大陆之前数据连通性问题,我的回答依然是YES! 为了让更多个客户不再困扰,笔者做了一份教程,可以通过大数据开发套件中的经典网络进行同步数据

4748 0
来自: 大数据计算 MaxCompute  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

1
今日
54045
内容
95
活动
437024
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务