|
机器学习/深度学习 存储 Java
|

大规模深度学习预测场景下 codegen 的思考与应用

RTP 系统是一个面向搜索和推荐的 ranking 需求,支持多种模型的在线 inference 服务。本文主要讨论了在 RTP 的存储读取和特征生成场景中 codegen 的应用。利用 IR 和 C++ 混合编程,解决系统的抽象和性能问题,并提供 schedule 的优化能力。

6337 0
来自: 智能搜索推荐  版块
|
搜索推荐 前端开发
|

【客户案例】用户点击率提升57%?| 智能推荐&开放搜索的实践分享

上海的联蔚科技是一家所属阿里生态的服务商,基于对大量客户的真实分析,从客户IT背景出发基于案例分析,来给大家分享为什么我们选择智能推荐和开放搜索作为企业技术服务架构的核心层,且在集成过程中,这两个服务的定位。

5131 0
来自: 智能搜索推荐  版块
|
分布式计算 数据可视化 小程序
|

友盟+联合EB级云数据仓库 MaxCompute 实现友盟域和企业私域数据全面融合

国内领先的第三方全域数据智能服务商友盟+,联合阿里云EB级云数据仓库 MaxCompute 为企业提供面向分析的,实现友盟域数据与企业私域数据全面融合的自助分析服务“U-DOP数据开放”。

4636 0
来自: 大数据计算 MaxCompute  版块
|
流计算 机器学习/深度学习 SQL
|

一文带你了解 Flink Forward 柏林站全部重点内容

阿里巴巴这次共派出了包括笔者在内的3名讲师,总共参加了4场分享和2个问答环节。在这里,我会根据自己参与的议题给大家做一下这次会议整体的一个介绍和个人在这次参会过程里面的感受和思考,希望对感兴趣的同学有所帮助。

3436 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 算法 数据挖掘
|

图(关系网络)数据分析及阿里应用

2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,阿里巴巴资深技术专家钱正平为大家分享了大数据技术背景下图数据的应用前景,以及阿里巴巴在图数据的建模、查询和系统优化等方面做出的初步探索。

4552 0
来自: 大数据计算 MaxCompute  版块
|
监控 API 索引
|

【阿里云MVP第五期】阿里云李靖威:Elasticsearch集群监控与报警原理解析

本文节选自阿里云MVP第五期嘉宾阿里云技术专家李靖威分享话题《使用X-Pack和Kibana实现Elasticsearch 的监控与报警》。以开源 Elasticsearch、阿里云 Elasticsearch和X-Pack的Demo show的形式, 对 Elasticsearch 集群监控和报警的内部原理进行讲解和使用方法演示。

4320 1
|
分布式计算 DataWorks Java
|

[MaxCompute MapReduce实践]通过简单瘦身,解决Dataworks 10M文件限制问题

用户在DataWorks上执行MapReduce作业的时候,文件大于10M的JAR和资源文件不能上传到Dataworks,导致无法使用调度去定期执行MapReduce作业。 解决方案: jar -resources test_mr.

3200 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 DataWorks 测试技术
|

如何通过Dataworks禁止MaxCompute 子账号跨Project访问

之前有很多DataWorks用户问MaxCompute访问权限问题,比如子账号为什么可以增删查别人在别的项目创建的表,即使这个子账号并没有加入那个项目 。 今天手把手教大家实现子账号授权并关闭跨Project的数据访问权限。

3730 0
来自: 大数据计算 MaxCompute  版块
|
存储 SQL 分布式数据库
|

Drill官网文档翻译六:存储插件的注册

我们可以通过存储插件连接到本地文件系统,Hive,HBase,或是其他的数据源。在Drill的web界面的存储插件配置tab,你可以查看修改这些插件的配置。如果不支持HTTPS(默认就没有),你可以访问HTTP://{IP}:8047/storage 来查看和配置存储插件。可以用IP,也可以用ho.

3456 0
来自: 智能搜索推荐  版块
|
大数据 数据处理 数据库
|

Hadoop 这样业界顶级的大规模数据处理平台,均发现满足不了类似双十一这样全世界的剁手党蜂拥而至的热情

写这篇文之前想起一个段子:“你在干嘛?”“我在王健林这儿跟马云谈生意。”“说人话!”“我在万达广场逛无聊了坐着拿手机淘宝……” 所以,本来开篇想说上周到马云那里聊了会最新的云计算技术,想想还是不那么得瑟,老实交代吧,上周五到杭州阿里巴巴总部以开小规模研讨会的名义实质上主要是去参观学习了一圈。

3454 0
来自: 大数据计算 MaxCompute  版块
|
SQL HIVE 流计算
|

如何在 Flink 1.9 中使用 Hive?

Apache Flink 从 1.9.0 版本开始增加了与 Hive 集成的功能,用户可以通过 Flink 来访问 Hive 的元数据,以及读写 Hive 中的表。本文将主要从项目的设计架构、最新进展、使用说明等方面来介绍这一功能。

5682 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 算法 搜索推荐
|

强化学习在锦囊位置调控上的探索和实践

1. 背景     在手淘的搜索中,当用户输入query进行搜索之后,一方面有适合他的商品展现出来,另一方面,如何更好地理解用户意图,为其推荐更合适的关键词进行细分查找,从而更高效的引导用户到他想找的商品,也是一件非常重要的事情。

3319 0
来自: 智能搜索推荐  版块
|
分布式计算 并行计算 TensorFlow
|

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

4361 0
|
算法 测试技术 BI
|

ABtest在OpenSearch上的设计与实现

5558 0
来自: 智能搜索推荐  版块
|
SQL 存储 缓存
|

EMR Spark Relational Cache的执行计划重写

背景 EMR Spark提供的Relational Cache功能,可以通过对数据模型进行预计算和高效地存储,加速Spark SQL,为客户实现利用Spark SQL对海量数据进行即时查询的目的。Relational Cache的工作原理类似物化视图,在用户提交SQL语句时对语句进行分析,并选出可用的预计算结果来加速查询。

3446 0
|
分布式计算 安全 BI
|

云上数据仓库选型指南

云数据仓库是构建在云上的新一代数据仓库解决方案,如何选择符合企业需求的云数据仓库,选择时应考虑哪些关键问题成为很多企业管理者关心的问题。本文参考TDWI以及Forrester的研究报告内容,对云数据仓库选型参考依据进行介绍,希望能对您在云数据仓库选型时有所帮助。

4150 0
来自: 大数据计算 MaxCompute  版块
|
流计算 SQL 消息中间件
|

趣头条基于 Flink 的实时平台建设实践

本文由趣头条实时平台负责人席建刚分享趣头条实时平台的建设,整理者叶里君。文章将从平台的架构、Flink 现状,Flink 应用以及未来计划四部分分享。

3869 0
来自: 实时计算 Flink  版块
|
SQL 分布式计算 大数据
|

MaxCompute如何对SQL查询结果实现分页获取

 由于MaxCompute SQL本身不提供类似数据库的select * from table limit x offset y的分页查询逻辑。但是有很多用户希望在一定场景下能够使用获取类似数据库分页的逻辑,对查询结果进行分页/分批获取结果,本文将介绍几种方法,来实现上述场景。

5633 0
来自: 大数据计算 MaxCompute  版块
|
流计算 资源调度 Java
|

Apache Flink 零基础入门(二):开发环境搭建和应用的配置、部署及运行

本文主要面向于初次接触 Flink、或者对 Flink 有了解但是没有实际操作过的同学。希望帮助大家更顺利地上手使用 Flink,并着手相关开发调试工作。

8854 0
来自: 实时计算 Flink  版块
|
SQL 分布式计算 Java
|

使用ApacheDS对Presto用户进行认证

Presto可以对接LDAP,实现用户密码认证。只需要Coordinator节点对接LDAP即可。主要步骤如下: 1.配置ApacheDS,启用LDAPS 2. 在ApacheDS中创建用户信息 3. 配置Presto Coordinator,重启生效 4. 验证配置

4559 0
|
Python API 流计算
|

如何在 Apache Flink 中使用 Python API?

为大家介绍 Flink Python API 的现状及未来规划,主要内容包括:Apache Flink Python API 的前世今生和未来发展;Apache Flink Python API 架构及开发环境搭建;Apache Flink Python API 核心算子介绍及应用。

6268 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 分布式计算 大数据
|

学者贵于行,报名参加线上大数据技术峰会的4个理由

云栖社区启动了“票选最美云上大数据”活动,为用户带来了10+行业的实际大数据应用,同时得票TOP 4的企业更将与6位阿里大数据技术大牛一起,于3月9日线上“大数据技术峰会”为大家全面解析大数据技术与应用。

3075 0
来自: 大数据计算 MaxCompute  版块
|
人工智能 搜索推荐 异构计算
|

从HA3到AI·OS -- 全图化引擎破茧之路

8556 0
来自: 智能搜索推荐  版块
|
分布式计算 Cloud Native 大数据
|

从 Spark 到 Kubernetes — MaxCompute 的云原生开源生态实践之路

MaxCompute依托于阿里云的飞天基础架构,与今天业界常见的依托虚拟机技术 + 开源引擎的云原生方案有很大的不同。 随着联合计算平台的推出,MaxCompute 从可以无缝集成 Spark,到今天可以通过提供标准的 Kubernetes 拥抱更加丰富的开源生态,一直秉承“保持自研优势,拥抱开源生态”的原则,走出了一条与众不同的实践之路。

3686 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 人工智能 分布式计算
|

开源大数据周刊-第22期

本周关注:大数据部门、数据科学家、机器学习发展与机遇、spark2.0 Structured Streaming、Hbase运维、Sqoop、Flink的第一本书籍。

2668 0
|
存储 安全 双11
|

阿里巴巴大规模应用Flink的踩坑经验:如何大幅降低 HDFS 压力?

众所周知 Flink 是当前广泛使用的计算引擎,Flink 使用 checkpoint 机制进行容错处理[1],Flink 的 checkpoint 会将状态快照备份到分布式存储系统,供后续恢复使用。在 Alibaba 内部我们使用的存储主要是 HDFS,当同一个集群的 Job 到达一定数量后,会对 HDFS 造成非常大的压力,本文将介绍一种大幅度降低 HDFS 压力的方法 -- 小文件合并。

3641 0
来自: 实时计算 Flink  版块
|
SQL
|

MaxCompute 费用暴涨之新增SQL分区裁剪失败

现象:因业务需求新增了SQL任务,这SQL扫描的表为分区表,且SQL条件里表只指定了一个分区,按指定的分区来看数据量并不大,但是SQL的费用非常高。费用比预想的结果相差几倍甚至10倍以上。 若只知道总体费用暴涨,但是没明确是什么任务暴涨,可以可以参考查看账单详情-使用记录文档,找出费用异常的记录。

3833 0
来自: 大数据计算 MaxCompute  版块

E-MapReduce集群使用Oozie工作流简单示例

本文简单介绍了,如何在E-MapReduce上提交Oozie workflow job。提供了可以直接下载运行的示例代码,欢迎使用。

3156 0
|
存储 分布式计算 大数据
|

阿里云计算能力实现多项突破 BigBench规模全球首次被拓展至100TB

10月12日,阿里巴巴集团副总裁周靖人在云栖大会上发布了阿里云在大数据计算能力上的新突破:将BigBench数据规模扩展到100T;流计算2.0每秒峰值达千万QPS,整体链路延时亚秒级;E-MapReduce对比同类产品平均性能提升3倍。

3197 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 资源调度 Spark
|

Spark中的内存管理(一)

Spark应用经常遇到的问题很多都是内存问题,本文对Driver和Executor的内存管理机制进行了相关介绍。

4209 0
|
人工智能 分布式计算 大数据
|

全新一代人工智能计算引擎MaxCompute杭州开服,强化阿里云大数据能力,比肩谷歌微软

3月22日,阿里云将正式开服售卖华东1(杭州)节点的大数据计算服务MaxCompute,以进一步提升对华东区域客户服务的响应速度,推动杭州大数据、人工智能产业的加速发展。

3640 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 MaxCompute
|

MaxCompute SQL 2.0全新的计算引擎

本文PPT来自阿里云数据事业部专家少杰于10月15日在2016年杭州云栖大会上发表的《MaxCompute SQL 2.0全新的计算引擎》。

3049 0
来自: 大数据计算 MaxCompute  版块
|
网络协议 Linux 分布式数据库
|

TCP的backlog导致的HBase超时问题排查

TCP的backlog导致的超时问题排查

3158 0
|
分布式计算 Spark 机器学习/深度学习
|

Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望

阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark 3.0即将重磅发布的新功能。

3532 0
|
SQL 分布式计算 MaxCompute
|

解决MaxCompute SQL count distinct多个字段的方法

按照惯性思维,统计一个字段去重后的条数我们的sql写起来如下: Distinct的作用是用于从指定集合中消除重复的元组,经常和count搭档工作,语法如下 COUNT( { [ DISTINCT ] expression ] | * } ) 这时,可能会碰到如下情况,你想统计同时有多列字段重复的数目,你可能会立马想到如下方法: select count( distinct col1 , col2 , col3 , .......) from table 但是,这样是有问题的,如果值包含空,那么我们的结果是什么呢?如果你实验过,正如你实验的一样,结果会比实际少。

5818 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 MaxCompute
|

MaxCompute UDF系列之拼音转换

汉字转换拼音在日常开发中是个很常见的问题。例如我们伟大的12306,在地名中输入“WH”,就会出现“武汉”“芜湖”“威海”等地名,输入“WUHU”就会出现“芜湖”。 我们在MaxCompute开发中也会遇到此类问题,今天为大家提供一个转换的UDF,下载地址见附件。

3813 0
来自: 大数据计算 MaxCompute  版块
|
运维 大数据 索引
|

阿里云Elasticsearch智能运维系统最佳实践

随着业务的增长与发展,不同的Elasticsearch集群承担着多厚多样的功能需求。尤其是当集群规模增长、业务庞大时,需要耗费大量的精力运维集群。阿里云Elasticsearch研发了一套智能运维系统,可通多专家经验与数据驱动两个重要抓手帮助用户运维集群、提升业务的稳定性。

4011 0
|
流计算 API 存储
|

Apache Flink 零基础入门(五):流处理核心组件 Time&Window 深度解析

为什么要有 Window; Window 中的三个核心组件:WindowAssigner、Trigger 和 Evictor;Window 中怎么处理乱序数据,乱序数据是否允许延迟,以及怎么处理迟到的数据;最后我们梳理了整个 Window 的数据流程,以及 Window 中怎么保证 Exactly

4567 0
来自: 实时计算 Flink  版块
|
分布式计算 大数据 MaxCompute
|

操作系统顶级会议SOSP 阿里云MaxCompute开启NewSQL时代

  近日,第26届操作系统原理大会(SOSP)在上海举行,来自亚洲、欧洲、北美等地区的高校、学术机构和众多科技企业研究人员齐聚一堂。阿里巴巴受邀参加此次会议,除在展区展示系统软件技术的同时,阿里集团副总裁周靖人在BOF环节向参会人员介绍了阿里在数据库、计算、机器学习、网络等领域的多项重点技术。

3626 0
来自: 大数据计算 MaxCompute  版块

心脏病预测案例

心脏病是人类健康的头号杀手。全世界1/3的人口死亡是因心脏病引起的,而我国,每年有几十万人死于心脏病。 所以,如果可以通过提取人体相关的体侧指标,通过数据挖掘的方式来分析不同特征对于心脏病的影响,对于预测和预防心脏病将起到至关重要的作用。本文将会通过真实的数据,通过阿里云机器学习平台搭建心脏病预测案例。<br />数据源:UCI<br />数据大小:7.49 KB<br />字段数量:15<br />使用组件:归一化,拆分,过滤式特征选择,SQL脚本,读数据表,类型转换<br />

3046 1
来自: 人工智能平台PAI  版块
|
SQL 分布式计算 Hadoop
|

E-MapReduce 集群环境小记

大家在使用E-MapReduce的时候,都想对E-MapReduce的集群环境细节有些了解。这里根据实践,总结一下E-MapReduce集群环境与应用启动与停止,供大家在实际使用中进行参考。

3076 0
|
机器学习/深度学习 人工智能 大数据
|

开源大数据周刊-第81期

2780 0
|
SQL 分布式计算 安全
|

SparkSQL ThriftServer 安全相关功能的现状分析

SparkSQL Thrift Server 是 Spark SQL基于 Apache Hive的 HiveServer2开发的,通过SparkSQL Thrift Server 可以使 Spark SQL支持 JDBC/ODBC 的连接方式,用户可以通过 JDBC and ODBC 协议,在Spark上执行 SQL。

3619 0
|
分布式计算 安全 大数据
|

开源大数据周刊-第39期

2573 0
|
资源调度 网络性能优化 调度
|

阿里巴巴搜索在离线统一调度

1. 发展历程         Hippo是搜索事业部调度系统团队自研的支撑集团内外多个BU搜索与推荐体系和阿里云上Opensearch/ES等的调度系统,经过了5年的快速发展,提供了可靠、简单、低成本的资源及应用托管方案,通过自动化运维、机器合池、智能弹性调度、混部和在离线统一调度等手段解决成本和效率的问题。

5341 0
来自: 智能搜索推荐  版块
|
存储 分布式计算 关系型数据库
|

报表几种常用数据方案

报表的数据源如何组织?数据链路是怎样?怎样快捷方便的拿到数据?

3385 0
来自: 大数据计算 MaxCompute  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

3
今日
67677
内容
128
活动
439492
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务