|
数据可视化 开发者
|

身怀绝技的开发者们,快来DataV玩转可视化组件

DataV开发者版启动公测啦。

46934 3
来自: 数据可视化DataV  版块
|
存储 分布式计算 监控
|

大数据环境下该如何优雅地设计数据分层

发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。

41028 9
来自: 大数据计算 MaxCompute  版块
|
云栖大会
|

2017杭州云栖大会FAQ(持续更新中)

2017杭州云栖大会将于10月11-14日在杭州云栖小镇举办,作为全球最具影响力的科技展会之一,今年的云栖大会规模更大,内容也更丰富。为了帮助大家解决报名、参会中的一些问题,小编专门整理了下大会相关的FAQ,供大家参考。

19074 129
来自: 大数据计算 MaxCompute  版块
|
监控 数据可视化 数据挖掘
|

Kibana:数据分析的可视化利器

阿里云Elastisearch集成了可视化工具Kibana,用户可以使用Kibana的开发工具便捷的查询和分析存储在Elastisearch中的数据。除了柱状图、线状图、饼图、环形图等经典可视化功能外,还拥有地理位置分析、数据图谱分析、时序数据分析等高级功能。

20320 6
|
SQL 分布式计算 大数据
|

使用 MaxCompute Studio 开发大数据应用

MaxCompute(原ODPS)是阿里云自主研发的分布式大数据处理平台。MaxCompute Studio 为开发者提供了良好的开发体验,本文将展开进行介绍。

15677 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 Apache
|

现代流式计算的基石:Google DataFlow

0. 引言 今天这篇继续讲流式计算。毫无疑问,Apache Flink 和 Apache Spark (Structured Streaming)现在是实时流计算领域的两个最火热的话题了。那么为什么要介绍 Google Dataflow 呢?Streaming Systems 这本书在分析 Fli...

19369 60
|
分布式计算 关系型数据库 大数据
|

[ETL实践指南]基于Kettle的MaxCompute插件实现数据上云

本文用到的 阿里云数加-大数据计算服务MaxCompute产品地址:https://www.aliyun.com/product/odps 简介 Kettle是一款开源的ETL工具,纯java实现,可以运行于Windows, Unix, Linux上运行,提供图形化的操作界面,可以通过拖拽控件的方式,方便地定义数据传输的拓扑。

20966 3
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 监控
|

梨视频:基于阿里云E-MapReduce搭建视频推荐系统的实践

梨视频由前澎湃新闻掌门人邱兵创立。 在上线之前,它就获得了黎瑞刚华人文化近1亿美元投资,旗下《微辣》栏目总播放量已经超过4亿,并在上线1个月后获得“年度视频新媒体”大奖。 这样一款脱胎于传统媒体的创业型短视频软件,在视频领域异军突起,不仅让内人士在感叹梨视频内容生产力之强大的同时,也诧异于是谁在

13741 0
|
机器学习/深度学习 自然语言处理 算法
|

DL应用:query生成和query推荐

引言  在机器翻译、图片描述、语义蕴涵、语音识别和文本摘要中,序列到序列的问题已经有太多大牛研究了,也取得了很多突破。谷歌的Attention is all you need[1],舍弃并超越了主流的rnn与cnn序列建模框架,刷出了新的state of the art,这种大胆创新的精神值得我们学习。

16156 1
来自: 智能搜索推荐  版块
|
机器学习/深度学习 算法 搜索推荐
|

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

机器学习算法基于信用卡消费记录做信用评分 背景 如果你是做互联网金融的,那么一定听说过评分卡。评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应用于线性模型进行建模的一种方法。

15408 1
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 自然语言处理 算法
|

阿士比亚:搜索团队智能内容生成实践

本文主要介绍阿里巴巴-搜索事业部算法团队上半年在智能内容生成方向工作的一些实践和思考。

16272 0
来自: 智能搜索推荐  版块
|
数据可视化
|

2018.03.28 DataV 上新啦 -- 参考线、标尺、组件别名、回撤

参考线 + 标尺 组件别名功能 回撤功能

11115 153
来自: 数据可视化DataV  版块
|
分布式计算 监控 关系型数据库
|

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

基本架构 RDS -> SLS -> Spark Streaming -> Spark HDFS 上述链路主要包含3个过程: 如何把 RDS 的 binlog 收集到 SLS。 如何通过 Spark Streaming 将 SLS 中的日志读取出来,进行分析。

11348 0
|
存储 JSON 分布式计算
|

标签分类理论

最近在做DMP,负责设计一套标签管理系统。在对现有标签进行整理的过程中,整理出了这套东西。 0. 标签的定义:标签分类学(Taxonomy) 对于标签(tag),很难列出一个公认的定义,指明这个概念的种差与属概念。所以为了把握这个概念,就需要采取定义另一种办法:分类与枚举。 我们要解决的第一个

13409 1
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 Spark
|

钉钉群直播【Spark Relational Cache 原理和实践】

主要介绍Relational Cache/物化视图的历史和背景,以及EMR Spark基于Relational Cache加速Spark查询的技术方案,及如何通过基于Relational Cache的数据预计算和预组织,使用Spark支持亚秒级响应的交互式分析使用场景。

9149 0
|
流计算 Apache 存储
|

Flink Checkpoint 问题排查实用指南

本文会统一聊一聊 Flink 中 Checkpoint 异常的情况(包括失败和慢),以及可能的原因和排查思路。

13871 0
来自: 实时计算 Flink  版块
|
消息中间件 Kafka 流计算
|

如何正确使用 Flink Connector?

本文主要分享 Flink connector 相关内容,分为以下三个部分的内容:第一部分会首先介绍一下 Flink Connector 有哪些。第二部分会重点介绍在生产环境中经常使用的 kafka connector 的基本的原理以及使用方法。第三部分答疑,对社区反馈的问题进行答疑。

11668 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 分布式计算 算法
|

Mars——基于张量的统一分布式计算框架

很高兴在这里宣布我们的新项目:Mars,一个基于张量的统一分布式计算框架。我们已经在 Github 开源:https://github.com/mars-project/mars 。 背景 Python Python 是一门相当古老的语言了,如今,在数据科学计算、机器学习、以及深度学习领域,Python 越来越受欢迎。

12615 0
来自: 大数据计算 MaxCompute  版块
|
SQL 数据库 HIVE
|

SQL优化器原理 - 查询优化器综述

本文主要是对数据库查询优化器的一个综述,包括查询优化器分类、查询优化器执行过程和CBO框架Calcite。

11230 1
来自: 大数据计算 MaxCompute  版块
|
人工智能 大数据 新制造
|

阿里云参与两大国家工程实验室获批,人工智能继续深入工业制造

近日,国家发改委公布大数据国家工程实验室名单,由阿里云参与的“工业大数据应用技术国家工程实验室”和“大数据系统软件国家工程实验室”均获批复认定,分别是工业大数据应用及大数据系统软件领域的唯一国家级工程实验室。

8245 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 Java
|

MaxCompute 2.0 生态开放之路及最新发展

MaxCompute(原ODPS)是阿里云自主研发的分布式大数据处理系统。

7576 0
来自: 大数据计算 MaxCompute  版块
|
负载均衡 微服务 Perl
|

istio网络转发分析

通过demo分析istio的网络转发流程,从而对istio实现原理有更为直观的认识。本文先介绍了涉及到的相关概念和背景知识,然后对具体应用进行分析。背景知识概念分散,参考文章较多,敬请谅解。

8854 0
来自: 智能搜索推荐  版块
|
分布式计算 大数据 调度
|

【8.23更新--技术干货全家桶】大数据计算技术共享计划 — MaxCompute技术公开课第二季

5月底MaxCompute开启大数据计算技术共享计划,第一季,为大数据爱好者和企业客户带来了MaxCompute数据开发实战的四次主题分享,有1500多名用户线上参加了共享季直播。7月24日,MaxCompute开启第二季技术公开课,近6000名大数据爱好者和企业客户参加了第二季的5次主题直播,越来越多的大数据专家、技术牛人、爱好者参与到我们的技术共享活动中来,让我们一起玩大数据如烹小鲜吧。

7268 0
来自: 大数据计算 MaxCompute  版块
|
数据可视化 计算机视觉 机器学习/深度学习
|

手绘稿如何1秒变身数据大屏?深度学习让人人成为可视化专家

想在1天内快速搞定实时业务数据大屏吗?想用最短路径逆袭成为数据可视化大神吗?想在除了PRD外什么都没有的情况下,体验职场真人版绝境求生吗?

12302 0
来自: 数据可视化DataV  版块
|
分布式计算 大数据 数据库
|

【物流大数据实践】基于阿里云Maxcompute实现物流跟踪

摘要: 目前我国物流业保持较快增长,但还是存在一些问题:物流成本高、效率低,条块分割严重(自营物流、规模小、技术落后、标准不统一)、基础设施相对滞后(物流基础设施之间不衔接、不配套),对订单创建到用户签收整套完整流程缺乏完善的监控和预警手段.

7079 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 MaxCompute
|

从MapReduce的执行来看如何优化MaxCompute(原ODPS) SQL

SQL基础有这些操作(按照执行顺序来排列): from join(left join, right join, inner join, outer join ,semi join) where group by select sum distinct count order by 如果我们能理解mapreduce是怎么实现这些SQL中的基本操作的,那么我们将很容易理解怎么优化SQL写法。

7237 0
来自: 大数据计算 MaxCompute  版块
|
存储 运维 资源调度
|

iGraph架构演进之三战

前言 iGraph是搜索事业部工程团队打造的实时在线图存储与查询的系统,提供大规模图数据的存储、查询、更新和计算服务,目前承载了集团多个部门5000+表的数据,双11期间proxy入口峰值流量1106w qps、实时数据峰值更新506w qps,是名副其实的在线数据航空母舰。

11981 2
来自: 智能搜索推荐  版块
|
监控 安全 大数据
|

【入门指南】操作阿里云Kibana

Elastic公司的“ELK”是目前最火的日志分析三剑客,其中ElasticSearch负责日志的索引,Logstash负责日志的收集,Kibana负责日志的展示和分析。Elastic与阿里云达成了合作伙伴关系,推出“阿里云 Elasticsearch”服务,提供了开箱即用的Elasticsearch和Kibana环境。

9589 0
|
搜索推荐 自然语言处理 开发者
|

云栖硬核回顾|企查查搜索引擎演进之路

企查查作为企业征信行业的搜索引擎,一直以来都与阿里云开放搜索团队有深度合作。本次朱总独家揭秘,开放搜索陪伴企查查从创业初期到成为企业征信行业的独角兽的过程中,是如何满足企查查产品海量数据的精准搜索需求的。

9341 0
来自: 智能搜索推荐  版块
|
监控 数据可视化 大数据
|

2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》实验环境准备

2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》实验环境准备

5649 0
来自: 大数据计算 MaxCompute  版块
|
编解码
|

【云上ELK系列】Logstash迁移Elasticsearch数据方法解读

用Logstash实现Elasticsearch集群快速迁移,解读Logstash中metadata的功效,避免踩坑

7039 0
|
机器学习/深度学习
|

【X-Pack解读】阿里云Elasticsearch X-Pack 机器学习组件功能详解

阿里云Elasticsearch集成了Elastic Stack商业版的X-Pack组件包,包括安全、告警、监控、报表生成、图分析、机器学习等组件,用户可以开箱即用。本文将对X-Pack 的机器学习功能进行详细解读。

7119 0
|
资源调度 分布式计算 Hadoop
|

E-MapReduce集群搭建HAWQ实践

HAWQ是一种基于HDFS的MPP(Massively Parallel Processing) SQL引擎,支持标准SQL/事务处理,性能比原生Hive快几百倍。本文介绍在E-MapReduce集群上面如何搭建HAWQ。

5907 0
|
分布式计算 大数据 MaxCompute
|

【大数据技巧】MaxCompute优化去重计算的性能

转载自dachuan源代码是最好的文档 随着双十一数据量的暴增,之前用distinct去重可以简单处理的场景,现在消耗的时间成倍增长。如果用了multiple distinct,那就更要警惕,因为多重去重本身会带来数据量的成倍增长,很可能10分钟的任务,在双十一期间会跑上几个小时都没有结果。 这

6041 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 人工智能 并行计算
|

阿里云机器学习平台PAI,助力降低机器学习的成本和技术门槛

摘要:在2017杭州云栖大会机器学习平台PAI专场上,阿里巴巴研究员、阿里云机器学习平台PAI负责人林伟为大家分享了人工智能的发展历史以及阿里云机器学习平台PAI的简单情况和特性。   本文内容根据嘉宾演讲视频以及PPT整理而成。

6895 1
来自: 人工智能平台PAI  版块
|
分布式计算 MaxCompute
|

RODPS介绍

这篇文章主要是给外部用户介绍如何使用RODPS的 (一)概念介绍 RODPS能够提供一个桥接的方式,使得可以在R语言环境中无缝的使用MaxCompute(原ODPS)里面的数据、计算资源,类似于开源社区的RHive和Rhadoop的功能。 (二)安装R基础环境 2.1 Linux serve

7079 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 大数据
|

MaxCompute SQL 现状与展望

票选最美云上大数据暨大数据技术峰会上,阿里云飞天一部高级专家振禹为大家带来题为“MaxCompute SQL 现状与展望”的演讲。本文重点解析了MaxCompute SQL 现状,详细介绍了各种功能,其中包括编译器用户友好功能、复杂类型、CTE、参数化视图和SEMI JION等,接着说明了MaxCompute SQL即将完成与推进中的功能,最后作了简要总结。

5368 0
来自: 大数据计算 MaxCompute  版块
|
新零售 机器学习/深度学习 算法
|

千亿特征流式学习在大规模推荐排序场景的应用

摘要:2017云栖大会机器学习平台PAI专场,阿里巴巴高级技术专家陈绪带来千亿特征流式学习在大规模推荐排序场景的应用的演讲。主要从电商个性化推荐开始谈起,进而描述了技术挑战和PAI解决方案,重点分享了鲲鹏框架和算法调优,最好作了简要总结。

5646 0
来自: 大数据计算 MaxCompute  版块
|
搜索推荐 开发者 算法
|

云栖全程回顾|搜索推荐工程技术专场(附视频与文档)

2019年9月26日在云栖大会《搜索推荐工程技术专场》上,介绍了阿里巴巴搜索推荐与广告,淘系推荐算法云上赋能的分享。基于阿里巴巴十几年搜索与推荐引擎的技术沉淀,承载了包括淘宝、天猫、菜鸟、盒马、钉钉、优酷乃至海外电商在内的整个阿里集团业务,同时由搜索推荐体系支撑起的云产品矩阵已服务于全球的开发者。本次分享邀请到了阿里巴巴搜索和推荐最核心的资深技术专家,为大家带来搜索和推荐领域最前沿、专业、深度的技术内容盛宴。

8814 0
来自: 智能搜索推荐  版块
|
分布式计算 大数据 数据库
|

佰腾科技的专利大数据的云上裂变之路

在票选最美云上大数据暨大数据技术峰会上,来自江苏佰腾科技有限公司的许鹏通过介绍佰腾专利大数据平台的演化、上云前后的平台结构和任务处理流程,为大家分享了专利大数据的云上裂变之路,解释了非专业人士也能进行专利信息的检索与统计,即专利信息的大众化。

6330 0
来自: 大数据计算 MaxCompute  版块

MaxCompute客户端(odpscmd)在windows命令行下查询中文乱码问题处理实践

MaxCompute客户端工具是阿里云大数据计算服务MaxCompue产品官方客户端工具,通过客户端工具可以连接MaxCompute项目,完成包括数据管理、数据上下传、作业执行、用户及授权管理等各项操作。

7072 0
来自: 大数据计算 MaxCompute  版块
|
新零售 分布式计算 大数据
|

MaxCompute大数据实践,电商数据仓库的星型模型和传统星型的区别

作者:王永伟 在Kimball所著的《数据仓库工具箱》一书中,对于维度模型设计采用的4步设计方法:1.选择业务过程 2.声明粒度 3.确定维度 4.确定事实。 在当前的互联网大数据环境下,面对复杂的业务场景,为了更有效准确地进行维度模型建设,基于Kimball的4步维度建模方法,我们进行了更进一步的改进。

5858 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Hadoop DataWorks
|

【最佳实践】如何运用DataWorks数据同步功能,将Hadoop数据同步到阿里云Elasticsearch上

如何通过DataWorks数据同步功能,将Hadoop数据同步到阿里云Elasticsearch上,并进行搜索分析。

7111 0
|
SQL 大数据 流计算
|

Flink SQL 功能解密系列 —— 解决热点问题的大杀器MiniBatch

在Blink的流式任务中,State相关的操作通常都会成为整个任务的性能瓶颈。实时计算部-查询和优化团队开发了MiniBatch功能,大幅降低了State操作的开销,在今年的双11中,几乎所有适用的任务都启用了MiniBatch功能。

6553 0
来自: 实时计算 Flink  版块
|
关系型数据库 Java Apache
|

Apache Flink 漫谈系列(09) - JOIN 算子

聊什么 在《Apache Flink 漫谈系列 - SQL概览》中我们介绍了JOIN算子的语义和基本的使用方式,介绍过程中大家发现Apache Flink在语法语义上是遵循ANSI-SQL标准的,那么再深思一下传统数据库为啥需要有JOIN算子呢?在实现原理上面Apache Flink内部实现和传统.

12306 0
来自: 实时计算 Flink  版块
|
存储 分布式计算 算法
|

MaxCompute在阿里妈妈数据字化营销解决方案上的典型应用

摘要 大数据计算服务MaxCompute是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案目前已在阿里巴巴内部得到大规模应用。来自阿里妈妈基础平台大规模数据处理技术专家向大家分享了MaxCompute在阿里妈妈数据字化营销解决方案上的典型应用经验。

5276 0
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 大数据
|

仁人帮探索大数据技术

前两期小帮为大家介绍了仁人帮的大数据定义与大数据在仁人帮后台的应用。今天也不跟大家卖关子了,接下来,小帮为大家奉上的是大数据平台技术的探索。 大数据技术,小帮认为可以分成两个大的层面,大数据平台技术与大数据应用技术。

4439 0
来自: 大数据计算 MaxCompute  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
67738
内容
128
活动
439509
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务