|
机器学习/深度学习 算法 对象存储
|

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

伴随着今日阿里云机器学习PAI在云栖大会的重磅发布,快来感受下人工智能的魅力。 一、背景 随着互联网的发展,产生了大量的图片以及语音数据,如何对这部分非结构化数据行之有效的利用起来,一直是困扰数据挖掘工程师的一到难题。

50965 71
来自: 人工智能平台PAI  版块
|
数据可视化
|

DataV接入ECharts图表库 可视化利器强强联手

两个扛把子级产品的结合,而且文末有彩蛋。

25839 100
来自: 数据可视化DataV  版块
|
机器学习/深度学习 TensorFlow 算法框架/工具
|

【玩转数据系列十五】机器学习PAI为你自动写歌词,妈妈再也不用担心我的freestyle了(提供数据、代码)

背景 最近互联网上出现一个热词就是“freestyle”,源于一个比拼rap的综艺节目。在节目中需要大量考验选手的freestyle能力,freestyle指的是rapper即兴的根据一段主题讲一串rap。

21324 5
来自: 人工智能平台PAI  版块
|
弹性计算 分布式计算 Hadoop
|

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

 想用阿里云数加·大数据计算服务(MaxCompute),但是现在数据还在hadoop上,怎么办?   别烦恼,跟着我们走,来一次MaxCompute零基础数据迁移之旅~Let’s Go!

17585 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 关系型数据库 大数据
|

[ETL实践指南]基于Kettle的MaxCompute插件实现数据上云

本文用到的 阿里云数加-大数据计算服务MaxCompute产品地址:https://www.aliyun.com/product/odps 简介 Kettle是一款开源的ETL工具,纯java实现,可以运行于Windows, Unix, Linux上运行,提供图形化的操作界面,可以通过拖拽控件的方式,方便地定义数据传输的拓扑。

21323 3
来自: 大数据计算 MaxCompute  版块
|
安全 数据安全/隐私保护
|

新版发布功能上线,新增「大屏快照」功能!

新版发布功能上线,新增「大屏快照」功能! 发布分享 链接设置 分享链接 ​ 打开「发布分享」按钮之后,会随机生成一个分享链接,此链接每次打开之后都会变更,上一次的分享链接随即失效且不能恢复到历史分享链接。

15267 152
来自: 数据可视化DataV  版块
|
安全 数据中心 分布式计算
|

如何有效降低大数据平台安全风险

在2019杭州云栖大会大数据企业级服务专场,由阿里云智能计算平台事业部资深技术专家李雪峰带来以“如何有效降低大数据平台安全风险”为题的演讲。本文首先概括了企业在大数据上云过程中会产生的安全顾虑。接着,在大数据平台中要处理的安全风险中,对数据中心物理安全与网络安全、大数据平台系统安全以及数据应用安全三部分做了详细的介绍。最后,描述了阿里云飞天大数据平台的安全体系。

14249 2
来自: 大数据计算 MaxCompute  版块

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

TopN 是统计报表和大屏非常常见的功能,主要用来实时计算排行榜。流式的 TopN 不同于批处理的 TopN,它的特点是持续的在内存中按照某个统计指标(如出现次数)计算 TopN 排行榜,然后当排行榜发生变化时,发出更新后的排行榜。

18741 1
来自: 实时计算 Flink  版块
|
流计算 Apache 存储
|

Flink Checkpoint 问题排查实用指南

本文会统一聊一聊 Flink 中 Checkpoint 异常的情况(包括失败和慢),以及可能的原因和排查思路。

14289 0
来自: 实时计算 Flink  版块
|
数据采集 监控 大数据
|

“阿里巴巴大数据系统体系”学习笔记-纲领篇

‘你是做什么的?’ ‘数据产品经理’看到对方一脸懵逼之后,再补充一句‘大数据相关的工作’ ‘哦~,高大上,不懂’ 过去5年,‘大数据’是最火的一个概念,被纷繁解读。在我看来,数据跟石油、煤炭一样是一种资源。

9605 125
来自: 大数据计算 MaxCompute  版块
|
SQL 双11 流计算
|

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

通俗讲retract就是传统数据里面的更新操作,也就是说retract是流式计算场景下对数据更新的处理方式。

20508 10
来自: 实时计算 Flink  版块
|
运维 搜索推荐 调度
|

Ha3搜索引擎简介

Ha3是阿里巴巴搜索团队开发的搜索引擎平台,它为阿里集团包括淘宝、天猫在内的核心业务提供搜索服务支持。

26538 1
来自: 智能搜索推荐  版块
|
分布式计算 大数据 Hadoop
|

HAS-插件式Kerberos认证框架

HAS (Hadoop Authentication Service), 致力于解决开源大数据服务和生态系统的认证支持。目前开源大数据(Hadoop/Spark)在安全认证上只内置支持了Kerberos方式,HAS提出了一种新的认证方式, 通过与现有的认证和授权体系进行对接,使得在Hadoop/Spark在上面支持Kerberos以外的认证方式变成可能,并对最终用户简化和隐藏Kerberos的复杂性。

9057 0
|
监控 大数据 索引
|

【X-Pack解读】阿里云Elasticsearch X-Pack 监控组件功能详解

阿里云Elasticsearch集成了Elastic Stack商业版的X-Pack组件包,包括安全、告警、监控、报表生成、图分析、机器学习等组件,用户可以开箱即用。本文将对X-Pack 的监控组件功能进行详细解读。

10577 1
|
SQL 分布式计算 JavaScript
|

阿里云大数据利器Maxcompute-使用mapjoin优化查询

small is beautiful,small is powerful

9958 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Spark Python
|

开源生态的新发展:Apache Spark 3.0、Koala和Delta Lake

Hadoop开源生态Spark已经发展三年有余,今年迎来了Spark 3.0。在2019杭州云栖大会大数据&AI峰会上,Databricks研发总监李潇为大家分享了Spark 3.0版本的新特性,以及其在数据工程以及数据科学方面带来的新技术。

9196 0
|
存储 分布式计算 大数据
|

如何在E-MapReduce中玩转OSS

在E-MapReduce中,用户可以将OSS作为Hadoop/Spark的可选数据源之一。但是在实际使用时,我们发现Hadoop读写OSS的性能不令人满意。为了解决这个问题,E-MapReduce团队对Hadoop的底层实现进行了优化,使得OSS数据源能够更好地适配Hadoop/Spark。

7900 0
|
大数据 调度
|

【大数据开发套件调度配置实践】——不同周期任务依赖配置

大数据开发过程中常遇到不同运行周期的任务进行依赖,常见**天任务依赖小时任务**、**小时任务依赖分钟任务**。那么如何通过大数据开发套件开发这两种场景呢? 本文将从这两个场景出发,结合调度依赖/参数/调度执行等,介绍不同周期调度依赖的最佳操作实践。

9717 0
来自: 大数据计算 MaxCompute  版块
|
运维 算法 大数据
|

【阿里云MVP第五期】安畅网络韩军辉:ELK在数据中心流量分析中的应用

本文节选自阿里云MVP第五期嘉宾上海安畅运维专家韩军辉分享话题《ELK在运维工作中应用两三事》。从实际应用的角度,分享了ELK在混合云数据中心场景下流量收集、分析、存储、展现、告警中的实践。

7603 0
|
存储 消息中间件 大数据
|

开源大数据周刊-第66期

6828 0
|
存储 分布式计算 大数据
|

阿里云MaxCompute携手华大基因打造精准医疗应用云平台,十万基因组计算成本降低至1000美金以内

摘要:华大基因股份公司总监金鑫介绍了华大基因,并浅谈了与阿里云的情缘,包括Maxcompute等方面应用案例。一起来看下吧。   关于华大基因 华大基因是中国最领先的基因科技公司,华大基因为消除人类病痛、经济危机、国家灾难、濒危动物保护、缩小贫富差距等方面提供分子遗传层面的技术支持。

7134 1
来自: 大数据计算 MaxCompute  版块
|
数据可视化 计算机视觉 机器学习/深度学习
|

手绘稿如何1秒变身数据大屏?深度学习让人人成为可视化专家

想在1天内快速搞定实时业务数据大屏吗?想用最短路径逆袭成为数据可视化大神吗?想在除了PRD外什么都没有的情况下,体验职场真人版绝境求生吗?

12603 0
来自: 数据可视化DataV  版块
|
机器学习/深度学习 运维 监控
|

【阿里云MVP第五期】Elastic曾勇:Elasticsearch在智能运维领域的应用

本文根据阿里云MVP第五期嘉宾Elastic技术专家曾勇分享话题《Elasticsearch在智能运维领域的应用》整理。介绍了Elasticsearch在智能运维领域的技术原理和应用实践,如非监督型机器学习在自动的异常检测、高级关联和分类、早期故障预测等方面的应用。

7734 0
|
存储 分布式计算 MaxCompute
|

MaxCompute 存储优化技巧

文章转自duzhuan本文主要介绍一些ODPS表操作的优化技巧,通过这些技巧,可以有效节省ODPS存储空间和计算量。 合理设置分区表 ODPS支持分区表的概念,分区表指的是在创建表时指定的partition的分区空间,即指定表内的某几个字段作为分区列。在大多数情况下,用户可以将分区类比为文件系统

7109 0
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 大数据
|

万元大奖邀您参与阿里云数加 MaxCompute最佳实践征文大赛

DT时代,越来越多的企业应用数据步入云端。与传统Hadoop相比,阿里云数加MaxCompute(原名ODPS)向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

6229 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 安全 大数据
|

企查查支撑8000万+企业数据的大数据平台技术选型与实现

企查查终端所有企业工商信息均实时同步更新,汇集了目前国内市场中的80个产业链,8000个行业,6000个市场以及8000多万家企业数据。

8706 0
来自: 大数据计算 MaxCompute  版块
|
新零售 存储 分布式计算
|

技术与架构,解析如何将大数据最快落地到实践

3月9日14点,业内首个结合技术与应用的在线大数据技术峰会即将展开,届时6位阿里技术大咖与4位行业资深实践者将从技术与业务两个方面,与大家探讨大数据如何最快落地到实践。较为有看点的是: 最深入的实践:本次在线峰会上,6个阿里规模的大数据实践将被深入分享,包括大数据平台的性能调优、流式增量计算、持续发布与演进、机器学习平台打造等。

5985 0
来自: 大数据计算 MaxCompute  版块
|
缓存 监控 搜索推荐
|

一种基于Lucene的实时搜索服务

因为本文篇幅有限,在这里我只会着重介绍:实时性、高可用性在我们产品中的一些技术实践。 实时解决方案 在介绍我们产品方案之前,首先介绍下业内常见的实时解决方案,见图1-1实时架构图: ![P1](http://img3.

6286 0
来自: 智能搜索推荐  版块
|
机器学习/深度学习 人工智能 并行计算
|

阿里云机器学习平台PAI,助力降低机器学习的成本和技术门槛

摘要:在2017杭州云栖大会机器学习平台PAI专场上,阿里巴巴研究员、阿里云机器学习平台PAI负责人林伟为大家分享了人工智能的发展历史以及阿里云机器学习平台PAI的简单情况和特性。   本文内容根据嘉宾演讲视频以及PPT整理而成。

7058 1
来自: 人工智能平台PAI  版块
|
SQL 分布式计算 DataWorks
|

为了让开发者写MaxCompute SQL更爽,DataWorks 增强SQL 编辑器功能

众所周知,数据开发和分析的同学每天都要花大量时间写MaxCompute SQL;Dataworks作为数据开发的IDE直接影响着大家的开发效率,这次新上线的Dataworks我们在编辑体验上做了很多工作,在前端实现MaxCompute SQL和编辑器参数等扩展语法的AST解析,并实现更好更智能的代

6450 0
来自: 大数据计算 MaxCompute  版块
|
大数据
|

【全球独家首发】阿里云数加大数据产品手册V1.0(纯附件)

欢迎下载:https://yq.aliyun.com/attachment/download/?id=1489

5268 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 存储 大数据
|

专访佰腾科技大数据团队,谈专利大数据领域的挑战与实践

专利信息的『大数据』与其它领域的『大数据』多少有些不同,虽然全球专利信息的总量仅在1亿多条,但是每条专利信息要分析获取的数据维度目前就多达200多项,实际处理的数据量在百亿级别。

6471 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 关系型数据库 MySQL
|

E-Mapreduce如何处理RDS的数据

目前网站的一些业务数据存在了数据库中,这些数据往往需要做进一步的分析,如:需要跟一些日志数据关联分析,或者需要进行一些如机器学习的分析。在阿里云上,目前E-Mapreduce可以满足这类进一步分析的需求。

5219 0
|
机器学习/深度学习 分布式计算 数据可视化
|

阿里云数加(大数据)打造雄安智慧新区

       自从4月1日,中共中央、国务院印发通知,决定设立河北雄安新区之后,这个无名小城就一夜爆红。雄安新区规划范围涉及河北省雄县、容城、安新3县及周边部分区域,地处北京、天津、保定腹地,是继深圳经济特区和上海浦东新区之后又一具有全国意义的新区。

5332 0
来自: 大数据计算 MaxCompute  版块
|
运维 监控 安全
|

【ELK入门】Elastic中文社区运维监控实战之架构篇

阿里云MVP曾勇撰写的《ELK运维监控入门实战》系列,以Elasticsearch中文社区网站运维监控体系搭建作为案例,讲解了ELK监控系统的相关原理和技术实现,可作为对ELK感兴趣的同学的入门级文章。本篇作为第一篇,介绍了项目背景和技术架构。

7373 0
|
分布式计算 Spark
|

欢迎加入Spark中国社区

欢迎大家关注Spark中国社区! 社区成员会定期把Spark(全球)社区的最新发布、文档等翻译后放到社区,并经常组织社区成员线上、线下的直播分享、meetup以及有奖比赛等活动,非常欢迎大家加入社区,对于发帖、提问、答疑的同学,社区会给予特色的奖励 Spark社群钉钉群

10031 1
|
机器学习/深度学习 存储 TensorFlow
|

PAI深度学习Tensorflow框架多机多卡多PS Server使用说明

6145 58
来自: 人工智能平台PAI  版块
|
分布式计算 Hadoop API
|

使用hadoop restful api实现对集群信息的统计

本文根据hadoop/spark的RESTful API,实现了对集群基本信息的统计功能,包括HDFS文件系统、job情况、资源队列情况的统计。这些API只提供了基础的数据,具体的统计与分析,还需要基于这些基础数据做一些简单的开发。

5310 0
|
机器学习/深度学习 存储 分布式计算
|

Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望

阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark 3.0即将重磅发布的新功能。

5336 0
|
SQL 测试技术 API
|

Apache Flink 漫谈系列(13) - Table API 概述

什么是Table API 在《Apache Flink 漫谈系列(08) - SQL概览》中我们概要的向大家介绍了什么是好SQL,SQL和Table API是Apache Flink中的同一层次的API抽象,如下图所示: Apache Flink 针对不同的用户场景提供了三层用户API,最下层ProcessFunction API可以对State,Timer等复杂机制进行有效的控制,但用户使用的便捷性很弱,也就是说即使很简单统计逻辑,也要较多的代码开发。

8275 55
来自: 实时计算 Flink  版块
|
存储 消息中间件 安全
|

计算与存储分离实践—swift消息系统

swift是搜索事业部自主研发分布式消息系统,它的主要存储基于分布式文件系统,资源需求基于分布式调度系统。swift能支持每秒数亿的消息传递,支持PB级消息的存储。

7280 0
来自: 智能搜索推荐  版块
|
机器学习/深度学习 算法 搜索推荐
|

认知你的用户——Representation Factory for E-commerce Search

4637 0
来自: 智能搜索推荐  版块
|
机器学习/深度学习 大数据 数据挖掘
|

借助数加,原来需要2-3天的单维度数据处理时间,目前仅需3-6小时,研发周期更短,产品需求符合度更高。

“在原来自建的环境里进行一个维度的数据处理大约需要 2-3天时间,而使用数加平台处理相同数据只需要 3-6 个小时。这些效率的提升可以缩短数据分析应用产品的研发周期,并能更好的提高这些产品的需求符合度。

4295 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute 流计算
|

基于 MaxCompute 的极速的基因测序分析

转载自yizhuo 基因、测序、分析 基因,生命的基本因素,是人类和其他生物的基础遗传物质。人有 23 对染色体,总共记录了大约 3Gb 个碱基(这里的 b 是 base,即碱基,可不是 bit,参考这里),每个位置上的碱基可能是 ATCG 中的一个。简单理解起来,就是有了这 3Gb 长的字

4773 1
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 大数据
|

MaxCompute应用限制整理

好多同学在使用MaxCompute时,对产品的应用限制并不了解。这里,我们将给出MaxCompute产品的详细应用限制列表。如有遗漏,还请大家补充: 命名规范:原则上,项目(Project),表(Table),函数(Function),资源(Resource),分区(Partition

4550 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 NoSQL Shell
|

使用spark-redis组件访问云数据库Redis

本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成,Redis使用阿里云数据库Redis。

4726 0
|
分布式计算 监控 大数据
|

阿里云数加案例-美柚

美柚以让女人更美更健康为己任,致力成为最懂女人的互联网企业;美柚很早就将大数据作为了解女人、读懂女人、服务女人的最重要利器。大数据在美柚的应用非常广泛,然而在美柚大数据之路的初期,遇到了不少的困难和挑战

4282 0
来自: 大数据计算 MaxCompute  版块
|
新零售 分布式计算 大数据
|

首次加入云栖大会的Flink专场,究竟都讲了啥?

9月19日,云栖大会的Flink分论坛,在杭州正式开幕。今天是云栖大会的第一天,据悉,这也是云栖大会首次加入Flink的论坛,足见阿里对于Flink前景的看好与重视。本次Flink分论坛,除了阿里巴巴的嘉宾外,论坛也邀请了Data Artisans的联合创始人,Flink的开创者和发扬者同台,共话Flink的前世今生。

4699 0
来自: 实时计算 Flink  版块
|
供应链 大数据 测试技术
|

菜鸟双11在「仓储配送数据实时化」的台前幕后

2017年双11,虽然仓配系统做了非常多业务端的优化,使得峰值不会达到如交易系统那般恐怖的程度,但仓配业务链路长、节点多、分析维度复杂的业务特点,也使我们在开发仓配实时数据的过程中,面临了不少挑战。而正好基于双11的业务背景,我们也开始着手建立起带有"仓配特色"的实时数据版图。

5456 1
来自: 实时计算 Flink  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69545
内容
128
活动
439966
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务