阿里巴巴飞天大数据架构体系与Hadoop生态系统
先说Hadoop 什么是Hadoop? Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统,主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算,充分利用集群的威力进行高速运算和存储。
Oracle存储过程迁移ODPS-00(专有云):Oracle - ODPS数据类型转换
oracle 数据类型 转到ODPS,映射关系
DataV账号间屏幕拷贝功能指南
账户间的拷屏功能就是这么低调地上线了。虽然操作非常简单,但是会涉及到一个用户识别码的新概念,拷屏过程中也会有一定的规则,所以还是向各位介绍具体操作。
DataV FAQ
Q:数据库连接不成功 A:需要您开通数据库的公网IP,目前并不支持白名单。或者您可以通过我们提供的[代理工具]来连接到DataV
阿里巴巴下一代数据集成技术
数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。
通过ZeppelinHub viewer来分享zeppelin的notebook和报表数据
最近有使用E-MapReduce的同学咨询如果将zeppelin中的表表数据进行共享。这里就介绍一下在Aliyun E-MapReduce的集群中使用ZeppelinHub来进行notebook和报表的分享。
阿里巴巴高级技术专家章剑锋:大数据发展的 8 个要点
章剑锋(简锋),开源界老兵,Apache Member,曾就职于 Hortonworks,目前在阿里巴巴计算平台事业部任高级技术专家,并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ,以及 Apache Pig 的 Committer。
阿里云大学精品课程:深入理解阿里云数加大数据开发套件Data IDE-基本知识
基于阿里云数加·MaxCompute构建大数据仓库的开发工具利器Data IDE《MaxCompute(原ODPS)开发入门指南——数据开发工具篇》,那么基于Data IDE进行数据开发想必也遇到一些不少的困惑,就自己在培训过程中的一些经验或者说阿里集团内的踩坑之路与大家在此分享,也欢迎拍砖。
运维场景下的实时计算应用
案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总 运维场景主要有下面几个需求: 整体系统运行指标计算与可视化,可参考:数据仓库介绍与实时数仓案例 问题排查与全链路DEBUG,可参考:【阿里内部应用】基于Blink构建搜索全链路debug系统快速定位搜索问题、【阿里内部应用】基于Bli.
E-MapReduce上如何采集Kafka客户端Metrics
我们知道Kafka提供一套非常完善的Metrics数据,覆盖Broker,Consumer,Producer,Stream以及Connect。E-MapReduce通过Ganglia收集了Kafka Broker metrics信息,可以很好地监控Broker运行状态。
E-MapReduce大数据安全实践
E-MapReduce从EMR-2.7.x/EMR-3.5.x版本开始支持创建安全类型的集群,即集群中的开源组件以Kerberos的安全模式启动,在这种安全环境下只有经过认证的客户端(Client)才能访问集群的服务(Service,如HDFS)。
MaxCompute UDF系列之判断字符串中是否包含汉字
为了验证字符串中是否包含中文汉字,今天为大家提供一个自动判断中文字符的MaxCompute UDF,下载地址见附件。 效果如下: MaxCompute UDF代码如下: package com.
【玩转数据系列十六】机器学习PAI通过声音分辨男女(含语音特征提取相关数据和代码)
机器学习PAI通过声音数据分辨男女(含语音特征提取相关数据和代码)
年服务人次3300万+,网鱼网咖的大数据挑战及架构
从98年成立至今的18年中,网鱼累计签约门店已接近900家,已拥有超过830万会员,2016年网鱼网咖共服务了3300多万人次,服务范围覆盖全国100多个城市,现在网鱼网咖已走出国门,在加拿大、澳大利亚、新加坡等国家开设多家门店。
数加平台如何通过Serverless 架构实现普惠大数据
Serverless 架构旨在将应用开发者从底层基础设施的运维中解放出来,更加专注于业务价值的实现上,这种思想对于大数据应用尤其适用,数据科学家更需要投入到数据价值的探索和挖掘上。本文讲述了数据平台如何利用Serverless 的架构来降低大数据应用的门槛,真正的实现普惠大数据。
阿里集团搜索中台TisPlus
阿里集团搜索中台TisPlus 搜索中台的发展 从阿里很多技术产品的发展路径来看都遵循着技术驱动、产品驱动、数据驱动三个阶段,那阿里巴巴的搜索技术的发展也基本基于上述的发展路径。
MaxCompute(原ODPS)开发入门指南——数据开发工具篇
大家在使用大数据计算服务MaxCompute时,最头疼就是我现在已有的数据如何快速上云?我的日志数据如何采集到MaxCompute上?等等。。。具体详见《MaxCompute(原ODPS)开发入门指南——数据上云篇》。
MaxCompute/DataWorks 数据集成与开发实践
摘要:在2017杭州云栖大会阿里云数加DataWorks专场上,阿里云产品专家代俊峰(花名:普阳)为大家分享了如何借助阿里云数加DataWorks工具进行数据集成和开发,分享了如何借助DataWorks实现从数据处理手工作坊到数据加工工厂的跨越转变。
基于MaxCompute的图计算实践分享-图加载过程
一、前言 MaxCompute Graph 是基于飞天平台实现的面向迭代的图处理框架,为用户提供了类似于 Pregel 的编程接口。MaxCompute Graph(以下简称 Graph )作业包含图加载和计算两个阶段: 加载,将存储在表中的数据载入到内存中,以点和边的形式存在;
MaxCompute(原ODPS)开发入门指南——计量计费篇
近期介绍大量数据上云用户关于MaxCompute的一些问题,现就MaxCompute产品线的一些工具栈可以和大家进行交流,也欢迎大家拍砖和来扰,一起学习一起进步!也希望能够在帮助到大家!
【大数据新手上路】“零基础”系列课程--Flume收集网站日志数据到MaxCompute
概述:大数据时代,谁掌握了足够的数据,谁就有可能掌握未来,而其中的数据采集就是将来的流动资产积累。 任何规模的企业,每时每刻都在产生大量的数据,但这些数据如何归集、提炼始终是一个困扰。而大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,从中分析和挖掘出有价值的
【技术实验】Elasticsearch 做数据库系列之一:表结构定义
Elaticsearch 有非常好的查询性能和查询语法,在一定场景下可以替代RDBMS做为OLAP。《Elasticsearch 做数据库系列》系列文章通过类比SQL的概念,实验并学习Elasticsearch聚合DSL的语法和语义,并用 python 实现一个翻译器,能够使用 SQL 来完成 Elasticsearch 聚合DSL一样的功能。
MaxCompute(原ODPS) MapReduce常见问题解答
#### 1. 作业出现ClassNotFoundException和NoClassDefFoundError异常失败? A: 对于ClassNotFoundException异常,一般是依赖的class不在你的jar包中,需要把依赖的库打到作业jar包中或者单独上传,并在-resources中指
2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》实验环境准备
2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》实验环境准备
MaxCompute2.0性能评测:更强大、更高效之上的更快速
MaxCompute2.0(原Odps):通过性能评测,MaxCompute2.0离线计算比同类产品Hive2.0 on Tez性能优势快约90%以上;MaxCompute2.0从新一代执行引擎到编译引擎、基于代价的优化器全流程针对性能提升做出了卓越改进。 本次评测侧重于已发
【大数据技巧】MaxCompute优化去重计算的性能
转载自dachuan源代码是最好的文档 随着双十一数据量的暴增,之前用distinct去重可以简单处理的场景,现在消耗的时间成倍增长。如果用了multiple distinct,那就更要警惕,因为多重去重本身会带来数据量的成倍增长,很可能10分钟的任务,在双十一期间会跑上几个小时都没有结果。 这
DT时代已经悄然来临,IT人您跟上了吗?
什么是DT时代? 在2015年中国(深圳)IT领袖峰会上,马云发表演讲:过去7年我们从互联网创业到互联网产业,很快进入互联网经济,而且正在从IT走向DT时代,也许昨天称为IT领袖峰会,未来要称DT领袖峰会,DT不仅仅是技术提升,而是思想观念的提升。
【大数据技术干货】阿里云伏羲(fuxi)调度器FuxiMaster功能简介(二) 调度模型
转载自xingbao各位好,这是介绍阿里云伏羲(fuxi)调度器系列文章的第二篇,今天主要介绍调度模型和FIFO\FAIR调度策略 一、FuxiMaster简介 FuxiMaster和Yarn非常相似,定位于分布式系统中资源管理与分配的角色:一个典型的资源分配流程图如下所示: 作为调度器,目前F
OpenSearch:轻松构建大数据搜索服务
如何从海量的历史、实时数据中快速获取有用信息,令搜索变得越来越具挑战性。OpenSearch是阿里云推出的一款云搜索服务,本文将介绍OpenSearch的发展历程、基本功能、以及实现原理和架构,以实际应用场景为例讲述应用实践过程。
基于实时计算(Flink)与高斯模型构建实时异常检测系统
案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总 1. 概述 异常检测(anomaly detection)指的是对不符合预期模式或数据集(英语:dataset)中其他项目的项目、事件或观测值的识别。
阿里云大数据利器之-使用flume+sql实现流计算做实时展现业务(归档Maxcompute)
实时业务处理的需求越来越多,也有各种处理方案,比如storm,spark等都可以。那以数据流的方向可以总结成数据源-数据搜集-缓存队列-实时处理计算-数据展现。本文就用阿里云产品简单实现了一个实时处理的方案。
阿里妈妈MaxCompute架构演进 - AON(MPI)集群
我们的集群规模不断地在加大, 与此同时我们却有着不同的感受,明显感觉到了各种任务的运行效率都在变低,其中AllOrNothing这类任务表现尤为明显
MaxCompute UDF系列之身份证校验及15位身份证号码转换成18位
为了验证一些老证件上的身份证号码到底是不是本人,今天为大家提供一个15位身份证号码转换成18位的MaxCompute的UDF,下载地址见附件。 效果如下: MaxCompute UDF代码如下: /*** * 身份证号码构成:6位地址编码+8位生日+3位顺序码
开篇 | 揭秘 Flink 1.9 新架构,Blink Planner 你会用了吗?
本文为 Apache Flink 新版本重大功能特性解读之 Flink SQL 系列文章的开篇,Flink SQL 系列文章由其核心贡献者们分享,涵盖基础知识、实践、调优、内部实现等各个方面,带你由浅入深地全面了解 Flink SQL。
【大数据干货】阿里云数加让企业更专注于业务,助力东润环能高效利用大数据资源
最重要的是采用阿里云数加,东润环能将所有精力都放在业务上,节省了自建机房在学习成本、开发成本、管理成本、投入机房资源和运维成本的总成本,“相比自建Hadoop物理集群,使用阿里云数加MaxCompute的总成本有较大降低,应用开发效率有很大提高。”东润环能技术研发部总监王云如是说。
【ELK入门】Elastic中文社区运维监控实战之架构篇
阿里云MVP曾勇撰写的《ELK运维监控入门实战》系列,以Elasticsearch中文社区网站运维监控体系搭建作为案例,讲解了ELK监控系统的相关原理和技术实现,可作为对ELK感兴趣的同学的入门级文章。本篇作为第一篇,介绍了项目背景和技术架构。
技术创业难?看汇合营销如何玩转大数据与机器学习
峰值期间,汇合营销每天需要收集、分析和存储20多亿条的访客浏览轨迹;同时,还需要根据用户需求在亿级日志表中做秒级查询。
基于Flink和规则引擎的实时风控解决方案
对一个互联网产品来说,典型的风控场景包括:注册风控、登陆风控、交易风控、活动风控等,而风控的最佳效果是防患于未然,所以事前事中和事后三种实现方案中,又以事前预警和事中控制最好。 这要求风控系统一定要有实时性。
MaxCompute - ODPS重装上阵 第二弹 - 新的基本数据类型与内建函数
MaxCompute(原ODPS)是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务。 MaxCompute除了持续优化性能外,也致力于提升SQL语言的用户体验和表达能力,提高广大ODPS开发者的生产力。
借助阿里云数加,小小的美甲行业被美甲帮玩出了天价。
“数加对于创业公司来说是一个非常好的平台,可以在有限的投入下,充分地享受到阿里云已经有的技术和经验,站在巨人肩膀上,从而少走弯路。针对海量数据进行处理,也是一个特别有优势的地方。
【2018杭州云栖】大数据计算专场:带你感知无处不在的超大规模大数据计算
云栖大会首日,与主论坛一同亮相的大数据计算专场获得了极大关注。阿里巴巴计算平台六位技术专家与衣二三公司CTO,共同引领开发者们直击阿里巴巴超大规模的大数据计算服务,解构数据世界,分享大数据计算前沿科技。整个下午座无虚席,众多来宾站立参与全程。
开源大数据周刊-第12期
本周包括 全景洞察大数据全貌、数据分析师的职业规划、打造智能聊天机器人、E-Mapreduce的相关实践及动态、最近值得关注的大数据会议。
重磅揭晓!Flink Forward Asia 2019 议程完整出炉
60 年前,人工智能的诞生刷新了人类对技术的期待;过去 10 年,大数据、云计算等核心技术的发展,推动了整个社会的重构与革新;5 年时间,移动互联网从诞生到逐步实现万物互联,数据在现实中的边界正在不断被拓展;技术迭变的进程不断加快,新兴技术的涌现昼夜不停。
如何在E-MapReduce上使用引导操作安装kafka组件
当前emr最新版本2.1.1没有kafka组件,需要额外安装。本文介绍如何用E-MapReduce引导操作来安装kafka_2.10-0.10.0.0版本。
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。