MaxCompute(ODPS)上处理非结构化数据的Best Practice
随着MaxCompute(ODPS)2.0的上线,新增的非结构化数据处理框架也推出一系列的介绍文章,包括 MaxCompute上如何访问OSS数据, 基本功能用法和整体介绍,侧重介绍读取OSS数据进行计算处理; 本文:MaxCompute(ODPS)上处理非结构化数据的Best Practice。
列式存储系列(二): Vertica
本文就 Vertica 的数据模型、存储、执行引擎以及这几个方面与 C-Store 的区别进行了简单的介绍。总的来说,Vertica 是一个纯正的列式存储数据库,为此,Vertica 设计实现了 projection 这一数据模型,并围绕该模型设计实现了一套大数据分析管理引擎。
MaxCompute携手ofo小黄车与阿里妈妈—邀你共赴大数据计算北京高端峰会(含技术干货整理)
ofo小黄车如何通过MaxCompute轻松处理每天千万订单,提升线下运营效率50%以上,提升整体运行效率76%? 阿里妈妈在搜索广告、定向广告、达摩盘、报表和BI分析等常见场景下是如何使用MaxCompute的? Noxmobi自建业界领先的DSP、SSP、ADX等广告系统,其中最重要的底层数.
Apache Flink 漫谈系列(10) - JOIN LATERAL
聊什么 上一篇《Apache Flink 漫谈系列 - JOIN算子》我们对最常见的JOIN做了详尽的分析,本篇介绍一个特殊的JOIN,那就是JOIN LATERAL。JOIN LATERAL为什么特殊呢,直观说因为JOIN的右边不是一个实际的物理表,而是一个VIEW或者Table-valued Funciton。
MaxCompute在高德大数据上的应用
2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,高德数据技术专家苗翌辰为大家分享了高德如何应用MaxCompute来管理数据架构,开发易用、高效以及弹性的高德应用,为用户提供更优质的出行服务。
开源大数据周刊-第83期
资讯 最高法院就Microsoft云计算案的法律问题开展口辩论本案对Microsoft的裁决,可能将会要求位于美国的企业提交其存储在国外服务器上的美国执法数据。在这种情况下,位于美国的企业可能将无法为国外提供许多云计算服务。
E-MapReduce中引导操作安装使用Kylin
目前E-MapReduce的开源组件还未包含Kylin,下面介绍一种通过创建集群时设置的引导操作来完成集群上Kylin的部署。
80后阿里P10,“关老板”如何带着MaxCompute一路升级?
我是个幸运的人。虽然幸运不能被复制,但是眼光和努力可以。 “我是一个兴趣驱动型的人,职业生涯总的来说,还算挺幸运的,做自己感兴趣的事情,走上IT这一行……” 特别久以前,大概初中的时候有了自己的第一台电脑,大名鼎鼎的486,带一个数学协处理器,主频266MHz,内存有4MB。”
MaxCompute分区表和非分区表使用对比
本文我们将通过对有同样数据量、表结构除分区列其他都一模一样的表,从查询计算、写入、删除数据几个简单操作进行对比,了解MaxCompute分区表和非分区表在使用上有什么差异。 在介绍之前,需要大家先了解MaxCompute分区的概念。
计算与存储分离实践—swift消息系统
swift是搜索事业部自主研发分布式消息系统,它的主要存储基于分布式文件系统,资源需求基于分布式调度系统。swift能支持每秒数亿的消息传递,支持PB级消息的存储。
Mars 是什么、能做什么、如何做的——记 Mars 在 PyCon China 2018 上的分享
最近,在 PyCon China 2018 的北京主会场、成都和杭州分会场都分享了我们最新的工作 Mars,基于矩阵的统一计算框架。本文会以文字的形式对 PyCon 中国上的分享再进行一次阐述。 听到 Mars,很多第一次听说的同学都会灵魂三问:Mars 是什么,能做什么,怎么做的。
体系结构顶会 ASPLOS 2017 最佳论文出炉,阿里云周靖人主旨演讲
2017年4月11日晚,在西安举行的架构体系的顶级会议ASPLOS(面向编程语言和操作系统的架构支持会议,Architectural Support for Programming Languages and Operating Systems)公布了最佳论文、最有影响力论文和 Test of Time 几项大奖。
通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析
通过DataWorks归档日志服务数据至MaxCompute
如何分析及处理 Flink 反压?
反压(backpressure)是实时计算应用开发中,特别是流式计算中,十分常见的问题。反压意味着数据管道中某个节点成为瓶颈,处理速率跟不上上游发送数据的速率,而需要对上游进行限速。
Spark Operator浅析
Spark Operator浅析 本文介绍Spark Operator的设计和实现相关的内容. Spark运行时架构 经过近几年的高速发展,分布式计算框架的架构逐渐趋同. 资源管理模块作为其中最通用的模块逐渐与框架解耦,独立成通用的组件.
索引压缩算法New PForDelta简介以及使用SIMD技术的优化
New PForDelta算法介绍 倒排索引的数据包括docid, term frequency, term position等,往往会占用很大的磁盘空间,需要进行压缩。压缩算法需要考虑两点:压缩效果和解压缩效率。
Apache Flink 进阶(八):详解 Metrics 原理与实战
Flink 提供的 Metrics 可以在 Flink 内部收集一些指标,通过这些指标让开发人员更好地理解作业或集群的状态。由于集群运行后很难发现内部的实际状况,跑得慢或快,是否异常等,开发人员无法实时查看所有的 Task 日志,比如作业很大或者有很多作业的情况下,该如何处理?此时 Metrics 可以很好的帮助开发人员了解作业的当前状况。
MaxCompute SQL引用第三方Base64JAR实现编解码
我们通过阿里云MaxCompute 和大数据开发套件,引用第三方的Base64 JAR,来实现字符串的编码、解码;
离线批量数据通道Tunnel的最佳实践及常见问题
基本介绍及应用场景 Tunnel是Odps提供的离线批量数据通道服务,主要提供大批量离线数据上传和下载,仅提供每次批量大于等于64MB数据的场景,小批量流式数据场景请使用DataHub实时数据通道以获得更好的性能和体验。
阿里巴巴大数据运维平台实践
MaxCompute是阿里巴巴内部唯一的大数据处理平台,在全球十几个地区提供公有云服务,为上百家专有云输出计算能力。作为支撑如此庞大系统的SRE团队,如何从容面对的是EB级数据,TB级带宽,上百万块硬盘,以及数上万的客户工单?
Flink入坑指南 第四章:SQL中的经典操作Group By+Agg
Flink入坑指南系列文章,从实际例子入手,一步步引导用户零基础入门实时计算/Flink,并成长为使用Flink的高阶用户。 简介 Group By + Agg这个最经典的SQL使用方式。Group By是SQL中最基础的分组操作,agg的全称是aggregation(聚合操作),是一类SQL算子的统称,Flink中最常用的Agg操作有COUNT/SUM/AVG等,详情参见Flink支持的聚合操作列表。
大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:日志流数据解析及上传》篇
本手册为云栖大会Workshop之《在线用户行为分析:基于流式计算的数据处理及应用》场的《流数据采集:日志流数据解析及上传》篇所需。主要帮助现场学员熟悉并掌握阿里云DataHub的操作和使用。
5分钟迅速搭建云上Lambda大数据分析架构
主要介绍基于 Tablestore 的数据变更实时捕获订阅能力,实现云上Lambda 架构的轻量化实现数据的实时和离线处理。演示模拟了一个电商订单场景,通过流计算实现订单大屏的场景,做到海量订单实时注入的同时,进行10s的订单统计聚合以及交易金额统计并做实时的大屏幕展示
十年磨一剑,王坚自研的MaxCompute如何解决世界级算力难题
2009年这项关于大数据的技术长征开始。王坚带队,目标是自研大数据计算平台MaxCompute统一阿里巴巴内部的数据和大数据计算体系。
Apache Flink 零基础入门(一):基础概念解析
本文是根据 Apache Flink 基础篇系列直播整理而成,由 Apache Flink PMC 戴资力与阿里巴巴高级产品专家陈守元共同分享。Apache Flink 系列入门教程每周更新一期,持续推送。
数据新能源驱动智慧新世界:数据新能源时代来临
免费开通大数据服务:https://www.aliyun.com/product/odps 阿 里巴巴集团董事局主席马云,在2016年10月云栖大会上首次提到“五新”的趋势,分别是新零售、新金融、新制造、新技术和新能源。
机器在俯视人类,是我们的希望还是恐惧?
免费开通大数据服务:https://www.aliyun.com/product/odps 你看过“I,Robot”这部电影吗?如果你看过,是不是还记得这样一个场景:当警探史普纳进入庄严威武的USR公司时,公司大厅那个巨大的俯身凝视人类的机器人塑像?谈到 “I,Robot”观感时,有人使用了“不寒而栗”这个词,“感觉到发自脊背的寒意”。
开源大数据周刊-第78期
新功能预告:EMR Hadoop集群将增加Flink组件,版本1.4.0;EMR Kafka集群将增加Schema Registry和Rest Proxy组件
开源大数据周刊-第76期
本期周刊包括开源大数据核心组件Hadoop和Impala的最新消息,以及HBase、Kafka、TensorFlow等主流开源组件的实践分享和技术实现,还有来自京东推荐部门的推荐系统演进史,纯干货分享。
阿里云携大数据计算平台MaxCompute欧洲开服
参考消息网6月19日报道 英媒称,阿里巴巴旗下的云计算部门阿里云将于2017年下半年将其“MaxCompute”大数据服务带入欧洲。 据英国科技经济类网站硅谷网6月15日报道,当地时间6月15日,阿里云在巴黎VivaTech国际科技创新大会上宣布大数据计算产品“MaxCompute”将于年内在欧洲市场开服,该技术涵盖处理分析、机器学习等一系列完善的数据智能服务。
MaxCompute表设计最佳实践
MaxCompute表设计最佳实践 产生大量小文件的操作 MaxCompute表的小文件会影响存储和计算性能,因此我们先介绍下什么样的操作会产生大量小文件,从 而在做表设计的时候考虑避开此类操作。 使用MaxCompute Tunnel SDK上传数据,上传过程中,每commit一次就会产生一个文件。
【译】Apache Spark 2.4 内置数据源 Apache Avro
原文链接: Apache Avro as a Built-in Data Source in Apache Spark 2.4 Apache Avro 是一种流行的数据序列化格式。它广泛使用于 Apache Spark 和 Apache Hadoop 生态中,尤其适用于基于 Kafka 的数据流场景。
基于实时计算(flink)打造舆情分析平台——新华智云
基于实时计算打造舆情分析平台——新华智云 1.客户&产品简介: 新华智云是一家致力于通过大数据技术驱动媒体变革的公司,数芯是新华智云推出的实时舆情分析平台,旨在满足用户一系列舆情分析需求。
用脚本模式配置数据同步
本文主要用自定义的ECS来调度来解网络不可达的问题。通过使用脚本模式来解因为网络不可达导致的向导模式无法配置的问题。
这家数据公司为什么能成为数百万企业的选择?
今年年初,Oracle发布了一份大数据变化趋势报告,报告中指出,越来越多的企业将用户分析甚至是企业应用同大数据加以结合。从AI支持型应用到Megabox等数据流客户端,各家企业都将迎来自己的大数据转型及下一代数据驱动型应用。
专访 Elasticsearch 创始人 Shay Banon:让数据自己说话
11 月 13 日,在 2017 杭州云栖大会上,Elasticsearch 与阿里云宣布达成战略合作,共同研发及发布阿里云上提供托管的 Elasticsearch,为中国市场提供崭新的用户体验。Elasticsearch 挺进中国市场面临的机遇和挑战如何?阿里云 Elasticsearch 为中国用户提供了哪些新服务?为此,InfoQ 采访了 Elasticsearch 的创始人兼首席执行官 Shay Banon。
重磅!MaxCompute助力阿里开源自研语音识别模型DFSMN,准确率高达96.04%
阿里开源语音识别模型DFSMN 在近期举行的云栖大会武汉峰会上,装有DFSMN语音识别模型的“AI收银员”在与真人店员的PK中,在嘈杂环境下准确识别了用户的语音点单,在短短49秒内点了34杯咖啡。此外,装备这一语音识别技术的自动售票机也已在上海地铁“上岗”。
MaxCompute数仓维护心得-五叶草
在维护客户基于MaxCompute搭建的数据仓库时,我们遇到过一些问题,踩过一些坑,同时积累了一些经验,也初步形成了一套操作流程规范,在这里与大家以Tip的形式与大家分享一下。 Tip1.避免同步视图 同步的源数据要避免使用视图,在客户的生产环境上曾经出现过这样的情况:由于生成视图的存储过程优化不好,同步视图在同步任务发起请求后很久没有生成出来,导致同步任务及后续的ETL挂起达数小时之久,所以后续和数据提供方接洽,将数据源从视图换为表,保证在同步之前同步表里的内容已经更新。
图(关系网络)数据分析及阿里应用
2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,阿里巴巴资深技术专家钱正平为大家分享了大数据技术背景下图数据的应用前景,以及阿里巴巴在图数据的建模、查询和系统优化等方面做出的初步探索。
阿里云Elasticsearch 智能化运维实践
背景 Elasticsearch作为一个开箱即用的搜索引擎,其丰富的功能和极低的使用门槛吸引着越来越多的公司和用户选择它作为搜索和数据分析的工具。用户在运维Elasticsearch集群时往往会遇到很多难题,具体来说有下面列举的几点: 使用方式往往比较粗糙,默认的设置并不适合每一个集群和业务,非精细化的设计将会极大的增加集群隐患; 集群出现问题,无法及时定位原因、寻找解决方案,低效的沟通或者解决问题的方式可能会使得问题变得愈发严重; ES提供的监控指标繁杂,指标多,意义不明确,需要一定的专业知识才可以理解,缺乏全局视角; 此外,集群潜在的异常无法发现,更不能及时规避风险。
MaxCompute如何对SQL查询结果实现分页获取
由于MaxCompute SQL本身不提供类似数据库的select * from table limit x offset y的分页查询逻辑。但是有很多用户希望在一定场景下能够使用获取类似数据库分页的逻辑,对查询结果进行分页/分批获取结果,本文将介绍几种方法,来实现上述场景。
阿里重磅开源全球首个批流一体机器学习平台Alink,Blink功能已全部贡献至Flink
11月28日,Flink Forward Asia 2019 在北京国家会议中心召开,阿里在会上发布Flink 1.10版本功能前瞻,同时宣布基于Flink的机器学习算法平台Alink正式开源,这也是全球首个批流一体的算法平台,旨在降低算法开发门槛,帮助开发者掌握机器学习的生命全周期。
MaxCompute Hash Clustering介绍
Hash Clustering通过允许用户在建表时设置表的Shuffle和Sort属性,进而MaxCompute根据数据已有的存储特性,优化执行计划,提高效率,节省资源消耗。 对于Hash Clustering整体带来的性能收益,我们通过标准的TPC-H测试集进行衡量。
阿里云MaxCompute 2018-5月刊
5月,MaxCompute提供全表扫描的设置操作,可允许或禁止全表扫描;支持OSS上的Hive文件格式;支持OSS压缩格式GZIP。。。更多新功能新体验,欢迎阅读本文了解。
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。