借助Beats快速搭建可视化运维系统
本例实现了一个对个人PC的可视化运维dashboard。拓展至N个节点的集群也同理可以实现。对于个人或者企业而言,约等于0成本的对接,将一步迈入可视化运维监控的阶段。
在 Cloudera Data Flow 上运行你的第一个 Flink 例子
本文主要是介绍如何在 CDH6.3 中安装 Flink 1.9 以及运行你的第一个 Flink 例子。
Spark on Kubernetes原生支持浅析
概述 Kubernetes自推出以来,以其完善的集群配额、均衡、故障恢复能力,成为开源容器管理平台中的佼佼者。从设计思路上,Spark以开放Cluster Manager为理念,Kubernetes则以多语言、容器调度为卖点,二者的结合是顺理成章的。
MaxCompute Studio 2.8.1 新版本发布啦!
MaxCompute Studio 2.8.1 新版本发布,重磅介绍可视化作业自助分析等功能!
MaxCompute读取分析OSS非结构化数据的实践经验总结
1. 本文背景 很多行业的信息系统中,例如金融行业的信息系统,相当多的数据交互工作是通过传统的文本文件进行交互的。此外,很多系统的业务日志和系统日志由于各种原因并没有进入ELK之类的日志分析系统,也是以文本文件的形式存在的。
双11奇迹背后的大数据平台,不喧哗,自有声!
大数据技术时代,企业争相数字化转型,任何成功项目的背后,离不开数据平台的支撑,更别说2135亿的大项目,这背后的数据平台要多健壮,多安全,多稳定?
MaxCompute - ODPS重装上阵 第六弹 - User Defined Type
MaxCompute中的UDT(User Defined Type)功能支持在SQL中直接引用第三方语言的类或者对象,获取其数据内容或者调用其方法 。
通过Gateway访问Presto
本文介绍使用HAProxy反向代理实现通过Gateway节点访问Presto服务的方法。该方法也很容扩展到其他组件,如Impala等。
大数据列式存储 Parquet 和 ORC 简介
随着大数据 Hadoop/Spark 开源生态的不断发展和成熟,TextFile、CSV这些文本格式存储效率低,查询速度慢,往往不能很好地满足大数据系统中存储和查询的需求,列式存储也在大数据社区逐渐兴起到成熟。
Flink State 有可能代替数据库吗?
State 的引入使得实时应用可以不依赖外部数据库来存储元数据及中间数据,部分情况下甚至可以直接用 State 存储结果数据,这让业界不禁思考: State 和 Database 是何种关系?有没有可能用 State 来代替数据库呢?
CTR中的GBDT与LR算法融合
在广告点击机器学习实践中, 我们用的最多的是逻辑回归(LR)模型,使用大量的特征做为训练数据输入。 特征的组合非常关键,我们无法穷举这些组合,只能依赖于人工经验来判断,耗时耗力同时带来的效果可能还不好。 如何自动的发现有效的特征,是机器学习实践中要解决的问题。 Facebook 曾经介绍了使用GBDT与LR组合的方法,可以有效的解决这个问题,今天的课程就为大家讲解如何在PAI上实现GBDT与LR的融合。<br />数据源:<br />数据大小:770 KB<br />字段数量:20<br />使用组件:拆分,读数据表,特征编码<br />
速度收藏!看完这份知识图谱,才算搞懂 Flink!
社区整理了这样一份知识图谱,由 Apache Flink Committer 执笔,四位 PMC 成员审核,将 Flink 9 大技术版块详细拆分,突出重点内容并搭配全面的学习素材。看完这份图谱,才算真的搞懂 Flink!
MaxCompute,基于Serverless的高可靠大数据服务
2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,阿里巴巴高级技术专家吴永明为大家分享了MaxCompute,基于Serverless的高可用大数据服务,以及MaxCompute低计算成本背后的秘密。
MaxCompute_SDK_开发指南
方便和辅助 MaxCompute 开发人员使用 Java / Python SDK 方式进行日常代码的开发工作。
Flink入坑指南第五章 - 语法糖 view
Flink入坑指南系列文章,从实际例子入手,一步步引导用户零基础入门实时计算/Flink,并成长为使用Flink的高阶用户。本文属个人原创,仅做技术交流之用,笔者才疏学浅,如有错误,欢迎指正。 什么是view(视图):视图无非就是存储在数据库中并具有名字的 SQL 语句,或者说是以预定义的 SQL 查询的形式存在的数据表的成分。
京信通信:数据智能为生产调试“增效瘦身”
“数据驱动测试优化,突破自动测试边界,赋能智慧测试新模式。”——京信智能制造副总经理葛鑫 “进入车间,映入眼帘的是一条长约20 米的 O 型生产线,产线前三名工人和几个机器人正协同工作,将各种元器件的印刷线路板(PCBA 板)与产品壳体组装起来。
开源大数据周刊-第79期
资讯 警惕大数据成了互联网的“PX项目” 新年伊始 BAT 三家关于数据安全的新闻就成功的吸引了公众的目光,也引发了公众对于大公司收集并使用用户数据的担忧。这篇文章比较客观的分析了公众的忧虑,以及互联网公司如何使用这些数据,可以说是一个很好数据安全的科普。
开源大数据周刊-第45期
阿里云E-MapReduce实践 云HBase助力物联网建设 物联网最大的特点写入量大,要求延迟低,且数据存量巨大。云HBase非常满足物联网存储需求,存储数P甚至百P的空间存储需求,延迟稳定在数毫秒之内,跟Hadoop分析体系有较为深入的结合,满足分析类的需求。
小红书如何实现高效推荐?解密背后的大数据计算平台架构
小红书作为生活分享类社区,目前有8500万用户,年同比增长为300%,大约每天有30亿条笔记在发现首页进行展示。推荐是小红书非常核心且重要的场景之一,本文主要分享在推荐业务场景中小红书的实时计算应用。
7月24日晚Spark社区直播:【Apache Spark 基于 Apache Arrow 的列式存储优化】
Apache Arrow 是一个基于内存的列式存储标准,旨在解决数据交换和传输过程中,序列化和反序列化带来的开销。目前,Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开,本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。
Apache Flink 的迁移之路,2 年处理效果提升 5 倍
在 2017 年上半年以前,TalkingData 的 App Analytics 和 Game Analytics 两个产品,流式框架使用的是自研的 td-etl-framework。该框架降低了开发流式任务的复杂度,对于不同的任务只需要实现一个 changer 链即可,并且支持水平扩展,性能尚可,曾经可以满足业务需求。
开源大数据周刊-第107期
1月14日,英特尔人工智能大会(AIDC 2018)在北京国贸酒店举行。这是英特尔第三次在中国举行人工智能大会,也是第一次专门面向开发者和技术社区。大会上,英特尔发布了Neural Compute Stick 2(神经计算棒二代),英特尔还展示了如何以底层计算能力赋能百度、腾讯、阿里、微软等合作伙伴,共同推进AI与物联网发展。
阿里云双11访谈之数据智能
在阿里云双11访谈之数据智能专场中,阿里云交互设计师梓铭、阿里云人工智能资深产品运营席嘉和阿里云DataV资深产品运营苇如为大家简单分享了数据智能的应用,介绍了阿里云新近发布的产品ET城市大脑以及它所用到的技术支撑和在其他领域的应用,最后还介绍了双11的具体优惠活动。
如何制作可以在 MaxCompute 上使用的 crcmod
之前我们介绍过在 PyODPS DataFrame 中使用三方包。对于二进制包而言,MaxCompute 要求使用包名包含 cp27-cp27m 的 Wheel 包。但对于部分长时间未更新的包,例如 oss2 依赖的 crcmod,PyPI 并未提供 Wheel 包,因而需要自行打包。
MaxCompute_UDF_开发指南
本文将介绍Java / Python UDF 如何使用新建工程,添加代码,打包,上传资源包和注册方法,对初次接触的用户提供帮助。
通过WebUI查看Structured Streaming作业统计信息
前言 从EMR-3.18.1版本开始,EMR将提供Spark Streaming SQL预览版功能。本次作为新特性的一部分,EMR将扩展现有Spark WebUI,支持Structured Streaming Query的统计信息查看。
MaxCompute 最新特性介绍2019年8月版
距离上一次MaxCompute新功能的线上发布已经过去了大约一个季度的时间,而在这一段时间里,MaxCompute不断地在增加新的功能和特性,比如参数化视图、UDF支持动态参数、支持分区裁剪、生成建表DDL语句功能等功能都已经得到了广大开发者的广泛使用。
这样才能正确解锁MaxCompute客户端
飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。
赋能数据处理能力 阿里云MaxCompute助企业洞察市场
阿里云在上月中,就将MaxCompute大数据计算服务向香港市场开放上线,此前该服务已先后于中国大陆及新加坡推出。 阿里巴巴集团旗下电子商务平台最大特点及优势,在于其平台上的人工智能及大数据处理能力,可以洞察消费者的需要,并因不同人的偏好而提供个性化设定,大大提升消费者体验,并可为商家反馈重要的市场数据,从而精准去计划市场策略。
数加平台协助汇合营销快速行动,捕获转瞬即逝的商机。
“对于创业公司来讲,如果不能在业务端快速行动,机会转瞬即逝。”汇合营销CTO欧阳明如是说。“数加的按需计费避免了资源空闲,从年初的对比来看,数加在满足同等业务需求基础上能够减少一半的支出,有效地节约了成本开支,帮助创业型企业快速成长。
MaxCompute全表扫描新功能,给你“失误”的机会
MaxCompute提供了在不修改代码的前提下,在MapReduce或自定义函数(UDF) 代码中,通过某个固定的资源名读取不同资源(数据)的需求。
利用InformationSchema与阿里云交易和账单管理API实现MaxCompute费用对账分摊统计
利用MaxCompute InformationSchema和阿里云交易和账单管理API 实现MaxCompute费用对账分摊统计一、需求场景分析非常多的用户选择MaxCompute按量付费模式构建自己的数据平台,利用MaxCompute按量付费模型极大地减少不必要的费用支持,仅为实际运行的作业付费。
Flink SQL 系列 | 5 个 TableEnvironment 我该用哪个?
本文为 Flink SQL 系列文章的第二篇,前面对 Flink 1.9 Table 新架构及 Planner 的使用进行了详细说明,本文详细讲解 5 个 TableEnvironment 及其适用场景,并介绍 Flink 社区对 TableEnvironment 的未来规划。
开源大数据周刊-第82期
总理政府工作报告:加强大数据发展和新一代人工智能研发应用。即将发布的 JDK 10 有 109 项新特性,你喜欢哪些?微软宣布在机器翻译方面取得突破,中翻英可达人类水平。推特爆款:谷歌大脑工程师的深度强化学习劝退文。
MaxCompute Mars 完全指南
Mars 能利用并行和分布式技术,加速 Python 数据科学栈,包括 numpy、pandas 和 scikit-learn。同时,也能轻松与 TensorFlow、PyTorch 和 XGBoost 集成。
TalkingData的Spark On Kubernetes实践
本文整理自talkingdata云架构师徐蓓的分享,介绍了Spark On Kubernetes在TalkingData的实践。
超强攻略!看完拿 Apache Flink 极客挑战赛全场最佳「MVP」
垃圾图片分类与 Flink TPC-DS 性能优化两大赛题重要知识点及相关工具解析。
Apache Spark 系列技术直播 - Spark SQL进阶与实战
Spark SQL进阶与实战 Spark相关组件介绍 Spark及其依赖组件 Hive Metastore介绍 Spark Thrift Server介绍 表与ETL Spark表基本概念 Spark建表最佳实践 Spark ETL最佳实践 动态分区表示例分析 Spark SQL查询最佳实践 Sp.
首届!Apache Flink 极客挑战赛强势来袭,重磅奖项等你拿,快来组队报名啦
首届 Apache Flink 极客挑战赛发布,聚焦机器学习与计算性能两大热门赛题,提供 Apache Flink 强大的大数据计算平台与 Intel Analytics Zoo 深度学习计算平台,帮助参赛队伍实现机器学习的实践应用,完成计算性能的优化挑战。
一条SQL在 MaxCompute 分布式系统中的旅程
2019杭州云栖大会大数据技术专场,由阿里云资深技术专家侯震宇、阿里云高级技术专家陈颖达以及阿里云资深技术专家戴谢宁共同以“SQL在MaxCompute分布式系统中的旅程 ”为题进行了演讲。本文首先介绍了MaxCompute计算平台及其特点、超大规模企业级SQL引擎和其功能。然后讲解了如何构建企业级分布式智能调度执行框架。最后介绍了新一代列式存储引擎AliOrc及优化方式。
揭秘工业级大规模GNN图采样
互联网下的图数据纷繁复杂且规模庞大,如何将GNN应用于如此复杂的数据上呢?答案是图采样。结合阿里巴巴开源的GNN框架Graph-Learn(https://github.com/alibaba/graph-learn),本文重点介绍GNN训练过程中的各种图采样和负采样技术。
开源大数据周刊-第70期
资讯: 推动云基础设施创新,英特尔与阿里云的“软硬合唱” 对于一家云服务厂商来说,实现软件、服务与硬件基础设施的完美整合,是在激烈市场竞争中的关键点。
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。