MaxCompute Mars 完全指南
Mars 能利用并行和分布式技术,加速 Python 数据科学栈,包括 numpy、pandas 和 scikit-learn。同时,也能轻松与 TensorFlow、PyTorch 和 XGBoost 集成。
必看!Apache Flink 运维&实战系列直播,揭秘生产环境技术难点
随着 Flink 社区的快速发展,其技术也逐渐走向成熟。在 2019 年,国内已经有大量的本土互联网公司开始采用 Apache Flink 作为主流的实时计算解决方案。同时,在全球范围内,优步、网飞、微软和亚马逊等国际互联网公司也逐渐开始使用 Apache Flink。
玩转阿里云EMR三部曲-入门篇
优异的自动化创建集群让小伙伴专心于业务开发,不再纠结于hadoop、spark版本,按需集群按小时计费模式替小伙伴们极大节省了开支,可以50个节点执行1小时,也可以3个节点执行5小时,非常灵活。可以保留更多精力和成本用于业务开发和维护,而把集群运维/存储问题托管给阿里云。
开启数据智慧,阿里云大数据团队调研高新区
随着“云计算”、“互联网”、“物联网”的快速发展,大数据(Big Data)也吸引了越来越多的人关注,成为社会热点之一。大街小巷不论是技术人员、咨询人士以及各行各业的精英达人都在探讨着“大数据”,“大数据”显然已经成为新一代“网红”。
TalkingData的Spark On Kubernetes实践
本文整理自talkingdata云架构师徐蓓的分享,介绍了Spark On Kubernetes在TalkingData的实践。
天律的云端大数据分析挖掘之旅
随着数据爆炸式的增长,我们正被各种数据包围着。从海量的历史、实时数据中寻找规律,从而为决策者提供科学的依据,是大部分企业面临的问题。大数据分析给企业带来的不仅是数据的实时分析和可视化展现,更重要的是,通过对已有数据以及实时所产生数据的海量信息进行分析,它将引领企业进入预测性的商业时代。
中小企业如何借力工业互联网抵抗死亡潮?
对于不同的企业来说,跨步进入工业互联网的核心问题并不是“怎么做”,而是“能做什么”、以及“能不能做”。 尤其是在政策大力推动企业“上云上平台”的过程中,企业投入人力和成本,那么“上云了之后能做什么”就成为了很多中小企业主最大的疑问和顾虑。
【阿里内部应用】基于Blink构建搜索全链路debug系统快速定位搜索问题
一、背景介绍 以往在处理用户投诉或者开发过程中遇到的(特定商品在淘宝搜索中搜不到,排序靠后,价格不正确,打标不准,结果不准确等)问题或线上故障时,分析定位此类问题的过程非常繁琐: 根据用户或者搜索标识提交ODPS离线任务,捞取用户的搜索日志信息; 人工构造搜索串,重新请求引擎得到搜索复现数据; 解.
[转载] 是时候学习真正的 spark 技术了
spark sql 可以说是 spark 中的精华部分了,我感觉整体复杂度是 spark streaming 的 5 倍以上,现在 spark 官方主推 structed streaming, spark streaming 维护的也不积极了, 我们基于 spark 来构建大数据计算任务,重心也要...
首届!Apache Flink 极客挑战赛强势来袭,重磅奖项等你拿,快来组队报名啦
首届 Apache Flink 极客挑战赛发布,聚焦机器学习与计算性能两大热门赛题,提供 Apache Flink 强大的大数据计算平台与 Intel Analytics Zoo 深度学习计算平台,帮助参赛队伍实现机器学习的实践应用,完成计算性能的优化挑战。
一条SQL在 MaxCompute 分布式系统中的旅程
2019杭州云栖大会大数据技术专场,由阿里云资深技术专家侯震宇、阿里云高级技术专家陈颖达以及阿里云资深技术专家戴谢宁共同以“SQL在MaxCompute分布式系统中的旅程 ”为题进行了演讲。本文首先介绍了MaxCompute计算平台及其特点、超大规模企业级SQL引擎和其功能。然后讲解了如何构建企业级分布式智能调度执行框架。最后介绍了新一代列式存储引擎AliOrc及优化方式。
揭秘工业级大规模GNN图采样
互联网下的图数据纷繁复杂且规模庞大,如何将GNN应用于如此复杂的数据上呢?答案是图采样。结合阿里巴巴开源的GNN框架Graph-Learn(https://github.com/alibaba/graph-learn),本文重点介绍GNN训练过程中的各种图采样和负采样技术。
MaxCompute_SQL_开发指南
背景及目的 本文结果都是在SQL标准语义模式下的推导结果,希望大家都能够按照标准的SQL语义来写SQL,这样才能保证后续SQL的可移植性。 SQL概述 MaxCompute SQL适用于海量数据(GB、TB、EB级别),离线批量计算的场合。
DataWorks2.0的“业务流程”与1.0的“工作流”的对比
DatwWorks终于升级2.0了,心情万分激动之余,又有一丝担忧。因为,没法再创建新的旧版工作流了。。。新版抛弃了“工作流”这个概念,引入了“业务流程”和“解决方案”两个新的概念。于是,作为团队Leader,我花了很大的精力去钻研这两个概念到底该如何应用在我的实际业务中。
小米流式平台架构演进与实践
小米业务线众多,从信息流,电商,广告到金融等覆盖了众多领域,小米流式平台为小米集团各业务提供一体化的流式数据解决方案,主要包括数据采集,数据集成和流式计算三个模块。目前每天数据量达到 1.2 万亿条,实时同步任务 1.5 万,实时计算的数据 1 万亿条。
Apache Flink 1.9.0 为什么将支持 Python API ?
众所周知,Apache Flink(以下简称 Flink)的 Runtime 是用 Java 编写的,而即将发布的 Apache Flink 1.9.0 版本则会开启新的 ML 接口和新的 flink-python 模块,Flink 为什么要增加对 Python 的支持,想必大家一定好奇。
回顾 | Apache Flink Meetup ·上海站(附PPT下载链接)
9 月 7 日,Apache Flink Meetup 上海站,上海的同学再次演绎了站无虚席的爆满场面。现场来自阿里巴巴、intel、趣头条的技术专家们分享了 Zeppelin 中玩转 Flink 与 Hive、趣头条的应用实践、Flink 性能优化、TensorFlow 与 Flink 的应用实践等众多干货内容,并有 Demo 演示环节。
heracles压测平台介绍
heracles压测平台介绍 Heracles音译为赫拉克勒斯或意译为大力神.希腊语:Ηρακλής,Hēraklēs,引申自Hēra“赫拉”和kleos“荣耀”,也即赫拉的荣耀 背景 搜索和推荐的应用越来越多的时候,我们常常面临着下面几个问题: 如何能随时的了解每个应用的最大容量,当前资源可支.
Flink 实战:如何解决生产环境中的技术难题?
Apache Flink 作为业界公认为最好的流计算引擎,不仅仅局限于做流处理,而是一套兼具流、批、机器学习等多种计算功能的大数据引擎,以其高吞吐低延时的优异实时计算能力、支持海量数据的亚秒级快速响应帮助企业和开发者实现数据算力升级,并成为阿里、腾讯、滴滴、美团、字节跳动、Netflix、Lyft 等国内外知名公司建设实时计算平台的首选。
Spark内置图像数据源初探
在Apache Spark 2.4中引入了一个新的内置数据源, 图像数据源.用户可以通过DataFrame API加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象,用户可以对图像数据进行简单的处理,然后使用MLlib进行特定的训练和分类计算.
搜索在线服务的存储计算分离
随着网络和存储硬件向着高吞吐低延迟的方向不断发展,存储计算分离成为了集团的一个重要技术方向,在节约成本、简化运维、提高混布能力有着重要的作用。本文将介绍搜索在线服务的存储计算分离架构设计与一些为了降低延迟、提高性能的努力。
DII4J -- DII平台支持JAVA插件开发
DII4J是DII for Java的简称,是DII平台提供的一种Java插件的运行机制,在Java插件中,用户可以获取与C++插件完全一致的能力。
从 Spark Streaming 到 Apache Flink:bilibili 实时平台的架构与实践
本文由 bilibili 大数据实时平台负责人郑志升分享,基于对 bilibili 实时计算的痛点分析,详细介绍了 bilibili Saber 实时计算平台架构与实践。本次分享主要围绕以下四个方面:实时计算的痛点、Saber 的平台演进、结合 AI 的案例实践、未来的发展与思考。
阿里云大数据MaxCompute基于UDTF解析JSON日志的案例
因为MaxCompute提供的系统函数有限,所以平台提供了强大的自定义函数(UDF)来进行复杂的数据处理,因为MaxCompute的沙箱机制,所以解析JSON日志串的时候需要使用GSON来进行解析,本例中原始数据可能是从其他DB通过数据集成同步到MaxCompute平台上的,所以MaxComput.
用Flink取代Spark Streaming!知乎实时数仓架构演进
- 实时数仓 1.0 版本,主题:ETL 逻辑实时化,技术方案:Spark Streaming。 - 实时数仓 2.0 版本,主题:数据分层,指标计算实时化,技术方案:Flink Streaming。 - 实时数仓未来展望:Streaming SQL 平台化,元信息管理系统化,结果验收自动化。
基于 Spark 和 TensorFlow 的机器学习实践
大数据以及计算能力的提升,使得AI技术有了突飞猛进的发展。在大数据和AI技术的热潮下,在2019杭州云栖大会机器学习技术专场,阿里云高级技术专家吴威和阿里云技术专家江宇向大家分享了EMR E-Learning平台和平台上新开发的核心特性TensorFlow on Spark。
[转载] Spark Structed Streaming执行过程
在Struct Streaming中增加了支持sql处理流数据,在sql包中单独处理,其中StreamExecution是下面提到两处流处理的基类,这个流查询在数据源有新数据到达时会生成一个QueryExecution来执行并将结果输出到指定的Sink(处理后数据存放地)中。
Breakthrough in Alibaba Cloud Computing Capabilities - BigBench Reaches 100 TB World Record
Alibaba Cloud's BigBench on MaxCompute expands that capacity to 100 TB for the first time in the world, which is also the first benchmark to be based on public cloud services.
趣头条基于 Flink+ClickHouse 构建实时数据分析平台
本文由趣头条数据平台负责人王金海分享,主要介绍趣头条 Flink-to-Hive 小时级场景和 Flink-to-ClickHouse 秒级场景。
maxcompute 2.0复杂数据类型之array
1. 含义 类似于Java中的array。有序、可重复。 2. 场景 什么样的数据,适合使用array类型来存储呢?这里列举了几个我在开发中实际用到的场景。 2.1 标签类的数据 为什么说标签类数据适合使用array类型呢?(1)标签一般是一个只有key、没有value的结构;(2)标签的数量(枚举值个数)会非常多;(3)标签的变化会比较频繁;(4)标签会过期;因此,比起“创建多个字段”、“使用指定分隔符分隔的字符串”、“使用map”等方法,使用array是更合适的。
性能提升约 7 倍!Apache Flink 与 Apache Hive 的集成
随着 Flink 在流式计算的应用场景逐渐成熟和流行,如果 Flink 能同时把批量计算的应用场景处理好,就能减少用户在使用 Flink 时开发和维护的成本,并且能够丰富 Flink 的生态。SQL 是批计算中比较常用的工具,所以 Flink 针对于批计算也以 SQL 为主要接口。
Hive数据如何同步到MaxCompute之实践讲解
本次分享主要介绍 Hive数据如何迁移到MaxCompute。MMA(MaxCompute Migration Assist)是一款MaxCompute数据迁移工具,本文将为大家介绍MMA工具的功能、技术架构和实现原理,再通过实际操作MMA,演示将Hive数据迁移到MaxCompute。
Flink 实时写入数据到 ElasticSearch 性能调优
线上业务反应使用 Flink 消费上游 kafka topic 里的轨迹数据出现 backpressure,数据积压严重。单次 bulk 的写入量为:3000/50mb/30s,并行度为 48。针对该问题,为了避免影响线上业务申请了一个与线上集群配置相同的 ES 集群。
开源大数据周刊-第43期
阿里云E-MapReduce动态 E-MapReduce发布新版本,可以在控制台管理meta表结构。 资讯 人脸识别,要靠哪些技术支撑,是否会泄露个人隐私? 本文介绍人脸识别用到哪些技术,讨论如何保护用户隐私 一图看懂AI阵营:学习AI 站错队可导致自取灭亡 本文介绍现在AI技术阵营,对AI各流派进行细分,梳理了17种方法,并用 图直观展现。
Optimizing Complex Data Distribution in MaxCompute
For a long time, data distribution has been an issue in the field of Big Data processing. Unfortunately, the Big Data processing systems that are popular today do not satisfactorily solve the issue.
【译】Spark NLP使用入门
原文链接: [https://www.kdnuggets.com/2019/06/spark-nlp-getting-started-with-worlds-most-widely-used-nlp-library-enterprise.html) 译者:辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。
【南京Meetup】Elastic 探秘之遗落的珍珠
2018 Elastic Meetup南京交流会,来自Elastic的工程师曾勇对Elastic进行了讲述,Elastic是世界领先的开源提供商,是一个世界领先的软件开发商。曾勇主要对Elasticsearch、kibana、logstash/Beats、X-Pack里的一些功能进行了介绍。
如何在 Apache Flink 1.10 中使用 Python UDF?
在刚刚发布的 ApacheFlink 1.10 中,PyFlink 添加了对 Python UDFs 的支持。这意味着您可以从现在开始用 Python 编写 UDF 并扩展系统的功能。此外,本版本还支持 Python UDF 环境和依赖管理,因此您可以在 UDF 中使用第三方库,从而利用 Python 生态丰富的第三方库资源。
Flink Weekly | 每周社区动态更新 - 20200114
本文为 Flink Weekly 的第四期,由 Forward Xu 整理,主要内容包括:Flink 1.10 版本的发布测试,SQL catalog 读取关系数据库 schema 的相关建议以及 Flink Forward 旧金山的演讲邀请。
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。