如何构建云原生的开源大数据平台 | InMobi 基于阿里云开源大数据服务的最佳实践
随着开源技术与云原生的高度融合,阿里云开源大数据平台在功能性、易用性、安全性上积累了丰富的实践经验,已成功服务数千家企业,助力其聚焦自身核心业务优势,缩短开发周期、简化运维难度,拓展更多业务创新。10月29日,阿里云发布“如何构建云原生的开源大数据平台”解决方案,邀请到了来自阿里云、微淼、Inmobi的技术专家为大家现身说法,呈现上云实践。
湖仓一体在金融科技行业的实践
上海数禾信息科技大数据平台负责人 程俊杰:MaxCompute+DLF+EMR的湖仓一体架构实现了统一元数据管理 ,统一存储管理,统一权限管理 ,真正实现湖仓计算的自由流动,为企业业务高速发展助力。
RedShift到MaxCompute迁移实践指导
本文主要介绍Amazon Redshift如何迁移到MaxCompute,主要从语法对比和数据迁移两方面介绍,由于Amazon Redshift和MaxCompute存在语法差异,这篇文章讲解了一下语法差异
DataWorks迁移助手介绍及最佳实践 | 《一站式大数据开发治理DataWorks使用宝典》
迁移助手是DataWorks上开发成果快速复制的利器,通过迁移助手可以将DataWorks上的开发成果在不同的环境快速复制。迁移助手是DataWorks的一个全新模块,它的核心能力主要分为两部分,一是任务上云,二是DataWorks迁移。
DataWorks运维中心与移动版介绍 | 《一站式大数据开发治理DataWorks使用宝典》
DataWorks运维中心是对任务进行测试和监控的模块,用户在DataStudio中进行代码开发和调试,将调试的任务经过提交发布操作后,就可以让任务按照调度配置来定时运行。也就是这个时候,任务就从开发环境进入到了生产环境。 对于生产环境中任务的测试、运维、监控等都是在运维中心完成的。运维中心包括三部分:运维大屏、任务运维和智能监控;根据任务运维的触发方式不同,又可以分为:实时任务运维、周期任务运维和手动任务运维。
DataWorks数据集成-大数据上下云的核心枢纽 | 《一站式大数据开发治理DataWorks使用宝典》
数据集成是大数据平台上下云的核心枢纽,它的主要功能是把不同业务系统中的数据进行打通,实现数据自由离线或实时地流动,可以通过丰富的网络解决方案完成数据上下云。
数据的“敏捷制造”,DataWorks一站式数据开发治理范式演进 | 《一站式大数据开发治理DataWorks使用宝典》
企业大数据技术发展至今,历经了两次蜕变。第一次蜕变从最初的“小作坊”解决大数据问题,到后来企业用各类大数据技术搭建起属于自己的“大平台”,通过平台化的能力完成数据生产力的升级。第二次蜕变让大数据从“大平台”向“敏捷制造”的开发范式演进。基于DataWorks的一站式大数据开发治理的平台,就是这个蜕变最好的佐证。
Flink + Iceberg + 对象存储,构建数据湖方案
上海站 Flink Meetup 分享内容,如何基于Flink、对象存储、Iceberg 来构建数据湖生态。
Flink + Iceberg,腾讯百亿级实时数据入湖实战
上海站 Flink Meetup 分享内容,腾讯数据湖的百亿级数据场景落地的案例分享。
Flink 和 Iceberg 如何解决数据入湖面临的挑战
4.17 上海站 Meetup 胡争老师分享内容:数据入湖的挑战有哪些,以及如何用 Flink + Iceberg 解决此类问题。
Flink+Hologres助力伊的家电商平台建设新一代实时数仓
Hologres+Flink+DataWorks实时数仓新方案为伊的家业务带来了统一数据、统一服务、统一治理、统一存储的价值,真的做到了开箱即用,所见即所得!
汽车之家:基于 Flink + Iceberg 的湖仓一体架构实践
由汽车之家实时计算平台负责人邸星星在 4 月 17 日上海站 Meetup 分享的,基于 Flink + Iceberg 的湖仓一体架构实践。
基于 Elastic stack 构建 SOC 能力—Elastic Stack 实战手册
本文将介绍如何使用 ELK 在网络安全分析领域中的实际应用
收藏+下载!Flink 社区 2021 最新最全学习渠道汇总
为了让大家更方便地上手、更便捷地学习,小松鼠将社区已有的各方面学习资源都帮你总结好啦!
安装 Kibana(本地及 Docker)- Elastic Stack 实战手册
Kibana 是一个基于 Nodejs 构建出来的前端项目,它本身不包含数据存储功能,所以需要配合一个 Elasticsearch 节点/集群一起进行使用。本节将从系统环境的选择,必须的基础应用的安装等方面进行阐述。
Ingest pipelines—Elastic Stack 实战手册
本文着重介绍 Ingest Pipeline,以下比较了 Logstash 与 Ingest Pipeline的一些区别,便于在实际业务场景中选择
数据湖实操讲解【数据迁移】第二讲:数据无忧 - 利用 checksum 迁移 HDFS 数据到 OSS
数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播!扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_distcp/jindo_distcp_overview.md
Apache Flink Meetup 北京站,1.13 新版本发布 x 互娱场景实践分享的开发者盛筵!
Flink 1.13 版本新功能的深入解读+Flink 在互娱行业典型实践应用。
融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系
本文由 T3 出行大数据平台负责人杨华和资深大数据平台开发工程师王祥虎介绍 Flink、Kylin 和 Hudi 湖仓一体的大数据生态体系以及在 T3 的相关应用场景。
免费下载!Apache Flink 必知必会电子书, 轻松收获 Flink 生产环境开发技能
“实时计算”不再只是未来趋势,它已经融入到企业生产的各个环节之中。一线开发同学如何掌握大数据极致算力应用,企业如何全面提升数据服务能力?
官方指南!史上最全实时计算 Flink 版学习资料汇总(长期更新)
阿里云实时计算 Flink 版:企业级、高性能、Serverless 实时大数据服务。
Elasticsearch生态&技术峰会 | Elasticsearch在企查查的应用实践
开源最大的特征就是开放性,云生态则让开源技术更具开放性与创造性,Elastic 与阿里云的合作正是开源与云生态共生共荣的典范。值此合作三周年之际,我们邀请业界资深人士相聚云端,共话云上Elasticsearch生态与技术的未来。
DataWorks OpenAPI企业开发实战-运维监控大屏
本文将会介绍如何通过使用DataWorks OpenAPI、DataWorks开放元数据、DataWorks开放事件消息三大利器搭建企业自己的DataWorks运维大屏。其中DataWorks OpenAPI已经面向所有企业开放商业化,而DataWorks开放元数据、DataWorks开放事件消息还在邀测中。
Flink SQL 性能优化:multiple input 详解
在 Flink 1.12 中,针对目前 operator chaining 无法覆盖的场景,推出了 multiple input operator 与 source chaining 优化。该优化将消除 Flink 作业中大多数冗余 shuffle,进一步提高作业的执行效率。本文将以一个 SQL 作业为例介绍上述优化,并展示 Flink 1.12 在 TPC-DS 测试集上取得的成果。
深度集成 Flink: Apache Iceberg 0.11.0 最新功能解读
Apache Flink 和 Apache Iceberg 在共同打造流批一体的数据湖架构上开启了新的篇章。
腾讯基于 Flink SQL 的功能扩展与深度优化实践
本文由腾讯高级工程师杜立分享,主要介绍腾讯实时计算平台针对 Flink SQL 所做的优化。
如何使用 AutoPilot 对作业自动调优?
本文主要介绍如何使用 AutoPilot 对作业自动调优,解决 Flink 作业开发和运维的两大难题。
数仓实时化改造:Hudi on Flink 在顺丰的实践应用
本文主要介绍顺丰在数据仓库的数据实时化、数据库 CDC、Hudi on Flink 上的实践应用及产品化经验。文章主要分为以下几部分:1、顺丰业务介绍;2、Hudi on Flink;3、产品化支持;4、后续计划。
阿里云实时大数据解决方案,助力企业实时分析与决策
简介: 2020年双11,云原生实时数仓首次在阿里巴巴双11核心数据场景落地,实现商业全链路实时化,毫秒级海量数据处理能力。搜索推荐业务数据开发效率提升4倍,菜鸟物流包裹数据链路从小时级优化到3分钟,考拉分钟及小时业务1分钟内完成,大数据的实时分析与决策在瞬息万变的市场竞争中成为了标品!今天,我们将向大家分享阿里云实时大数据解决方案,助力企业实时决策。
数据上云,AI驱动,宝宝树如何服务千万年轻妈妈
本文讲述了宝宝树通过阿里云大数据平台构建了个性化的大数据架构,并在此基础上使用AI和深度学习技术实现了一些业务工具,进而支撑业务展开,实现业务价值。
Hologres助力飞猪双11实时数据大屏秒级响应
本文重点介绍Hologres如何落地阿里巴巴飞猪实时数仓场景,并助力飞猪双11实时数据大屏3秒起跳,全程0故障。
实时计算案例:杭州企鹅科技
公司依托领先的物联网技术,瞄准线下消费升级和差异化趋势,利用智慧物联技术连接并赋能线下商用设备实现商户的智能化管理,降低运维成本、提高收益;同时,为用户提供基于LBS定位的物联自助智能体验服务,满足用户体验的智能化,个性化需求。
好消息!Elasticsearch中也可以使用机器学习了
机器学习已经在现在的工业实践中得到了广泛的应用。作为强大搜索引擎的ElasticSearch也在6.3开始内置了对机器学习的支持。
数据湖有新解!Apache Hudi 与 Apache Flink 集成
纵观大数据领域成熟、活跃、有生命力的框架,无一不是设计优雅,能与其他框架相互融合,彼此借力,各专所长。
实时计算案例:阿里巴巴双11大屏
每年的双 11 于阿里而言都是一次数据大考,天猫双 11 大屏更是万众瞩目,全球大数据泄洪般涌 入,对数据处理系统提出了极高的要求:低延迟,GMV 首屏显数控制 5s 以内;高并发,实时日志处理峰值每秒 17 亿条(约合每秒 1.7 TB);高稳定,全球直播,不能间断。阿里云实时计算面临着各项性能极高要求的巨大挑 战,在这种场景下阿里云实时计算迎难而上,给出了完美的答卷。
王者荣耀背后的实时大数据平台用了什么黑科技?
实时方面主要是补足我们对游戏运营的体验,比如说在游戏里玩完一局或者做完一个任务后,立马就能得到相应的奖励,或者下一步的玩法指引。对用户来说,这种及时的刺激和干预,对于他们玩游戏的体验会更好。其实不单单是游戏,其他方面也是一样的,所以我们在做这套系统的时候,就是离线+实时结合着用,但主要还是往实时方面去靠拢,未来大数据的方向也是,尽量会往实时方向去走。
【行业应用】阿里云实时计算 Flink 版 IoT 行业解决方案
物联网拉近分散的资讯,统整物与物的数位信息,主要应用领域包括以下方面:运输和物流领域、健康医疗领域、智慧环境(家庭、办公、工厂)领域、个人和社会领域等,具有十分广阔的市场应用前景。物联网将智能感知、识别技术、网络通信与普适计算等技术融合起来,被认为是继计算机、互联网、智能手机之后世界信息产业发展的下一个风口。
精华回顾 | 云栖大会 Elasticsearch 专场,集结8位ES大咖,超5000人围观的技术专场
收藏本文,你将不错过Elasticsearch 场景化应用的任何精彩内容!
重新定义性能测试: Apache Flink 重磅开源流计算基准测试框架
每一种引擎有其优势的地方,如何选择适合自己业务的流计算引擎成了一个由来已久的话题。除了比较各个引擎提供的不同的功能矩阵之外,性能是一个无法绕开的评估因素。基准测试(benchmark)就是用来评估系统性能的一个重要和常见的过程。
数据湖构建服务搭配Delta Lake玩转CDC实时入湖
Change Data Capture(CDC)用来跟踪捕获数据源的数据变化,并将这些变化同步到目标存储(如数据湖或数据仓库),用于数据备份或后续分析,同步过程可以是分钟/小时/天等粒度,也可以是实时同步。CDC方案分为侵入式(intrusive manner)和非倾入性(non-intrusive manner)两种。
JindoFS缓存加速数据湖上的机器学习训练
JindoFS提供了一个计算侧的分布式缓存系统,可以有效利用计算集群上的本地存储资源(磁盘或者内存)缓存OSS上的热数据,从而减少对OSS上数据的反复拉取,消耗网络带宽。
玩转AI,你有机会吗?
随着大数据、云计算的普及,AI在各个领域的热度不断攀升,AI技术已经成为人们日常生活、工作中必不可少的要素。 于是,全民用AI带动着全民学AI的热潮的到来~
EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework
EMR团队探索并开发了SparkSQL Native Codegen框架,为SparkSQL换了引擎,新引擎带来最高4倍性能提升,为EMR再次获取世界第一立下汗马功劳。来自阿里云EMR团队的周克勇将详细介绍Native Codegen框架。
大数据算命系列之用机器学习评估你的相亲战斗力 | 《阿里云机器学习PAI-DSW入门指南》
害,想知道你的相亲战斗力是多少吗?动手体验数据科学,成为PAI-DSW探索者~你想要知道的都在这里!
PAI:一站式云原生AI平台
本文是《飞天大数据产品价值解读系列》之《一站式云原生AI平台》的视频分享精华总结,主要由阿里云机器学习PAI团队的产品经理高慧玲(花名:玲汐)向大家介绍了阿里巴巴整体的AI情况以及一站式云原生的AI平台PAI,并且做了简单的DEMO演示。
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。