暂无个人介绍
本文主要介绍一种通用的实时数仓构建的方法与实践。实时数仓以端到端低延迟、SQL 标准化、快速响应变化、数据统一为目标。
纵观大数据领域成熟、活跃、有生命力的框架,无一不是设计优雅,能与其他框架相互融合,彼此借力,各专所长。
Flink 和 ClickHouse 分别是实时计算和(近实时)OLAP 领域的翘楚,也是近些年非常火爆的开源框架,很多大厂都在将两者结合使用来构建各种用途的实时平台,效果很好。关于两者的优点就不再赘述,本文来简单介绍笔者团队在点击流实时数仓方面的一点实践经验。
Flink 1.11 引入了 CDC,在此基础上, JDBC Connector 也发生比较大的变化,本文由 Apache Flink Contributor,阿里巴巴高级开发工程师徐榜江(雪尽)分享,主要介绍 Flink 1.11 JDBC Connector 的最佳实践。
时隔4个月,大数据江湖又有哪些风起云涌的技术突破,互联网大厂又探索出怎样的无价经验,敬请期待由阿里云计算平台事业部与阿里云开发者社区联合主办的大数据+AI meetup 2020第二站·上海。
大家好,为帮助大家更好的找到适合的岗位,拿到心仪公司的offer,社区收集了多家实时计算及 Flink 企业用户的招聘需求,如:知乎、VIPKID、新氧、作业帮、得物、好未来、阿里巴巴等招聘信息,整理如下,供大家参考。
首期大数据“9营齐开”计划吸引了10000+开发者报名参与,成为今夏最火爆的大数据训练营!伴随着第一季训练营的完美落幕,大数据训练营“九营齐开”第二季已蓄势待发!
Wifi 探针作为整个系统的数据源,其布点是系统成功的关键,布点之间是否重叠,数据是否精确,能否避 免数据互相污染是鸥新软件当前面临的主要挑战。
面对多个数据上游、多个数据下游,数据处理过程复杂,既有清洗、结构化的工作,又有多维度统计工作的挑战,新华智云的数芯平台选择放弃开源 Spark 技术方案,而整体迁移到一站式、高性能实时大数据处理平台阿里云实时计算。
如何保障其仓配实时数据的丝滑顺畅, 建立带有“仓配特色”的实时数据 版图是菜鸟物流当前亟待解决的关键问题。
每年的双 11 于阿里而言都是一次数据大考,天猫双 11 大屏更是万众瞩目,全球大数据泄洪般涌 入,对数据处理系统提出了极高的要求:低延迟,GMV 首屏显数控制 5s 以内;高并发,实时日志处理峰值每秒 17 亿条(约合每秒 1.7 TB);高稳定,全球直播,不能间断。阿里云实时计算面临着各项性能极高要求的巨大挑 战,在这种场景下阿里云实时计算迎难而上,给出了完美的答卷。
不管初衷是什么,Flink 都非常欢迎大家一起建设和完善社区。在开始具体的贡献步骤之前,我们先简要介绍一下参与贡献的几种途径,以及 Clarify 关于开源贡献的一些固有印象。
想要搭建流式链路就必须得抛弃现有的 Hive 数仓吗?并不是,借助 Flink 可以实现已有的 Hive 离线数仓准实时化。本文整理自 Apache Flink Committer、阿里巴巴技术专家李劲松的分享,文章将分析当前离线数仓实时化的难点,详解 Flink 如何解决 Hive 流批一体准实时数仓的难题,实现更高效、合理的资源配置。
在 Flink 现有的架构设计中,多流 Join 拓扑下单个 Task 失败会导致所有 Task 重新部署,耗时可能会持续几分钟,导致作业的输出断流,这对于线上业务来说是不可接受的。针对这一痛点,字节提出单点恢复的方案。
针对平台现在存在的问题,我们提出了把报表的数据实时化的方案。该方案主要通过 Flink SQL CDC + Elasticsearch 实现。Flink SQL 支持 CDC 模式的数据同步,将 MySQL 中的全增量数据实时地采集、预计算、并同步到 Elasticsearch 中,Elasticsearch 作为我们的实时报表和即席分析引擎。
从实时计算的趋势,到流批一体的架构,通过对 PyFlink 和 Flink 的学习,稳定在线上运行了多种作业任务,对接了实际业务需求。并且搭建了 Zeppelin 平台,使得业务开发上更加方便。在计算上尽可能地依赖 SQL,方便各方面的集成与调试。
RocksDB 的配置也是极为复杂的,可调整的参数多达百个,没有放之四海而皆准的优化方案。如果仅考虑 Flink 状态存储这一方面,我们仍然可以总结出一些相对普适的优化思路。本文先介绍一些基础知识,再列举方法。
实时方面主要是补足我们对游戏运营的体验,比如说在游戏里玩完一局或者做完一个任务后,立马就能得到相应的奖励,或者下一步的玩法指引。对用户来说,这种及时的刺激和干预,对于他们玩游戏的体验会更好。其实不单单是游戏,其他方面也是一样的,所以我们在做这套系统的时候,就是离线+实时结合着用,但主要还是往实时方面去靠拢,未来大数据的方向也是,尽量会往实时方向去走。
物联网拉近分散的资讯,统整物与物的数位信息,主要应用领域包括以下方面:运输和物流领域、健康医疗领域、智慧环境(家庭、办公、工厂)领域、个人和社会领域等,具有十分广阔的市场应用前景。物联网将智能感知、识别技术、网络通信与普适计算等技术融合起来,被认为是继计算机、互联网、智能手机之后世界信息产业发展的下一个风口。
相比于传统的运维方式,大数据时代的运维面临着集群规模更大、业务组件更多、监控可视化与智能化等更为复杂的难题。
游戏作为新兴崛起的娱乐产业,当下发展得如火如荼,其吸金能力和趣味性也吸引更多企业与人才投入其中。游戏行业公司主要分为发行和制作两类,游戏的类型可细分为手游、页游和端游三种,随着移动端设备的更新发展以及 5G 时代的降临,手游将迎来绝佳的发展时机。
物流行业,特别是跨境进出口是非常复杂的业务,链路长、环节多、业务场景复杂。在物流履行时效不断加快的当下,物流服务一步步向次日达甚至当日达迈进,离线日报的日更频率早已无法满足业务需求。
互联网广告领域经过长期发展,分工逐渐精细化,除了各种代理商之外,还出现了 ADN、SSP、ADX、DSP 等各种平台,市场结构极为复杂,形成了一个巨大的生态。
电商行业的整体的竞争也从之前对大量互联网新用户的抢占变为对市场已有用户的争夺,流量红利逐渐见底,平台获客成本持续增高。原有的“大范围”、“广撒网”的运营方式已经不能满足业务需求,迫切需要向数字化、精细化、个性化运营的方向进行转型。
每一种引擎有其优势的地方,如何选择适合自己业务的流计算引擎成了一个由来已久的话题。除了比较各个引擎提供的不同的功能矩阵之外,性能是一个无法绕开的评估因素。基准测试(benchmark)就是用来评估系统性能的一个重要和常见的过程。
9月26日,来自阿里巴巴、英特尔、顺丰、腾讯的四位技术专家与你分享 Flink 最新企业应用实践,以及与时下热门的数据湖、数仓、社区生态的结合有哪些新进展。
当业务发展到一定规模,实时数据仓库是一个必要的基础服务。从数据驱动方面考虑,多维实时数据分析系统的重要性也不言而喻。但是当数据量巨大的情况下,拿腾讯看点来说,一天上报的数据量达到万亿级的规模,要实现极低延迟的实时计算和亚秒级的多维实时查询是有技术挑战的。
在线机器学习与离线相比,在模型更新的时效性,模型的迭代周期,业务实验效果等方面有更好的表现。所以将机器学习从离线迁移到在线已经成为提升业务指标的一个有效的手段。在线机器学习中,样本是关键的一环。本文将给大家详细的介绍微博是如何用 Flink 来实现在线样本生成的。
作为开源 Flink 极客训练营与实时计算 Flink 产品训练营的结合,此次训练营集两大训练营课程之大成,一如既往的全 Flink PMC & Committer 阵容,内容更加丰富,课程节奏紧密,还可选修感兴趣的内容,学习更自由。
在日益激烈的行业竞争态势下,各个主流内容资讯提供商都在探索 AI+大数据的解决方案,来进行精细化运营,助力业务发展新模式
iiMedia Research(艾媒咨询)数据显示,2020 年中国在线教育用户规模将达 3.09 亿人,市场规模将达到 4538 亿元。受政策利好、社会教育意识加强以及中小学学生升学压力等因素的积极影响,未来 K12 在线教育市场需求还将继续扩大。
基于实时计算 Flink 版的解决方案可帮助金融机构从容应对上述挑战,通过 Flink 构建实时数仓、实时反欺诈系统,助力金融机构快速构建实时风控体系。
阿里云实时计算 Flink 版解决方案白皮书-2021版正式发布~
旨在帮助用户快速了解新版本 Table & SQL 在 Connectivity 和 Simplicity 等方面的优化及实际开发使用的最佳实践。
2020年,加快应用数字技术,推动企业的数字化转型、科学高效发展几乎已成为业界共识。人工智能、大数据、云计算、移动互联网...每一场技术革新都曾被寄予厚望。在此背景下,企业与个人如何不被时代浪潮裹挟,寻找核心技术的未来价值?
用过 Zeppelin 的人应该比较熟悉 Zeppelin 的 UI,因为 Zeppelin 的主要使用场景都是交互式,用户需要手动来操作。那除了这种手动的方式,还有其他的方式吗?如果你不想用 Zeppelin UI,但又想用 Zeppelin 提交和管理大数据作业 (比如 Flink Job)的能力该怎么办?或者是你在 Zeppelin 里写好了代码,想定时调度起来,或者集成到其他系统里,该怎么办?
随着滴滴业务的高速发展,业务对于数据时效性的需求越来越高,而伴随着实时技术的不断发展和成熟,滴滴也对实时建设做了大量的尝试和实践。本文主要以顺风车这个业务为引子,从引擎侧、平台侧和业务侧各个不同方面,来阐述滴滴所做的工作,分享在建设过程中的经验。
Flink 1.11 最重要的 Feature —— Hive Streaming 之前已经和大家分享过了,今天就和大家来聊一聊另一个特别重要的功能 —— CDC。
Apache Flink 是一个开源的分布式大数据处理引擎, 可对有限数据流和无限数据流进行有状态计算。实时计算 Flink版是阿里云提供的基于 Apache Flink 构建的企业级、高性能实时大数据处理系统,由Apache Flink创始团队官方出品。
后疫情时代的新社会模式及经济形态必将催生出新的商业模式,在线业务及相关应用场景的流量呈现井喷式发展,常规的离线系统及离线机器学习平台已无法满足业务发展要求。
为了让大家更方便地上手、更便捷的学习,小松鼠将社区已有的各方面学习资源都帮你总结好啦!
本文先通过源码简单过一下分区提交机制的两个要素——即触发(trigger)和策略(policy)的实现,然后用合并小文件的实例说一下自定义分区提交策略的方法。
本文将主要介绍 FlinkX 读取和写入 Clickhouse 的过程及相关参数,核心内容将围绕以下3个问题:1. FlinkX读写Clickhouse支持哪个版本?、2. ClickHouse读写Clickhouse有哪些参数?、3. ClickHouse读写Clickhouse参数都有哪些说明?
由于本次大赛既要用到大数据技术,又要用到 AI 技术,这使得只有单一技术背景的同学在搭建本地调试环境时遇到了不少问题。所以我把自己配置本地环境的流程和需要注意的地方记录下来,以供各位参赛同学参考,希望大家能将自己的精力更多集中在算法开发和迭代上。
本文是全网首篇详细分析 CopyOnWriteStateTable 源码的博客,阅读复杂集合类源码的过程是相当有挑战的,笔者在刚开始阅读也遇到很多疑问,最后一一解决了。详细阅读完本文,无论是针对面试还是开阔视野一定会对大家有帮助的。
作为现代企业的重要工具,流处理和实时分析这类工具逐渐兴起,越来越多的企业以 Apache Flink 为核心构建平台,并将其作为服务在内部提供。
微博作为国内比较主流的社交媒体平台,目前拥有2.22亿日活用户和5.16亿月活用户。如何为用户实时推荐优质内容,背后离不开微博的大规模机器学习平台。
继6月首次 Flink 中文邮件列表的邮件数超过英文邮件列表,7月再创新纪录,中文邮件列表的邮件数超英文邮件列表50%。
在本篇文章中我们将对 RocksDB、Heap 和 Gemini 在相同场景下进行压测,并对其资源消耗进行对比。测试的 Flink 内核版本为 1.10.0。
与 2019 财年相比,Flink 邮件列表活跃度仍保持 TOP 1,Commits 数排名由第三名上升至第二名,Github 访问量也有显著增长,在 Apache 项目中排名第二。