Flink 面试指南 | 终于要跟大家见面了,我有点紧张。(附思维导图)
面试,一个令人大多数同学头疼的问题,要么成功进入心仪公司,要么沮丧与其失之交臂。但是,如果能在面试前就能知道面试官将会问的问题,然后可以好好提前准备,这种感觉是不是特别棒?
EB级计算平台调度系统伏羲DAG 2.0:构建更动态更灵活的分布式计算生态
伏羲(Fuxi)是十年前创立飞天平台时的三大服务之一(分布式存储 Pangu,分布式计算 MaxCompute(内部代号ODPS),分布式调度 Fuxi),过去十年来,伏羲在技术能力上每年都有新的进展和突破,2013年5K,2015年Sortbenchmark世界冠军,2017年超大规模离在/在离线混部能力,2019年的 Yugong 发布并且论文被VLDB2019接受等。
EB级计算平台调度系统伏羲 DAG 2.0: 构建更动态更灵活的分布式计算生态
伏羲(Fuxi)是十年前创立飞天平台时的三大服务之一(分布式存储 Pangu,分布式计算 MaxCompute(内部代号ODPS),分布式调度 Fuxi),过去十年来,伏羲在技术能力上每年都有新的进展和突破,2013年5K,2015年Sortbenchmark世界冠军,2017年超大规模离在/在离线混部能力,2019年的 Yugong 发布并且论文被VLDB2019接受等。
【最佳实践】阿里云 Elasticsearch 索引数据生命周期管理
索引生命周期管理(ILM)是指:ES数据索引从设置,创建,打开,关闭,删除的全生命周期过程的管理;为了降低索引存储成本,提升集群性能和执行效率,我们可以通过对存储在阿里云 Elasticsearch 的数据做生命周期管理。
EMR Spark-SQL性能极致优化揭秘 概览篇
这次的优化里面,还有一个很好玩的优化,就是我们引入的 Native Runtime,如果说上述的优化器优化都是一些特殊 Case 的杀手锏,Native Runtime 就是一个广谱大杀器,根据我们后期统计,引入 Native Runtime,可以普适性的提高 SQL Query 15~20%的 E2E 耗时,这个在TPCDS Perf 里面也是一个很大的性能提升点。
Elasticsearch大咖说 | Elasticsearch 在手机垂直搜索业务的应用创新
Elasticsearch作为一个分布式、高扩展、实时的搜索与数据分析引擎,因其轻量级、稳定、可靠、快速等特性受到越来越多开发者的青睐,在搜索、日志分析、运维监控和安全分析等领域得到广泛应用。阿里云Elasticsearch技术团队,深度采访了来自阿里巴巴、vivo、携程、eBay等知名公司的技术专家,推出了Elasticsearch大咖说系列专题,为广大开发者提供技术入门与进阶的经验分享,以及最佳应用实践参考。
【最佳实践】阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎
“图片搜索”是作为导购类网站,比较常见的一种功能,其实现的方式也有多种。但如何做到快速、精准、简单等特性,本文给你答案。
菜鸟供应链实时数仓的架构演进及应用场景
菜鸟数据&规划部高级数据技术专家贾元乔从数据模型、数据计算、数据服务等几个方面介绍了菜鸟供应链数据团队在实时数据技术架构上的演进,以及在供应链场景中典型的实时应用场景和 Flink 的实现方案。
Demo:基于 Flink SQL 构建流式应用
本文所有的实战演练都将在 Flink SQL CLI 上执行,全程只涉及 SQL 纯文本,无需一行 Java/Scala 代码,无需安装 IDE。
MaxCompute - ODPS重装上阵 第八弹 - 动态类型函数
MaxCompute自定义函数的参数和返回值不够灵活,是数据开发过程中时常被提及的问题。Hive 提供给了 GenericUDF 的方式,通过调用一段用户代码,让用户来根据参数类型决定返回值类型。MaxCompute 出于性能、安全性等考虑,没有支持这种方式。
阿里巴巴大规模应用Flink的踩坑经验:如何大幅降低 HDFS 压力?
众所周知 Flink 是当前广泛使用的计算引擎,Flink 使用 checkpoint 机制进行容错处理[1],Flink 的 checkpoint 会将状态快照备份到分布式存储系统,供后续恢复使用。在 Alibaba 内部我们使用的存储主要是 HDFS,当同一个集群的 Job 到达一定数量后,会对 HDFS 造成非常大的压力,本文将介绍一种大幅度降低 HDFS 压力的方法 -- 小文件合并。
Spark Codegen浅析
Codegen是Spark Runtime优化性能的关键技术,核心在于动态生成java代码、即时compile和加载,把解释执行转化为编译执行。Spark Codegen分为Expression级别和WholeStage级别,分别针对表达式计算和全Stage计算做代码生成,都取得了数量级的性能提升。本文浅析Spark Codegen技术原理。
咱们从头到尾讲一次 Flink 网络流控和反压剖析
文章将从网络流控的概念与背景、TCP的流控机制、Flink TCP-based 反压机制(before V1.5)、Flink Credit-based 反压机制 (since V1.5)、总结与思考等几个方面进行分享。
JindoFS概述:云原生的大数据计算存储分离方案
JindoFS 是一套新的云原生的数据湖解决方案。在 JindoFS 之前,云上客户主要使用 HDFS 和 OSS/S3 作为大数据存储。HDFS 是 Hadoop 原生的存储系统,10 年来,HDFS 已经成为大数据生态的存储标准,但是我们也可以看到 HDFS 虽然不断优化,但是 JVM 的瓶颈也始终无法突破。
Apache Flink : Checkpoint 原理剖析与应用实践
本文将分享 Flink 中 Checkpoint 的应用实践,包括四个部分,分别是 Checkpoint 与 state 的关系、什么是 state、如何在 Flink 中使用 state 和 Checkpoint 的执行机制
Flink 1.9 实战:使用 SQL 读取 Kafka 并写入 MySQL
《Flink SQL 1.9.0 技术内幕和最佳实践》,许多小伙伴对演示环节的 Demo 代码非常感兴趣,迫不及待地想尝试下,所以写了这篇文章分享下这份代码。
如何正确使用 Flink Connector?
本文主要分享 Flink connector 相关内容,分为以下三个部分的内容:第一部分会首先介绍一下 Flink Connector 有哪些。第二部分会重点介绍在生产环境中经常使用的 kafka connector 的基本的原理以及使用方法。第三部分答疑,对社区反馈的问题进行答疑。
如何在 Flink 1.9 中使用 Hive?
Apache Flink 从 1.9.0 版本开始增加了与 Hive 集成的功能,用户可以通过 Flink 来访问 Hive 的元数据,以及读写 Hive 中的表。本文将主要从项目的设计架构、最新进展、使用说明等方面来介绍这一功能。
吴刚专访--大数据和 MaxCompute 技术和故事
2019大数据技术公开课第一季《技术人生专访》来袭,本季将带领开发者们探讨大数据技术,分享不同国家的工作体验。本文整理自阿里巴巴计算平台事业部高级技术专家吴刚的专访,将为大家介绍Apache ORC开源项目、主流的开源列存格式ORC和Parquet的区别以及MaxCompute选择ORC的原因。
浅谈 Spark 的多语言支持(修订版)
Spark 设计上的优秀无容置疑,甫一出道便抢了 Hadoop 的 C 位,在开源大数据的黄金十年里一时风头无两,在人工智能时代的当下仍然能够与时俱进,不可谓不牛逼。架构和设计上的卓越,不遑多言,美中不足之处自然也有不少,比如调度模型跟 MapReduce 这种计算范式过于耦合,Spark 最近引入 Barrier 调度模式就是为了支持深度学习这种新的计算类型,所幸在于对框架的改动不会伤经动骨。
【阿里内部应用】基于Blink构建搜索全链路debug系统快速定位搜索问题
一、背景介绍 以往在处理用户投诉或者开发过程中遇到的(特定商品在淘宝搜索中搜不到,排序靠后,价格不正确,打标不准,结果不准确等)问题或线上故障时,分析定位此类问题的过程非常繁琐: 根据用户或者搜索标识提交ODPS离线任务,捞取用户的搜索日志信息; 人工构造搜索串,重新请求引擎得到搜索复现数据; 解.
Structured Streaming VS Flink
Flink是标准的实时处理引擎,而且Spark的两个模块Spark Streaming和Structured Streaming都是基于微批处理的,不过现在Spark Streaming已经非常稳定基本都没有更新了,然后重点移到spark sql和structured Streaming了。
MaxCompute/DataWorks权限问题排查建议
MaxCompute/DataWorks权限问题排查建议 __前提:__MaxCompute与DataWorks为两个产品,在权限体系上既有交集又要一定的差别。在权限问题之前需了解两个产品独特的权限体系。
iGraph架构演进之三战
前言 iGraph是搜索事业部工程团队打造的实时在线图存储与查询的系统,提供大规模图数据的存储、查询、更新和计算服务,目前承载了集团多个部门5000+表的数据,双11期间proxy入口峰值流量1106w qps、实时数据峰值更新506w qps,是名副其实的在线数据航空母舰。
阿里云Elasticsearch的X-Pack:机器学习、安全保障和可视化
ELK是日志分析领域较为流行的技术选择,不少阿里云用户选择在ECS上搭建开源Elasticsearch。与自建开源Elastisearch相比,阿里云Elasticsearch做了性能优化,支持弹性扩容,并搭载了商业版组件X-Pack,为用户提供即开即用的托管服务。
阿里云MaxCompute携手华大基因打造精准医疗应用云平台,十万基因组计算成本降低至1000美金以内
摘要:华大基因股份公司总监金鑫介绍了华大基因,并浅谈了与阿里云的情缘,包括Maxcompute等方面应用案例。一起来看下吧。 关于华大基因 华大基因是中国最领先的基因科技公司,华大基因为消除人类病痛、经济危机、国家灾难、濒危动物保护、缩小贫富差距等方面提供分子遗传层面的技术支持。
【玩转数据系列十六】机器学习PAI通过声音分辨男女(含语音特征提取相关数据和代码)
机器学习PAI通过声音数据分辨男女(含语音特征提取相关数据和代码)
E-MapReduce HDFS文件快速CRC校验工具介绍
在大数据应用场景下经常有数据文件的迁移工作,如果保障迁移之后数据的完整性是一个很常见的问题。本文就给大家介绍一下在大数据场景下,如何用工具快速对比文件。
给AI拜年差点翻车后,我悟了:RAG和微调,到底谁更懂“人情世故”?
大家好,我是AI伙伴狸猫算君!本文以“AI写春节祝福”为切入点,深入剖析RAG与微调的技术差异:RAG依赖检索拼凑,难捕获独特人情;微调则通过高质量关系感知数据,将“称呼、细节、风格”内化为模型本能。手把手演示30分钟用LLaMA-Factory完成Qwen3微调,让祝福真正有温度、有梗、有你。
数仓-湖仓-湖流,人力家基于阿里云OpenLake架构演进与思考
人力家资深数据工程师石玉阳(Thorne),Flink-CDC Contributor,分享其公司湖仓一体实践:以Paimon为数据基座、StarRocks为OLAP引擎、Flink+Fluss实现湖流融合,打通离线/实时/增量计算,支持多模态与DATA+AI演进,构建开放、统一、可持续的大数据架构。(239字)
别再骂AI不懂人情世故了,是你没把它“喂”对
春节祝福别再复制粘贴!本文分享如何用30分钟微调Qwen3-32B模型,借助LLaMA-Factory Online平台,注入“关系颗粒度”六维数据(称呼、关系、交往细节等),让AI告别公文腔,学会因人制宜、带梗走心的拜年话——技术不炫技,只为一句刚刚好的祝福。(239字)
京东商品详情 API(jd.item_get)
京东商品详情API(jd.item_get)是京东开放平台提供的标准化REST接口,支持获取商品标题、价格、库存、规格、促销及售后等全量信息,适用于数据采集、价格监控、比价工具及代购系统等场景。
破解监管溯源难题:从表级血缘到算子级血缘的数据治理升级
算子级血缘则精确记录 SQL 内部的每一个操作步骤(如过滤、连接、聚合),如同清楚货物在流水线上的具体加工过程,对于需要精确口径追溯的监管场景至关重要。
指标平台选型必看:Aloudata CAN 虚拟业务事实网络破解复杂多表关联难题
为 NL2MQL2SQL、数据分析智能体(Agent)等 AI 应用提供了高质量、可理解、高性能的数据基础,是迈向智能决策的关键一步。
模型不是坏了,是世界变了——聊聊数据偏差(Data Drift)检测与自动化响应这件“迟早要还的债”
模型不是坏了,是世界变了——聊聊数据偏差(Data Drift)检测与自动化响应这件“迟早要还的债”
别只看 QPS:一级 NTP 时间服务器在工程现场到底靠什么兜底
本文以NTS-H-442002为例,剖析企业级Stratum 1时间服务器的关键设计:x86高并发架构保障稳定授时;GPS/北斗+蜂窝多源冗余提升可用性;高稳OCXO实现失锁后72小时<1ms守时精度;1PPS/10MHz/TOD物理接口满足硬同步需求;双电源、热备、加密与运维能力确保长期可靠。
智能体来了从 0 到 1:为什么一开始必须划清智能体的任务边界?
智能体开发切忌“全能幻想”!本文指出:任务边界(输入范围、工具权限、决策规则)是智能体从Demo走向落地的生命线——它不设限能力,而是将LLM的概率输出转化为可控、稳定、可评估的工程系统。边界清晰,方能降幻觉、控成本、提准确率。
代理地址≠协议!HTTPS使用误区拆解
跨境运营、爬虫从业者必看!99%人混淆的代理误区:代理地址带https≠HTTPS代理。关键看目标网站协议!目标为HTTPS时,即使代理是http,仍为HTTPS代理。掌握核心:目标URL决定代理类型,代理前缀仅影响传输加密。三步避坑指南,提升效率与隐私安全。
静态IP,你真的了解吗?
静态IP与代理IP广泛应用于自媒体精准推送、游戏多账号运营、远程安全访问、服务器稳定部署、跨地区网络测试、防火墙策略配置等场景,有效提升访问稳定性、安全性和用户体验,助力企业高效运作与个人网络需求。
Python | K折交叉验证的参数优化的弹性网络回归预测及可视化算法
本教程介绍基于Python的K折交叉验证与参数优化的弹性网络回归预测算法,涵盖贝叶斯、随机及网格搜索三种调参方法,结合SHAP分析、密度散点图与热力图等可视化技术,适用于多领域回归任务,代码及数据完整可复现。
构建AI智能体:八十五、数据预处理对训练效果的影响:质量过滤、敏感内容过滤与数据去重
数据预处理是大模型训练的核心环节,通过质量过滤、敏感内容过滤和数据去重三重机制,显著提升模型性能。它不仅提高训练效率2-3倍,更在准确性、安全性和泛化能力上带来30%以上提升,决定了AI系统的性能上限。
当流量失效之后,企业真正的增长变量是什么?
“系统信任增长范式”提出:当流量红利消退,增长逻辑正从“获取用户”转向“积累可复用的信任资产”。信任不再是话语表达,而是跨时间、跨场景的行为一致性与可验证修复能力。企业需被系统判定为“值得持续推荐”,方能获得长期增长动力。这是一场规则层面的迁移,而非策略优化。
服务保护、分布式事务
微服务保护旨在防止因单个服务故障引发的雪崩效应。通过熔断、降级、超时、线程隔离和限流等机制,保障系统稳定性。常用工具如Sentinel可实现动态熔断与降级,提升微服务架构的容错能力。
Vue高效学习指南:从入门到实战的科学路径
本文系统梳理Vue学习路径:从入门筑基、核心深化到项目实战与生态拓展,结合实践方法与避坑指南,帮助初学者打破碎片化学习困境,科学构建知识体系,高效成长为能独立开发的Vue开发者。
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。