小红书如何实现高效推荐?解密背后的大数据计算平台架构
小红书作为生活分享类社区,目前有8500万用户,年同比增长为300%,大约每天有30亿条笔记在发现首页进行展示。推荐是小红书非常核心且重要的场景之一,本文主要分享在推荐业务场景中小红书的实时计算应用。
通过Flink实时构建搜索引擎的索引
1.背景介绍 搜索引擎的出现大大降低了人们寻找信息的难度,已经深入到生活与工作的方方面面,简单列举几个应用如下: 互联网搜索,如谷歌,百度等; 垂直搜索,如淘宝、天猫的商品搜索; 站内搜索,各个内容网站提供的站内搜索服务; 企业内部搜索,员工查询企业内部信息; 广告投放,根据投放上下文检索出对应的广告主和广告内容; 搜索引擎的关键是让用户找到其所需信息,其整体架构如下: 从图示可知,一个搜索引擎从大的方面来看主要包括两部分,一部分是提供在线的搜索服务,一部分要把原始数据已离线的方式建立索引,建立索引是信息可搜索的前提。
搜索双链路实时计算体系@双11实战
该文章来自阿里巴巴技术协会(ATA)精选集 0. 前言 何为双链路实时计算体系?微观实时计算链路 a) 最细粒度商品/店铺/用户数据的实时 b) 底层模型的实时宏观实时计算链路 相比微观实时,宏观实时的对象粒度更粗,更上层 a) 以实时效果为目标,基于bandit learning的实
阐述:淘宝 API 商品列表数据采集实战经验
本文分享淘宝商品列表API(taobao.items.search)合规采集实战经验,涵盖接口要点、签名加密避坑、限流应对及数据清洗技巧,强调“技术守规、艺术筛数、算术控本”,助力高效低成本获取高质量商品数据。(239字)
从实践探讨不同智能体的应用场景
2026年5月15日14:00,CXOUNION联合艺赛旗举办线上活动,聚焦OpenClaw、Hermes、Agentic Automation三类主流AI智能体,邀请企业CIO与一线实践者,从个人提效与企业落地双视角,解析适用场景、选型逻辑与发展路径,助力智能体规模化、规范化应用。(239字)
五年数据开发复盘:从数仓建设到 AI 产品化的阶段性思考
五年数据开发复盘:从数仓建设到AI产品化。作者深耕BI、SaaS数仓、数据血缘与建模,提出“以数仓为根基、实体建模为核心、工程稳定性为底座”,强调业务理解重于工具使用。面对AI浪潮,主张聚焦提示词工程、RAG、实体识别等AI工程化落地,而非算法底层——数据开发正演进为连接业务、数据、工程与AI的复合型角色。
PAI-FeatureStore特征平台的相关问答
本栏目解答FeatureStore常见问题:实时视图时间戳支持BIGINT/TIMESTAMP;ODPS同步需字段完全匹配;Item特征表由关联视图确定;离线视图禁止写入;实时数据查询延迟通常仅数秒。(238字)
1688商品详情数据一键获取,item_get API接口讲解
本文分享1688商品详情API(offerDetail.get)实战经验:摒弃爬虫,依托官方接口实现合规、稳定、高效的数据采集。涵盖接入流程、关键参数、返回字段解析及避坑要点,助力企业快速落地电商供应链数据建设。(239字)
从踩坑到高效落地:淘宝商品详情API的实操心得
淘宝商品详情API提供全维度商品数据,含基础信息、详情页HTML、SKU、价格、销量等,支持比价、代购、数据分析及内容电商等场景,涵盖item.get、item.get_pro等核心接口,接入便捷高效。
数仓-湖仓-湖流,人力家基于阿里云OpenLake架构演进与思考
人力家资深数据工程师石玉阳(Thorne),Flink-CDC Contributor,分享其公司湖仓一体实践:以Paimon为数据基座、StarRocks为OLAP引擎、Flink+Fluss实现湖流融合,打通离线/实时/增量计算,支持多模态与DATA+AI演进,构建开放、统一、可持续的大数据架构。(239字)
向量维度、距离函数,如何影响召回结果
本文揭示向量检索效果不佳的根源常被误判:问题不在embedding模型本身,而在于被忽视的底层选择——向量维度与距离函数。二者共同定义了“相似性”的本质,而非仅调节精度。维度决定语义表达自由度与错误类型,距离函数(L2/Cosine/Dot)则确立“何为相近”的世界观。二者强耦合,直接塑造召回空间。调参前,先问:你更怕漏召,还是误召?
BeautifulSoup:Python网页解析的优雅利器
BeautifulSoup是Python最易用的HTML/XML解析库,以超强容错性与人性化API著称。它能将混乱网页转为结构化树,支持CSS选择器、多种解析器(推荐lxml),无需正则即可快速提取数据,是中小型爬虫、教学及原型开发首选工具。(239字)
为什么传统数据库不够用,向量数据库如何补位?
本文通俗解析向量数据库:它让AI能按“语义相似性”而非关键词检索文本、图像等非结构化数据,是RAG技术的“记忆中枢”。详解嵌入原理、ANN索引(如HNSW)、实战搭建步骤及效果评估方法,强调其与传统数据库协同而非替代的关系。(239字)
Matplotlib 入门指南:让数据"开口说话"的魔法库
本教程系统讲解Matplotlib数据可视化:从环境搭建、核心概念(Figure/Axes/Artist)到实战分析电影评分趋势;涵盖中文字体配置、常见陷阱规避及最佳实践,并指引Seaborn、Plotly等进阶方向,助你高效掌握Python可视化核心技能。(239字)
数据语义层 vs 宽表模式:哪种架构更适合 AI 时代的数据分析?
用户零等待指标交付,逻辑变更分钟级生效,无需 ETL;100%一致口径,所有人与 AI 通过同一语义层访问数据;无缝对接 AI,语义层为 AI 提供标准化查询 API。
隐私合规红线不能碰:大模型微调3大重灾区防护手册
本文聚焦大模型微调中训练数据、中间产物与部署链路三大隐私泄露重灾区,剖析90%开发者易踩的技术陷阱,从分层脱敏、差分隐私到权限管控,提供全链路可落地的防护方案,并结合性能与安全双重验证,助力企业实现合规与效能双赢。
大模型从“瞎聊”到“干活”:指令微调核心逻辑全拆解
本文深入浅出解析大模型指令微调核心技术,从“能聊”到“会干”的关键跃迁。通过“教小孩做事”类比,拆解指令微调原理,详解数据格式、质量与策略三要素,提供16G显卡可跑的四步实操流程,并结合效果评估与未来趋势,助力新手快速掌握让大模型精准执行任务的核心方法。
京东API:通过商品ID获取京东商品详情数据指南
京东商品详情API(JD.item_get)支持通过商品ID获取标题、价格、库存、品牌、分类、销量等核心信息,广泛用于电商分析、比价工具与监控系统。需传入app_key、item_id、timestamp等参数并生成签名,返回JSON格式数据,助力高效对接京东商品数据。
闲鱼商品列表API接口指南
本指南基于逆向分析,提供闲鱼商品列表数据获取的技术方案,适用于关键词、地区、价格等条件筛选。支持网页端GET与移动端POST请求,返回HTML或JSON格式数据,需注意登录态与参数编码,仅用于学习研究。
第六章 SpringMVC框架
Spring MVC核心组件包括DispatcherServlet、HandlerMapping、HandlerAdapter、Handler和ViewResolver,协同完成请求分发、处理与响应。其流程为:请求经DispatcherServlet分发,通过HandlerMapping定位处理器,由HandlerAdapter执行Handler,再经ViewResolver解析视图并渲染返回。此外,可通过拦截器实现登录校验等操作,结合@RestControllerAdvice和@ExceptionHandler统一处理异常,并使用@RequestMapping等注解简化开发。
Jmeter快速入门
本文介绍了Apache JMeter的下载、解压与运行方法,并指导用户进行中文语言设置及基本使用。通过添加线程组、HTTP取样器和监听器,快速完成性能测试配置,适合初学者入门学习。
ArrayList扩容机制
本文深入解析ArrayList的add及扩容机制。通过源码分析,揭示其首次添加元素时默认扩容至10,后续每次扩容为原容量1.5倍的核心逻辑,并详解grow()方法如何通过位运算高效实现动态扩容,同时澄清length、length()、size()等易混淆概念。
大模型基础概念术语解释
大语言模型(LLM)基于Transformer架构,通过海量文本训练,实现强大语言理解与生成。其核心为自注意力机制,结合Token化、位置编码与嵌入层,支持万亿级参数规模。参数增长带来涌现能力,如复杂推理与泛化性能。混合专家模型(MoE)提升效率,推动模型持续扩展。
1688店铺所有商品API使用指南
本文详解1688店铺商品API的使用,涵盖接口摘要、概述、Python请求示例及注意事项。通过该API可获取商品列表、详情等核心数据,适用于店铺管理、ERP系统与数据分析。结合代码演示,助开发者快速完成对接,实现高效数据采集与应用。(239字)
深度ai学术-从全网文献搜索到免费文献AI解析
深度AI学术(scholar.aisciresgo.com)打通科研全流程:全网智能搜索、免费获取文献、AI深度解析与精准翻译,一站式解决“搜不到、下不了、读不完”难题,助力研究者高效创新,开启智能科研新范式。
用错工具比没工具更可怕:Ansible vs Terraform 实战对比,用最接地气的方式讲清楚
用错工具比没工具更可怕:Ansible vs Terraform 实战对比,用最接地气的方式讲清楚
Delta Join:为超大规模流处理实现计算与历史数据解耦
Delta Join(FLIP-486)是Flink流式Join的范式革新,通过将历史数据存储与计算解耦,实现按需查询外部存储(如Fluss、Paimon),避免状态无限增长。它解决了传统Join在高基数场景下的状态爆炸问题,显著降低资源消耗:状态减少50TB,成本降10倍,Checkpoint从小时级缩短至秒级,恢复速度提升87%。兼容标准SQL,自动优化转换,适用于海量数据实时关联场景,推动流处理迈向高效、稳定、可扩展的新阶段。
阿里云携手 MiniMax 构建云原生数仓最佳实践:大模型时代的 Data + AI 数据处理平台
MiniMax 是全球领先的通用人工智能公司,致力于推动AGI发展。依托自研多模态大模型,服务超200国1.57亿用户及5万企业客户。携手阿里云构建云原生数仓与Data+AI平台,实现数据高效处理、成本大幅降低,支撑全球业务高速迭代与AI创新落地。
小红书笔记详情API秘籍!轻松获取笔记数据
小红书笔记详情API是开放平台核心接口,用于获取指定笔记的标题、正文、互动数据及多媒体资源,支持内容分析与营销优化。2025年6月起启用v4版,新增视频解析与实时数据推送。需note_id和access_token参数,返回JSON格式数据。
基于yolo8的深度学习室内火灾监测识别系统
本研究基于YOLO8算法构建室内火灾监测系统,利用计算机视觉技术实现火焰与烟雾的实时识别。相比传统传感器,该系统响应更快、精度更高,可有效提升火灾初期预警能力,保障生命财产安全,具有重要的应用价值与推广前景。
StarRocks+Paimon 落地阿里日志采集:万亿级实时数据秒级查询
A+流量分析平台是阿里集团统一的全域流量数据分析平台,致力于通过埋点、采集、计算构建流量数据闭环,助力业务提升流量转化。面对万亿级日志数据带来的写入与查询挑战,平台采用Flink+Paimon+StarRocks技术方案,实现高吞吐写入与秒级查询,优化存储成本与扩展性,提升日志分析效率。
电脑进入bios关闭网卡的技巧
华硕电脑开机显示字符无法进入系统,提示“PXE-MOF:Exiting PXE ROM”,表明电脑正尝试从网卡启动。解决方法为进入BIOS关闭网卡启动功能。开机时连续按F2进入BIOS,切换至“Security”选项卡,找到“I/O Interface Security”设置,选择“LAN Network Interface”并设为“LOCKED”以禁用网卡启动,最后按F10保存退出即可。
AI代理内存消耗过大?9种优化策略对比分析
在AI代理系统中,多代理协作虽能提升整体准确性,但真正决定性能的关键因素之一是**内存管理**。随着对话深度和长度的增加,内存消耗呈指数级增长,主要源于历史上下文、工具调用记录、数据库查询结果等组件的持续积累。本文深入探讨了从基础到高级的九种内存优化技术,涵盖顺序存储、滑动窗口、摘要型内存、基于检索的系统、内存增强变换器、分层优化、图形化记忆网络、压缩整合策略以及类操作系统内存管理。通过统一框架下的代码实现与性能评估,分析了每种技术的适用场景与局限性,为构建高效、可扩展的AI代理系统提供了系统性的优化路径和技术参考。
基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路
本文整理自淘天集团高级数据开发工程师朱奥在Flink Forward Asia 2024的分享,围绕实时数仓优化展开。内容涵盖项目背景、核心策略、解决方案、项目价值及未来计划五部分。通过引入Paimon和Hologres技术,解决当前流批存储不统一、实时数据可见性差等痛点,实现流批一体存储与高效近实时数据加工。项目显著提升了数据时效性和开发运维效率,降低了使用门槛与成本,并规划未来在集团内推广湖仓一体架构,探索更多技术创新场景。
本地化部署DeepSeek-R1蒸馏大模型:基于飞桨PaddleNLP 3.0的实战指南
本文基于飞桨框架3.0,详细介绍了在Docker环境下部署DeepSeek-R1-Distill-Llama-8B蒸馏模型的全流程。飞桨3.0通过动静统一自动并行、训推一体设计等特性,显著优化大模型的推理性能与资源利用效率。实战中,借助INT8量化和自动化工具,模型在8卡A100上仅需60GB显存即可运行,推理耗时约2.8-3.2秒,吞吐率达10-12 tokens/s。本文为国产大模型的高效本地部署提供了工程参考,适配多场景需求。
分布式爬虫框架Scrapy-Redis实战指南
本文介绍如何使用Scrapy-Redis构建分布式爬虫系统,采集携程平台上热门城市的酒店价格与评价信息。通过代理IP、Cookie和User-Agent设置规避反爬策略,实现高效数据抓取。结合价格动态趋势分析,助力酒店业优化市场策略、提升服务质量。技术架构涵盖Scrapy-Redis核心调度、代理中间件及数据解析存储,提供完整的技术路线图与代码示例。
强化学习:Gym的库的实践——小车上山(包含强化学习基础概念,环境配置国内镜像加速)——手把手教你入门强化学习(一)
本文开启“手把手教你入门强化学习”专栏,介绍强化学习基础概念及实践。强化学习通过智能体与环境交互,学习最优策略以最大化累积奖励,适用于复杂动态决策问题。文章讲解智能体、环境等核心概念,并使用Gym库进行案例实操,如CartPole和MountainCar环境的代码实现。最后预告下期将深入马尔科夫决策过程(MDP)。适合初学者系统了解强化学习并动手实践。创作不易,欢迎关注、点赞与收藏!
阿里妈妈基于 Flink+Paimon 的 Lakehouse 应用实践
本文总结了阿里妈妈数据技术专家陈亮在Flink Forward Asia 2024大会上的分享,围绕广告业务背景、架构设计及湖仓方案演进展开。内容涵盖广告生态运作、实时数仓挑战与优化,以及基于Paimon的湖仓方案优势。通过分层设计与技术优化,实现业务交付周期缩短30%以上,资源开销降低40%,并大幅提升系统稳定性和运营效率。文章还介绍了阿里云实时计算Flink版的免费试用活动,助力企业探索实时计算与湖仓一体化解决方案。
淘宝直播间弹幕 API 接口(淘宝 API 系列)
淘宝直播间弹幕API助力电商直播数据分析与优化。通过实时获取弹幕信息(昵称、内容、时间、类型),商家可精准把握消费者需求,优化直播内容;开发者可构建数据分析工具和智能客服系统。接口采用WebSocket协议,支持全双工通信,确保数据实时性。请求需包含直播间ID(room_id),并遵循平台使用规范。示例代码展示了Python调用方法,需安装`websocket-client`库并处理重连与异常。
推理降本与提升资源效率的实践
本课程从业务角度探讨大模型推理部署及资源利用率提升。首先分析大模型与GPU发展趋势,包括模型开源、规模增长及多模态能力增强;其次介绍高效部署大模型推理业务的步骤,涵盖业务场景选择、架构优化及显存规划;接着讲解如何通过DeepCPU-LLM框架和DeepNCCL通讯库优化推理效率;最后探讨通过KuberGPU实现细粒度GPU资源管理,提升整体资源利用率,降低推理成本。
AI时代的企业内训全景图:从案例到实战
作为一名扎根在HR培训领域多年的“老兵”,我越来越清晰地感受到,企业内训的本质其实是为企业持续“造血”。无论是基础岗的新人培训、技能岗的操作规范培训,还是面向技术中坚力量的高阶技术研讨,抑或是管理层的战略思维提升课,内训的价值都是在帮助企业内部提升能力水平,进而提高组织生产力,减少对外部资源的依赖。更为重要的是,在当前AI、大模型、Embodied Intelligence等新兴技术快速迭代的背景下,企业必须不断为人才升级赋能,才能在市场竞争中保持领先。
云栖实录 | 阿里云 OpenLake 解决方案重磅发布:多模态数据统一纳管、引擎平权联合计算、数据共享统一读写
阿里云 OpenLake 解决方案重磅发布,构建大数据、搜索、AI 一体化的能力体系,实现多模态数据统一纳管、多种计算引擎平权计算、大数据 AI 一体化开发,助力企业基于数据资产构筑竞争力。
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
只需四步,轻松开发三维模型Web应用
为了让用户更方便地应用三维模型,阿里云DataV提供了一套完整的三维模型Web模型开发方案,包括三维模型托管、应用开发、交互开发、应用分发等完整功能。只需69.3元/年,就能体验三维模型Web应用开发功能!
使用Selenium调试Edge浏览器的常见问题与解决方案
在互联网数据采集领域,Selenium常用于自动化网页爬取。针对使用Edge浏览器时遇到的启动远程调试失败、访问受限及代理IP设置等问题,本文提供了解决方案。通过特定命令启动Edge的远程调试模式,并利用Python脚本配合Selenium库,可实现代理IP、User-Agent的设定及Cookie管理等高级功能,有效提升爬虫稳定性和隐蔽性。遵循步骤配置后,即可顺畅执行自动化测试任务。
文本挖掘与可视化:生成个性化词云的Python实践【7个案例】
词云是文本数据可视化的工具,显示单词频率,直观、美观,适用于快速展示文本关键信息。 - 用途包括关键词展示、数据探索、报告演示、情感分析和教育。 - 使用`wordcloud`和`matplotlib`库生成词云,`wordcloud`负责生成,`matplotlib`负责显示。 - 示例代码展示了从简单词云到基于蒙版、颜色和关键词权重的复杂词云生成。 - 案例覆盖了中文分词(使用`jieba`库)、自定义颜色和关键词权重的词云。 - 代码示例包括读取文本、分词、设置词云参数、显示和保存图像。
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。