奔跑的数据_个人页

奔跑的数据

文章

467

问答

视频

个人介绍

暂无个人介绍

擅长的技术

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

暂无更多信息

2025年12月

12.23 15:01:04

发表了文章 2025-12-23 15:01:04

一次架构调整，让人工介入减少了一半

本文探讨采集系统从“被动报错”到“自我修复”的演进之路。面对日益复杂的反爬机制，传统固定策略难以为继。通过识别失败原因并动态调整行为，如重试延迟、代理切换、请求降速等，系统可具备初步自愈能力。尤其在长期运行、高成本代理和频繁反爬场景下，这种“容错+应对”机制能显著降低人工干预，提升稳定性与效率，标志着采集系统走向成熟。
12.17 11:55:42

发表了文章 2025-12-17 11:55:42

网络开始替你做决定，这事真的有点不对劲

起初觉得网络只是发请求收响应，但随着系统复杂，大量代码其实在“安抚网络”。当任务变慢却无报错，问题往往藏在被忽略的网络状态中。DNS延迟、代理限速、目标站点拖慢，都被简单归为超时，导致系统盲目重试。我们开始让网络反馈细节：区分连接超时、读取超时、高延迟等。调度层据此决策：放弃无效请求、更换代理、调整策略。这并非过度设计，而是系统演进到一定规模后的必然选择——网络本就在影响决策，视而不见只会积债难返。
12.15 13:56:34

发表了文章 2025-12-15 13:56:34

任务队列明明在跑，为什么整体速度却越来越慢

任务堆积如山，Worker 却“假忙真等”？系统无报错、资源不紧张，实则暗藏网络等待陷阱。本文从真实爬虫场景出发，揭露代理IP下超时设置、错误混淆如何拖垮队列效率，并给出轻量改造方案：精准超时、分类异常、标记慢任务，让隐藏瓶颈无所遁形。
12.10 10:43:39

发表了文章 2025-12-10 10:43:39

当数据开始“感知页面”

一次爬虫事故揭示了JS页面采集的深层陷阱：页面加载完成≠数据就绪。因目标站渲染顺序变更，爬虫过早解析未填充的DOM，导致数据大量丢失。系统无报错却产出失效，监控失灵。团队通过比对真实浏览器行为，发现需等待关键元素加载，并重构了基于业务语义的检测与监控体系，实现从“机械搬运”到“智能感知”的转变。
12.03 11:48:53

发表了文章 2025-12-03 11:48:53

从10个协程到1000个协程：性能下降的背后究竟发生了什么？

本文探讨了异步程序中常见的误解“协程越多越快”，并通过一个实际的异步抓取学术论文元数据的例子来阐明这一点。文章首先解释了协程过多可能导致的效率低下的原因，包括事件循环的调度限制、网络瓶颈、代理并发限制以及Python协程切换的成本。接着，文章提供了一个使用代理、从DOAJ抓取开放论文元数据并存入SQLite数据库的完整异步代码示例，并强调了合理设置并发量的重要性。最后，文章总结了初学者在编写异步抓取程序时容易遇到的几个陷阱，并提供了相应的解决方案。
12.02 12:00:29

发表了文章 2025-12-02 12:00:29

强一致性时代，Kafka、Redis、Celery 谁才是那块短板

这篇文章讨论了一个金融级实时Tick数据项目的失败与修复。项目最初使用Celery、Kafka和Redis，但因缺乏重试、幂等和安全策略导致问题。文章提出了四个关键改进方向，修复后的系统满足了金融级要求，总结了五点教训。

2025年11月

11.26 13:08:11

发表了文章 2025-11-26 13:08:11

实验报告：让AI自动生成采集代码，会踩哪些坑？

本文复盘AI自动生成采集代码的实战效果，梳理出“模拟行为”与“接口调用”两大技术路线。AI在浏览器自动化中表现良好，适合简单场景；但面对加密接口与强反爬时仍需人工介入。最终结论：AI是高效助手，但核心难题仍需工程师掌控。
11.25 10:55:40

发表了文章 2025-11-25 10:55:40

不是简单搜索，而是理解：让获取的论文会“语义对话”

本文探讨如何用向量数据库实现学术文献的语义检索。传统搜索依赖关键词匹配，效果有限；而通过将论文内容向量化并存入FAISS等库，可实现“理解式”检索——如搜“ECG deep learning”，也能找到“心律失常CNN分类”相关内容。借助PubMed合法API获取数据，结合Sentence-BERT生成嵌入，构建可复现的智能检索原型，提升科研效率。
11.24 11:20:17

发表了文章 2025-11-24 11:20:17

网页快照这件事，比“更新”复杂得多

本文讨论了增量抓取的重要性和常见误区，强调了保存网页历史形态的必要性。作者分享了三个关键策略：时间窗口、事件驱动和结构化快照，以及如何通过代码实现这些策略。最后，作者反思了抓取的本质，认为它不仅是获取最新内容，而是记录网页内容的演变过程。
11.17 16:45:48

发表了文章 2025-11-17 16:45:48

我为什么彻底切到Playwright

本文分享从Puppeteer迁移到Playwright的实战经验，详解架构升级动因、模块重构与核心代码。Playwright凭借更强的隔离性、原生反检测支持、简洁代理配置及多浏览器兼容，彻底解决Puppeteer时代资源争抢、稳定性差等痛点，助力构建高可用、易维护的现代数据系统。
11.11 11:59:26

发表了文章 2025-11-11 11:59:26

任务的权限隔离与多租户（SaaS）平台设计要点

本文介绍了一个多租户平台的构建，旨在解决权限隔离和数据独立性问题。平台采用FastAPI、Celery+Redis、PostgreSQL多schema、Requests+代理IP和JWT+RBAC技术，实现了任务隔离、代理独立和数据分区。项目强调了多租户系统在任务独立、代理隔离、数据分区和权限控制方面的复杂性，并提出了进一步扩展
11.06 10:30:14

发表了文章 2025-11-06 10:30:14

百万级并发下的去重挑战：Bloom Filter 与 Redis 的组合方案

本文探讨了高并发数据采集中避免重复URL抓取的问题，提出了结合Bloom Filter、Redis HyperLogLog和持久化备份的解决方案，实现了快速查重、准确统计和数据恢复。
11.05 11:58:04

发表了文章 2025-11-05 11:58:04

静态规则解析与动态行为分析结合的混合抽取框架

本文深入探讨现代网页数据抓取的挑战与突破，揭示网页“行为语言”的三大隐藏层。通过结合静态解析与动态模拟的混合抽取框架，实现对复杂网页的精准抓取，展现从规则驱动到行为理解的技术演进，倡导以共生思维重构数据采集的本质。
11.04 11:23:06

发表了文章 2025-11-04 11:23:06

抓取任务队列精简化：延迟队列、优先级队列与回退策略设计

描述了作者在处理抓取任务队列时遇到的挑战，包括任务堆积、线程阻塞和超时重试问题。通过引入延迟队列、优先级队列和回退策略，作者成功优化了任务调度策略，提高了系统的稳定性和资源利用率。核心代码示例展示了如何使用Redis实现延迟和优先级队列，以及如何执行任务和处理失败重试。最终，系统变得更加智能和高效，实现了更好的调度和资源管理。

2025年10月

10.30 11:35:34

发表了文章 2025-10-30 11:35:34

图像与视频页面的数据提取

随着小红书、抖音等视觉平台崛起，传统采集难以应对图像视频内容。本文详解多模态采集架构：通过OCR识别图文、关键帧抽取视频信息，结合元数据融合，实现对视觉内容的精准理解与结构化提取，推动数据采集从“抓取”迈向“认知”。
10.13 10:25:44

发表了文章 2025-10-13 10:25:44

优化分布式采集的数据同步：一致性、去重与冲突解决的那些坑与招

本文讲述了作者在房地产数据采集项目中遇到的分布式数据同步问题，通过实施一致性、去重和冲突解决的“三板斧”策略，成功解决了数据重复和同步延迟问题，提高了系统稳定性。核心在于时间戳哈希保证一致性，URL归一化和布隆过滤器确保去重，分布式锁解决写入冲突。

2025年09月

09.28 11:27:00

发表了文章 2025-09-28 11:27:00

秒级行情推送系统实战：从触发、采集到入库的端到端架构

本文设计了一套秒级实时行情推送系统，涵盖触发、采集、缓冲、入库与推送五层架构，结合动态代理IP、Kafka/Redis缓冲及WebSocket推送，实现金融数据低延迟、高并发处理，适用于股票、数字货币等实时行情场景。
09.25 11:03:47

发表了文章 2025-09-25 11:03:47

单机扛不住，我把爬虫搬上了 Kubernetes：弹性伸缩与成本优化的实战

本文讲述了作者在大规模爬虫项目中遇到的挑战，包括任务堆积、高失败率和成本失控。通过将爬虫项目迁移到Kubernetes并使用HPA自动伸缩、代理池隔离和Redis队列，作者成功解决了这些问题，提高了性能，降低了成本，并实现了系统的弹性伸缩。最终，作者通过这次改造学到了性能、代理隔离和成本控制的重要性。
09.24 10:58:53

发表了文章 2025-09-24 10:58:53

LLM + 抓取：让学术文献检索更聪明

结合爬虫与大模型，打造懂语义的学术检索助手：自动抓取最新NLP+爬虫论文，经清洗、向量化与RAG增强，由LLM提炼贡献，告别关键词匹配，实现精准智能问答。
09.23 10:22:43

发表了文章 2025-09-23 10:22:43

用Playwright打造可靠的企业级采集方案--从单机验证到集群化落地

本项目将单机Playwright爬虫逐步演进为分布式集群，解决脚本不稳定、限速、维护难等问题。以招聘数据采集为例，实现从页面解析、代理IP轮换、Redis任务队列到多机并发的完整链路，结合MongoDB/Elasticsearch落库与可视化，形成可复用的生产级爬虫架构，适用于数据分析、岗位监控等场景。
09.22 10:27:39

发表了文章 2025-09-22 10:27:39

五个让抓取流程更可控的小技巧

本文从工程实践出发，探讨爬虫系统的可控性设计，围绕IP管理、请求节奏、用户模拟、异常重试与任务调度五大维度，对比固定代理与动态代理池等方案的优劣，结合代码示例给出不同场景下的实战建议，助力构建稳定、可维护的长期爬虫系统。
09.16 10:28:02

发表了文章 2025-09-16 10:28:02

从 Prompt 到 Parser：一次知乎采集的曲折经历

本文探讨了使用大模型和Playwright技术在知乎进行数据采集时遇到的挑战及其优化策略。初始方案因页面异步加载、DOM结构变化和限制策略而失败。为了提高数据采集的稳定性和可靠性，提出了增强渲染层、适配器层和回退监控机制的改进方案。通过这些改进，可以有效应对页面异步加载和DOM变化带来的问题，同时规避限制策略的影响，从而实现更高效、稳定的数据采集。
09.15 11:15:58

发表了文章 2025-09-15 11:15:58

学会“读网页”：生成式 AI 在足球赛事信息整理中的实战

本文介绍了一个足球比赛信息提取教程，利用生成式AI从ESPN、虎扑、腾讯体育等网站抓取比赛报道，抽取比分、关键事件和球员表现等信息。步骤包括采集、清洗、分块、调用LLM抽取、校验与落地，以及可视化。需要准备Python环境、安装依赖库，并遵循合规性。提供了示例代码，演示如何从网页抓取文本并调用LLM接口获得结构化输出。
09.11 11:09:58

发表了文章 2025-09-11 11:09:58

超越传统XPath：用LLM理解复杂网页信息

本文深入探讨网页信息抽取技术的演进，从传统 XPath/CSS 结构匹配，到结合 LLM（大语言模型）的语义理解方法。分析了旧技术在动态渲染、结构变化和语义识别方面的局限，并通过架构图、实验数据和示例代码展示 LLM 在新闻、电商、社交等复杂场景中的高效应用。同时强调爬虫代理等基础设施的重要性，为信息抓取提供稳定网络环境。