Crawl4LLM:你的模型还在吃垃圾数据?CMU博士开源AI爬虫,自动筛选高价值网页,数据抓取质量飙升300%

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: Crawl4LLM 是清华大学和卡内基梅隆大学联合开发的智能爬虫系统,通过网页价值评估和优先级队列技术,显著提升大语言模型预训练数据采集效率。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🧠 「数据采集进入智能时代:首个为LLM定制的爬虫系统开源了!」

大家好,我是蚝油菜花。如果说传统爬虫是「蝗虫过境」,那Crawl4LLM就是「米其林摘星」——

这个由清华&CMU打造的智能系统,实现了三大突破:

  • ✅ 价值预判:用fastText模型给网页打分,优先抓取高营养内容
  • ✅ 动态策略:智能/随机/链接量三种模式适配不同训练阶段
  • ✅ 无缝衔接:直接对接DCLM框架,数据采集到训练一键完成

这个会「挑食」的智能爬虫,能像营养师一样筛选高价值内容,让模型训练效率提升5倍。已有团队用它构建出更「健壮」的行业大模型——准备好给你的AI模型来顿营养大餐了吗?

🚀 快速阅读

Crawl4LLM 是一个智能化爬虫系统,专为 LLM 数据预训练优化设计。

  1. 智能化爬取:基于网页价值评分,优先抓取高价值内容,减少无效数据采集。
  2. 多种模式支持:支持智能、随机和基于链接数量的爬取模式,适应不同场景需求。

Crawl4LLM 是什么

Crawl4LLM-cover

Crawl4LLM 是清华大学和卡内基梅隆大学联合开源的智能爬虫系统,旨在提升大语言模型(LLM)预训练数据采集的效率和质量。相比传统爬虫,Crawl4LLM 引入了智能化的网页价值评估机制,能够优先抓取对模型训练更有价值的数据,使数据采集效率提升了近 5 倍。

Crawl4LLM 不仅适用于 LLM 预训练数据的获取,还具备良好的扩展性,可以无缝对接 DCLM 框架,直接用于模型训练流程。此外,系统提供了数据可视化功能,方便用户实时监控爬取进度和效果。

Crawl4LLM 的主要功能

  • 智能化网页选择:基于预训练影响力评分器评估网页内容的价值,优先抓取高价值网页,减少无效数据的采集。
  • 多种爬取模式
    • 智能模式:根据网页价值评分动态调整爬取策略。
    • 随机模式:适用于非精准需求场景,随机抓取网页。
    • 基于链接数量模式:根据网页链接数量进行抓取,适合大规模数据采集。
  • 爬虫状态定期保存:支持中断后从中断点继续抓取,避免数据丢失。
  • 数据浏览与可视化:提供直观的数据浏览工具和可视化界面,便于监控爬取进度。
  • 与 DCLM 框架无缝对接:直接将爬取的数据应用于 LLM 预训练,提高数据流效率。

Crawl4LLM 的技术原理

  • 预训练影响力评分:使用 DCLM fastText 模型对网页内容进行评分,综合考虑内容质量、相关性等指标。
  • 优先级队列调度:基于评分结果动态调整爬取优先级,确保高价值网页优先被处理。
  • 多维度数据评估:结合网页内容长度、链接数量等多个维度进行综合评分,全面评估网页价值。
  • 模拟与优化:通过大规模模拟实验验证算法的有效性,并优化参数以实现最佳爬取效果。
  • 减少网站负担:智能筛选目标网页,降低对网站服务器的压力,提升爬取行为的合规性。

如何运行 Crawl4LLM

1. 准备环境

首先需要满足以下条件:

  • Python >= 3.10

  • 安装必要的依赖库:

    pip install numpy tqdm fasttext pyyaml wandb
    
  • 下载 ClueWeb22 数据集并将其放置在 SSD 上以确保高效读取。

  • 下载 DCLM fastText 分类器模型到 fasttext_scorers/ 目录下。

2. 创建配置文件

configs/ 目录下创建 YAML 格式的配置文件,示例如下:

cw22_root_path: <path_to_clueweb22_a>
seed_docs_file: seed.txt
output_dir: crawl_results/seed_10k_crawl_20m_dclm_fasttext
num_selected_docs_per_iter: 10000
num_workers: 16
save_state_every: -1
max_num_docs: 20000000
selection_method: dclm_fasttext_score
order: desc
wandb: true
wandb_project: crawler
wandb_run_name: seed_10k_crawl_20m_dclm_fasttext
rating_methods:
    - type: length
    - type: fasttext_score
      rater_name: dclm_fasttext_score
      model_path: fasttext_scorers/openhermes_reddit_eli5_vs_rw_v2_bigram_200k_train.bin

3. 启动爬虫

运行以下命令启动爬虫:

python crawl.py crawl --config <path_to_your_config_file>

4. 获取文档文本

完成爬取后,使用以下命令提取文档文本:

python fetch_docs.py --input_dir <document_ids_dir> --output_dir <document_texts_dir> --num_workers <num_workers>

5. 预训练与评估

最后,可以利用 DCLM 框架进行 LLM 预训练和性能评估。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
3天前
|
机器学习/深度学习 人工智能 算法
高考理科题AI秒解!昆仑万维开源多模态推理模型 Skywork-R1V 2.0
Skywork-R1V 2.0是昆仑万维最新开源的多模态推理模型,通过混合强化学习和多模态奖励模型实现复杂推理任务,在理科题目解答和科研分析中展现出色性能。
63 11
高考理科题AI秒解!昆仑万维开源多模态推理模型 Skywork-R1V 2.0
|
3天前
|
数据采集 人工智能 监控
40.8K star!让AI帮你读懂整个互联网:Crawl4AI开源爬虫工具深度解析
Crawl4AI 是2025年GitHub上备受瞩目的开源网络爬虫工具,专为AI时代设计。它不仅能抓取网页内容,还能理解页面语义结构,生成适配大语言模型的训练数据格式。上线半年获4万+星标,应用于1200+AI项目。其功能亮点包括智能内容提取引擎、AI就绪数据管道和企业级特性,支持动态页面处理、多语言识别及分布式部署。技术架构基于Python 3.10与Scrapy框架,性能卓越,适用于AI训练数据采集、行业情报监控等场景。相比Scrapy、BeautifulSoup等传统工具,Crawl4AI在动态页面支持、PDF解析和语义分块方面更具优势
40.8K star!让AI帮你读懂整个互联网:Crawl4AI开源爬虫工具深度解析
|
2天前
|
人工智能 自然语言处理 监控
Cooragent:清华 LeapLab 开源 AI Agent 协作框架,一句话召唤AI军团!
Cooragent 是清华大学 LeapLab 团队推出的开源 AI Agent 协作框架,支持基于简单描述快速创建 Agent 并实现多 Agent 协作,具备 Prompt-Free 设计和本地部署能力。
63 6
Cooragent:清华 LeapLab 开源 AI Agent 协作框架,一句话召唤AI军团!
|
2天前
|
Web App开发 人工智能 自然语言处理
Open Avatar Chat:阿里开源实时数字人对话系统,让AI对话实现2.2秒低延迟交互
Open Avatar Chat是阿里开源的模块化数字人对话系统,支持文本/音频/视频多模态交互,采用可替换组件设计,平均响应延迟仅2.2秒,为开发者提供灵活高效的解决方案。
127 4
Open Avatar Chat:阿里开源实时数字人对话系统,让AI对话实现2.2秒低延迟交互
|
13天前
|
人工智能 开发框架 安全
Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
作为云上托管 MCP 服务的最佳运行时,函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力,用户只需提交 npx 命令即可“零改造”将开源 MCP Server 部署到云上,函数计算 FC 会准备好计算资源,并以弹性、可靠的方式运行 MCP 服务,按实际调用时长和次数计费,欢迎你在阿里云百炼和函数计算 FC 上体验 MCP 服务。
158 29
|
4天前
|
开发框架 人工智能 Java
破茧成蝶:传统J2EE应用无缝升级AI原生
本文探讨了技术挑战和解决方案,还提供了具体的实施步骤,旨在帮助企业顺利实现从传统应用到智能应用的过渡。
破茧成蝶:传统J2EE应用无缝升级AI原生
|
29天前
|
人工智能 数据可视化 API
36.7K star!拖拽构建AI流程,这个开源LLM应用框架绝了!
`Flowise` 是一款革命性的低代码LLM应用构建工具,开发者通过可视化拖拽界面,就能快速搭建基于大语言模型的智能工作流。该项目在GitHub上线不到1年就斩获**36.7K星标**,被开发者誉为"AI时代的乐高积木"。
140 8
|
19天前
|
存储 人工智能 监控
一键部署 Dify + MCP Server,高效开发 AI 智能体应用
本文将着重介绍如何通过 SAE 快速搭建 Dify AI 研发平台,依托 Serverless 架构提供全托管、免运维的解决方案,高效开发 AI 智能体应用。
2383 64
|
27天前
|
人工智能 API 计算机视觉
AI-ClothingTryOn:服装店老板连夜下架试衣间!基于Gemini开发的AI试衣应用,一键生成10种穿搭效果
AI-ClothingTryOn是基于Google Gemini技术的虚拟试衣应用,支持人物与服装照片智能合成,可生成多达10种试穿效果版本,并提供自定义提示词优化功能。
175 17
AI-ClothingTryOn:服装店老板连夜下架试衣间!基于Gemini开发的AI试衣应用,一键生成10种穿搭效果
|
10天前
|
人工智能 搜索推荐 Java
【重磅】JeecgBoot 里程碑 v3.8.0 发布,支持 AI 大模型、应用、AI 流程编排和知识库
JeecgBoot 最新推出了一整套 AI 大模型功能,包括 AI 模型管理、AI 应用、知识库、AI 流程编排和 AI 对话助手。这标志着其转型为 “AI 低代码平台”,旨在帮助开发者快速构建和部署个性化 AI 应用,降低开发门槛,提升效率。
55 12

热门文章

最新文章

下一篇
oss创建bucket