Crawl4LLM:你的模型还在吃垃圾数据?CMU博士开源AI爬虫,自动筛选高价值网页,数据抓取质量飙升300%

简介: Crawl4LLM 是清华大学和卡内基梅隆大学联合开发的智能爬虫系统,通过网页价值评估和优先级队列技术,显著提升大语言模型预训练数据采集效率。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🧠 「数据采集进入智能时代:首个为LLM定制的爬虫系统开源了!」

大家好,我是蚝油菜花。如果说传统爬虫是「蝗虫过境」,那Crawl4LLM就是「米其林摘星」——

这个由清华&CMU打造的智能系统,实现了三大突破:

  • ✅ 价值预判:用fastText模型给网页打分,优先抓取高营养内容
  • ✅ 动态策略:智能/随机/链接量三种模式适配不同训练阶段
  • ✅ 无缝衔接:直接对接DCLM框架,数据采集到训练一键完成

这个会「挑食」的智能爬虫,能像营养师一样筛选高价值内容,让模型训练效率提升5倍。已有团队用它构建出更「健壮」的行业大模型——准备好给你的AI模型来顿营养大餐了吗?

🚀 快速阅读

Crawl4LLM 是一个智能化爬虫系统,专为 LLM 数据预训练优化设计。

  1. 智能化爬取:基于网页价值评分,优先抓取高价值内容,减少无效数据采集。
  2. 多种模式支持:支持智能、随机和基于链接数量的爬取模式,适应不同场景需求。

Crawl4LLM 是什么

Crawl4LLM-cover

Crawl4LLM 是清华大学和卡内基梅隆大学联合开源的智能爬虫系统,旨在提升大语言模型(LLM)预训练数据采集的效率和质量。相比传统爬虫,Crawl4LLM 引入了智能化的网页价值评估机制,能够优先抓取对模型训练更有价值的数据,使数据采集效率提升了近 5 倍。

Crawl4LLM 不仅适用于 LLM 预训练数据的获取,还具备良好的扩展性,可以无缝对接 DCLM 框架,直接用于模型训练流程。此外,系统提供了数据可视化功能,方便用户实时监控爬取进度和效果。

Crawl4LLM 的主要功能

  • 智能化网页选择:基于预训练影响力评分器评估网页内容的价值,优先抓取高价值网页,减少无效数据的采集。
  • 多种爬取模式
    • 智能模式:根据网页价值评分动态调整爬取策略。
    • 随机模式:适用于非精准需求场景,随机抓取网页。
    • 基于链接数量模式:根据网页链接数量进行抓取,适合大规模数据采集。
  • 爬虫状态定期保存:支持中断后从中断点继续抓取,避免数据丢失。
  • 数据浏览与可视化:提供直观的数据浏览工具和可视化界面,便于监控爬取进度。
  • 与 DCLM 框架无缝对接:直接将爬取的数据应用于 LLM 预训练,提高数据流效率。

Crawl4LLM 的技术原理

  • 预训练影响力评分:使用 DCLM fastText 模型对网页内容进行评分,综合考虑内容质量、相关性等指标。
  • 优先级队列调度:基于评分结果动态调整爬取优先级,确保高价值网页优先被处理。
  • 多维度数据评估:结合网页内容长度、链接数量等多个维度进行综合评分,全面评估网页价值。
  • 模拟与优化:通过大规模模拟实验验证算法的有效性,并优化参数以实现最佳爬取效果。
  • 减少网站负担:智能筛选目标网页,降低对网站服务器的压力,提升爬取行为的合规性。

如何运行 Crawl4LLM

1. 准备环境

首先需要满足以下条件:

  • Python >= 3.10

  • 安装必要的依赖库:

    pip install numpy tqdm fasttext pyyaml wandb
    
  • 下载 ClueWeb22 数据集并将其放置在 SSD 上以确保高效读取。

  • 下载 DCLM fastText 分类器模型到 fasttext_scorers/ 目录下。

2. 创建配置文件

configs/ 目录下创建 YAML 格式的配置文件,示例如下:

cw22_root_path: <path_to_clueweb22_a>
seed_docs_file: seed.txt
output_dir: crawl_results/seed_10k_crawl_20m_dclm_fasttext
num_selected_docs_per_iter: 10000
num_workers: 16
save_state_every: -1
max_num_docs: 20000000
selection_method: dclm_fasttext_score
order: desc
wandb: true
wandb_project: crawler
wandb_run_name: seed_10k_crawl_20m_dclm_fasttext
rating_methods:
    - type: length
    - type: fasttext_score
      rater_name: dclm_fasttext_score
      model_path: fasttext_scorers/openhermes_reddit_eli5_vs_rw_v2_bigram_200k_train.bin

3. 启动爬虫

运行以下命令启动爬虫:

python crawl.py crawl --config <path_to_your_config_file>

4. 获取文档文本

完成爬取后,使用以下命令提取文档文本:

python fetch_docs.py --input_dir <document_ids_dir> --output_dir <document_texts_dir> --num_workers <num_workers>

5. 预训练与评估

最后,可以利用 DCLM 框架进行 LLM 预训练和性能评估。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
数据采集 自然语言处理 供应链
LLM安全新威胁:为什么几百个毒样本就能破坏整个模型
数据投毒通过在训练数据中植入恶意样本,将后门永久嵌入大模型,仅需数百份毒样本即可触发数据泄露、越狱等行为,防御需结合溯源、聚类分析与自动化检测。
742 2
LLM安全新威胁:为什么几百个毒样本就能破坏整个模型
|
8月前
|
数据采集 人工智能 JSON
Prompt 工程实战:如何让 AI 生成高质量的 aiohttp 异步爬虫代码
Prompt 工程实战:如何让 AI 生成高质量的 aiohttp 异步爬虫代码
|
8月前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
2261 2
|
8月前
|
Web App开发 人工智能 自然语言处理
利用Playwright MCP与LLM构建复杂的工作流与AI智能体
本文介绍如何通过Playwright MCP与大语言模型(LLM)结合,构建智能AI代理与自动化工作流。Playwright MCP基于Model Context Protocol,打通LLM与浏览器自动化的能力,实现自然语言驱动的网页操作。涵盖环境配置、核心组件、智能任务规划、自适应执行及电商采集、自动化测试等实战应用,助力高效构建鲁棒性强、可扩展的AI自动化系统。
|
8月前
|
机器学习/深度学习 缓存 监控
139_剪枝优化:稀疏模型压缩 - 分析结构化剪枝的独特速度提升与LLM部署加速实践
随着大语言模型(LLM)规模的不断增长,模型参数量已从最初的数亿扩展到数千亿甚至万亿级别。这种规模的模型在推理过程中面临着巨大的计算和内存挑战,即使在最先进的硬件上也难以高效部署。剪枝优化作为一种有效的模型压缩技术,通过移除冗余或不重要的参数,在保持模型性能的同时显著减少计算资源需求。
1253 139
|
8月前
|
机器学习/深度学习 缓存 PyTorch
131_推理加速:ONNX与TensorRT深度技术解析与LLM模型转换优化实践
在大语言模型(LLM)时代,高效的推理加速已成为部署高性能AI应用的关键挑战。随着模型规模的不断扩大(从BERT的数亿参数到GPT-4的数千亿参数),推理过程的计算成本和延迟问题日益突出。ONNX(开放神经网络交换格式)和TensorRT作为业界领先的推理优化框架,为LLM的高效部署提供了强大的技术支持。本文将深入探讨LLM推理加速的核心原理,详细讲解PyTorch模型转换为ONNX和TensorRT的完整流程,并结合2025年最新优化技术,提供可落地的代码实现与性能调优方案。
1902 4
|
8月前
|
机器学习/深度学习 PyTorch 算法框架/工具
118_LLM模型量化与压缩:从理论到2025年实践技术详解
大型语言模型(LLM)在自然语言处理领域取得了前所未有的成功,但模型规模的快速增长带来了巨大的计算和存储挑战。一个典型的大型语言模型(如GPT-4或LLaMA 3)可能包含数千亿甚至万亿参数,需要数百GB甚至TB级的存储空间,并且在推理时需要大量的计算资源。这种规模使得这些模型难以在边缘设备、移动设备甚至资源有限的云服务器上部署和使用。
1398 3
|
8月前
|
机器学习/深度学习 存储 缓存
115_LLM基础模型架构设计:从Transformer到稀疏注意力
大型语言模型(LLM)的架构设计是其性能的核心决定因素。从2017年Transformer架构的提出,到如今的稀疏注意力和混合专家模型,LLM架构经历了快速的演进。本文将全面探讨LLM基础架构的设计原理,深入分析Transformer的核心机制,详细介绍稀疏注意力、MoE等创新架构,并展望未来架构发展方向。通过数学推导和实践案例,为构建高效、强大的LLM提供全面指导。
1140 0
|
8月前
|
机器学习/深度学习 人工智能 算法
62_模型融合:ensemble LLM技巧
在2025年的AI生态中,大语言模型(LLM)已成为技术创新的核心引擎,但单一模型在面对复杂任务时往往表现出局限性。不同模型由于训练数据、架构设计和优化目标的差异,在各领域展现出独特优势:模型A可能擅长逻辑推理,模型B在创意写作上更出色,而模型C则在事实性问答中准确率更高。
470 0
|
8月前
|
缓存 人工智能 并行计算
59_实时性模型:选择低延迟LLM
在当今快速发展的人工智能领域,大型语言模型(LLM)的应用正迅速渗透到各个行业。随着企业对AI响应速度的要求不断提高,低延迟LLM的选择与优化已成为技术团队面临的关键挑战。实时聊天机器人、智能客服、自动驾驶辅助系统等场景对响应时间提出了极高的要求,毫秒级的延迟差异可能直接影响用户体验和业务效率。2025年,随着推理优化技术的突破性进展,低延迟LLM已不再是难以企及的目标,而是成为实际生产环境中的标准配置。
597 0

热门文章

最新文章