GitHub 开源爆款工具|MediaCrawler:程序员零门槛采集抖音/小红书/B站等社交评论,30K star 背后的场景实战揭秘!

简介: MediaCrawler 是一个支持多平台的社交媒体数据爬虫工具,覆盖小红书、抖音、B站等主流平台,提供关键词/ID爬取、评论采集、登录态缓存、代理池等功能,结合 Playwright 实现浏览器模拟,降低逆向难度,适合内容运营、数据分析等场景,开源免费,使用简便。

嗨,我是小华同学,专注解锁高效工作与前沿AI工具!每日精选开源技术、实战技巧,助你省时50%、领先他人一步。👉免费订阅,与10万+技术人共享升级秘籍! image.png

一个多平台通吃的社交媒体数据爬虫工具,轻松爬取小红书、抖音、快手、B站、微博、知乎等内容,支持视频、图片、评论、点赞等,真正低门槛、战力强大。

项目简介

MediaCrawler 是由 NanmiCoder 打造的中英文双平台全民爬虫项目,目前在 GitHub 拥有 约 27.7k ⭐,来自大量开发者、运营者的认可。 它支持 关键词/指定ID爬取、二级评论、登录态缓存、IP 代理池、评论词云生成 等核心功能,通过 Playwright 实现“模拟真实浏览器”,无需复杂逆向即可稳定采集。

痛点场景

  • 平台频繁部署防爬机制,JS 逆向成本高,动辄需解析 signature、X-Bogus、xsec_token 等;
  • 内容多平台分散且结构不一,爬取逻辑重复,维护成本高;
  • 批量采集需登录态和代理池配合,手动登录耗时,ip 经常被限;
  • 协同使用中缺少数据可视化,光存 raw JSON,不直观、不易沉淀团队资产。

MediaCrawler 针对上述痛点提供一套完整方案——通吃各大平台、零逆向、支持登录态、支持插件词云,真正上手简单、效果直观。

核心功能

  • 多平台支持:小红书、抖音、快手、B站、微博、知乎、贴吧等主流平台全覆盖;
  • 多种登录方式:支持二维码和 Cookie 登录,并缓存登录态,免频繁重复登录;
  • 关键词+ID双模式爬取:全面支持搜索关键词、指定视频/帖 ID 采集;
  • 深度评论采集:包含一级、二级评论,保证沟通链路完整;
  • 自动代理+滑块验证码处理:集成 IP 池和验证码智能跳过机制;
  • 评论词云生成:一键输出可视化词云图(需依赖额外脚本处理);
  • 数据输出多样化:支持 CSV/JSON/关系型数据库存储;
  • 断点续爬 & 多账号(Pro 版):支持更强规模化采集(付费 Pro 功能)。

技术架构

架构图

image.png

技术优势对比表

模块 MediaCrawler 开源版 MediaCrawler Pro(付费版)
登录方式 QR + Cookie,登录态缓存 多账号支持,断点续爬
签名获取 浏览器 JS 注入,无需逆向 完全剥离 JS 依赖,纯后端可用
爬虫稳定性 通用,多平台命令行使用 支持 Linux 守护、IP 池、验证码绕过
数据处理 支持 CSV/JSON/SQLite 或 MySQL 等 附加词云图功能,未来接入 AI 分析模块
维护性 Python + Playwright 简洁易读 适合企业级扩展与二次开发

界面效果与使用示例

以下是官方演示的一些截图,帮助你快速理解输出结构和使用流程:

  • 二维码登录:扫描后自动触发登录态保存;
  • 搜索+爬取流程:输入关键词后自动下载对应视频、评论;
  • 结果展示:结构化 json 输出,以及词云展示。

(原项目仓库图略)

使用场景举例

  • 内容运营:批量爬取竞品视频/评论词云,支持调研方向热点;
  • 数据分析:采集评论做情绪、关键词分析,支持商业决策;
  • 学术研究:获取垂类社交数据,帮助舆情研判;
  • 市场监测:实时抓取营销活动评论,评估传播效果;
  • 自动存档:收藏或备份视频、图文等内容资产。

与同类项目对比优势

项目名称 多平台支持 登录方式 评论深度 签名逆向 储存方式 可视化 是否开源
MediaCrawler ✅ 支持7+平台 ✅ QR、Cookie 缓存 ✅ 一级+二级评论 ✅ 浏览器 JS 注入,无逆向 ✅ CSV/JSON/DB ✅ 词云生成 ✅ 免费开源
knaiskes/mediaCrawler ✅ 多社交平台 ❌ Token 手动填 ❌ 评论展示可视化 ❌ 需自己配置 token ✅ 数据保存本地 ❌ 无词云 ✅ 开源
kirbystudy/MediaCrawler ✅ 视频图片无水印下载 ❌ 自填 Cookie ❌ 无评论支持 ✅ 简单 JS ✅ 本地
专有爬虫工具(商业) ✅ 通用 ✅ 企业登录集成 ✅ 评论深度采集 ✅ 完备签名逆向 ✅ 企业级数据仓库接入 ✅ BI 报表 ❌ 付费闭源

部署使用示范步骤

  1. 克隆项目并进入目录

git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawler

  1. 创建虚拟环境并安装依赖

python -m venv venv
source venv/bin/activate  # Windows 用 venv\Scripts\activate
pip install -r requirements.txt
playwright install

  1. 登录平台

python main.py --platform xhs --lt qrcode --type search

  1. 输入关键词,自动爬取内容并保存到 data/ 或数据库;
  2. 可选:生成评论词云,搭配上面给出的示例脚本。

总结

MediaCrawler 以其成熟稳定、功能全面、易用性强的特性,成为社交媒体采集工具中的佼佼者。不论你是运营灵感收集、自媒体从业者,还是数据分析师,都能在这个项目中找到极强价值。

项目地址

https://github.com/NanmiCoder/MediaCrawler

相关文章
|
7月前
|
人工智能 安全 文件存储
炸裂!Github 6000+ star 开源免费易用,支持1000+格式转换,值得收藏!
ConvertX 是一款开源免费的在线文件转换工具,支持超过 1000 种格式转换,涵盖视频、文档、图像、3D 模型等。基于 FFmpeg、Pandoc 等强大组件,提供高效、私密的转换服务。支持 Docker、NAS 自托管部署,界面简洁,操作便捷,适合多场景使用,已在 GitHub 收获 6000+ Star,值得收藏和使用。
1206 0
|
7月前
|
JSON Kubernetes 安全
找到啦,我们已上车,Github 27000+ star,研发团队必备开源工具项目,真丝滑!!!
Trivy 是一款高效灵活的开源安全扫描工具,支持容器镜像、文件系统、Kubernetes 等多目标扫描,具备快速、易用、集成性强等特点,适用于 DevSecOps 全流程安全检测。
300 0
|
6月前
|
Apache 数据安全/隐私保护 Docker
【开源问答系统】GitHub 14.9k star 的开源问答引擎来了,三分钟搭建完成~~~
Apache Answer 是一款开源问答系统,助力团队将零散知识沉淀为结构化资产。支持 Docker 快速部署、插件扩展、权限控制与多语言,兼具高效搜索、投票排序与私有化部署能力,适用于技术社区、企业知识库与用户支持场景。
856 22
|
7月前
|
缓存 自然语言处理 JavaScript
Github 3k+ star,中后台管理系统框架,支持多款 UI 组件库,兼容PC、移动端!比商业系统还专业!!
Fantastic-admin/basic 是基于 Vue3 与 TypeScript 的中后台管理系统框架,支持多款 UI 组件库,如 Element Plus、Arco Design、Naive-UI 等。它提供完整的项目结构、权限控制、国际化、多级缓存标签页等功能,兼容 PC、平板及移动端,适合快速搭建企业级后台应用。框架具备高度可定制性,拥有 3k+ GitHub Star,生态完善,适合中小团队和个人开发者提升效率。
439 2
|
7月前
|
数据采集 人工智能 数据可视化
GitHub 15.8k star 狂涨 DeerFlow,AI + 搜索 + 报告输出一次搞定!
DeerFlow 是字节跳动开源的深度研究框架,集成语言模型、搜索爬虫与代码执行工具,支持自动化完成复杂研究任务并生成多模态报告。具备多智能体协作、强搜索能力、Python 数据分析及可视化、报告自动生成等功能,适用于学术研究、内容创作与企业分析,部署灵活,社区活跃。
784 2
|
7月前
|
JavaScript 安全 API
Github 2.2k star,揭秘高效开发利器!之前我还手搓,现在有它,直接起飞
FastMCP 是一个由 punkpeye 开发的 TypeScript 框架,旨在简化 MCP 服务器构建流程,助力 LLM 无缝连接工具与数据资源。它提供工具(Tool)、资源(Resource)、Prompt、传输方式等模块,支持 Schema 校验、CLI 调试、HTTP Streaming/SSE 等特性,解决开发者在 MCP 协议实现中的复杂性问题。具备轻量高效、部署灵活、生态兼容等优势,适合桌面客户端与 Web 服务集成,助力开发者快速实现业务逻辑。项目持续活跃维护,GitHub 已获 2.2k star。
302 1
|
7月前
|
人工智能 编解码 JSON
不看后悔!GitHub 开源 MultiTalk .8k star 强大的人语音+图像绑定项目
MultiTalk 是 GitHub 上的开源项目,具备音频驱动、多人对话视频生成功能。支持多路音频与图像绑定,实现高同步唇动与角色互动,适用于教学、虚拟人及短视频创作,已获 8k 星标。
794 1
|
7月前
|
数据挖掘 调度 开发工具
Github 2.3k star 太牛x,京东(JoyAgent‑JDGenie)这个开源项目来得太及时啦,端到端多智能体神器!!!
JoyAgent-JDGenie是京东开源的端到端产品级多智能体系统,支持自然语言生成报告、PPT、网页等内容,准确率达75.15%。具备开箱即用、多智能体协同、高扩展性及跨任务记忆能力,支持多种文件格式输出,部署灵活,不依赖私有云平台。适合企业自动化报告生成、数据分析与行业定制化应用,是高效、实用的开源AI工具。
1305 0
|
7月前
|
安全 数据可视化 项目管理
精品,Github 5000+ star,小型研发团队必备商业开源项目
DooTask 是一款开源在线项目任务管理工具,具备文档协作、流程图、任务分发、IM沟通等功能,支持私有部署与数据加密,已在 GitHub 获得 5000+ 星标,适合中小团队提升协作效率。
473 0
|
7月前
|
机器学习/深度学习 人工智能 前端开发
完蛋,GitHub 70000+ star,我把你(AI)当朋友,你却要代替我,前端同学这下彻底蹦不住了,真的不留一点活路!!!
Screenshot-to-Code 是一款 AI 驱动的开源工具,能将截图、Figma 设计稿或录屏内容快速转化为前端代码。支持 HTML、React、Vue 等多种技术栈,适配 GPT-4 Vision、Claude Sonnet 等 AI 模型,具备视频转原型、本地部署、高精度识别等功能,助力设计快速迭代与开发提效。
208 0