网络爬虫相关库/工具/API大列表

简介:

详细罗列了用户Web抓取的工具、编程库和API列表,包括Python、PHP、Ruby、JavaScript等。

221465507c902ba73fb4b26562d7431e7337444f

Web Scraping

The list of tools, programming libraries and APIs used in web-scraping.

 ●  Python
 ●  PHP
 ●  Ruby
 ●  JavaScript
 ●  Golang
 ●  Feel free to add your favourite language. Use new_language_template.md as start point.
 ●  Proxy Services
 ●  Web Services
 ●  Console tools

 ●  Books

Other Awesome List Projects

 ●  lists - List of useful, silly and awesome lists curated on GitHub

 ●  HeadlessBrowsers - a list of (almost) all headless web browsers in existence

Contributing

Make this list better! Your contributions are always welcome! See contributing how-to

Credits

This list partially contains data from these sources:

 ●  awesome-python by vinta / CC BY 4.0
 ●  awesome-php by ziadoz
 ●  awesome-ruby by markets
 ●  ruby-nlp by diasks2

 ●  awesome-javascript by sorrycc

Github Page

https://github.com/lorien/awesome-web-scraping


原文发布时间为:2018-11-5
本文来自云栖社区合作伙伴“ 专知”,了解相关信息可以关注“ 专知”。
相关文章
|
20天前
|
API 数据库 决策智能
基于百炼平台qwen-max的api 打造一套 检索增强 图谱增强 智能工具调用决策的智能体
本文介绍了一种基于阿里云百炼平台的`qwen-max` API构建的智能体方案,该方案集成了检索增强、图谱增强及智能工具调用决策三大模块,旨在通过结合外部数据源、知识图谱和自动化决策提高智能回答的准确性和丰富度。通过具体代码示例展示了如何实现这些功能,最终形成一个能灵活应对多种查询需求的智能系统。
101 11
|
20天前
|
自然语言处理 NoSQL API
基于百炼平台qwen-max的api 打造一套 检索增强 图谱增强 基于指令的智能工具调用决策 智能体
基于百炼平台的 `qwen-max` API,设计了一套融合检索增强、图谱增强及指令驱动的智能工具调用决策系统。该系统通过解析用户指令,智能选择调用检索、图谱推理或模型生成等工具,以提高问题回答的准确性和丰富性。系统设计包括指令解析、工具调用决策、检索增强、图谱增强等模块,旨在通过多种技术手段综合提升智能体的能力。
107 5
|
1天前
|
存储 安全 物联网
浅析Kismet:无线网络监测与分析工具
Kismet是一款开源的无线网络监测和入侵检测系统(IDS),支持Wi-Fi、Bluetooth、ZigBee等协议,具备被动监听、实时数据分析、地理定位等功能。广泛应用于安全审计、网络优化和频谱管理。本文介绍其安装配置、基本操作及高级应用技巧,帮助用户掌握这一强大的无线网络安全工具。
21 9
浅析Kismet:无线网络监测与分析工具
|
1月前
|
安全 Windows
【Azure Cloud Service】在Windows系统中抓取网络包 ( 不需要另外安全抓包工具)
通常,在生产环境中,为了保证系统环境的安全和纯粹,是不建议安装其它软件或排查工具(如果可以安装,也是需要走审批流程)。 本文将介绍一种,不用安装Wireshark / tcpdump 等工具,使用Windows系统自带的 netsh trace 命令来获取网络包的步骤
71 32
|
23天前
|
搜索推荐 API 开发者
虾皮根据关键词取商品列表API接口的开发应用与收益
虾皮根据关键词取商品列表API接口的开发与应用为电商数据分析与应用提供了强大的支持。通过这一接口,开发者可以快速获取商品信息,实现精准营销、市场趋势分析、商品推荐等多种应用。同时,这一接口也为电商平台带来了提升用户体验、增加用户流量、提高运营效率等多重收益。随着电商行业的不断发展,虾皮的API接口将在未来发挥更加重要的作用,推动电商行业的数字化转型和智能化发展。
31 2
|
1月前
|
机器学习/深度学习
NeurIPS 2024:标签噪声下图神经网络有了首个综合基准库,还开源
NoisyGL是首个针对标签噪声下图神经网络(GLN)的综合基准库,由浙江大学和阿里巴巴集团的研究人员开发。该基准库旨在解决现有GLN研究中因数据集选择、划分及预处理技术差异导致的缺乏统一标准问题,提供了一个公平、用户友好的平台,支持多维分析,有助于深入理解GLN方法在处理标签噪声时的表现。通过17种代表性方法在8个常用数据集上的广泛实验,NoisyGL揭示了多个关键发现,推动了GLN领域的进步。尽管如此,NoisyGL目前主要适用于同质图,对异质图的支持有限。
41 7
|
28天前
|
数据采集 存储 监控
Java爬虫:数据采集的强大工具
在数据驱动的时代,Java爬虫技术凭借其强大的功能和灵活性,成为企业获取市场信息、用户行为及竞争情报的关键工具。本文详细介绍了Java爬虫的工作原理、应用场景、构建方法及其重要性,强调了在合法合规的前提下,如何有效利用Java爬虫技术为企业决策提供支持。
|
1月前
|
安全 网络安全 数据安全/隐私保护
访问控制列表(ACL)是网络安全管理的重要工具,用于定义和管理网络资源的访问权限。
访问控制列表(ACL)是网络安全管理的重要工具,用于定义和管理网络资源的访问权限。ACL 可应用于路由器、防火墙等设备,通过设定规则控制访问。其类型包括标准、扩展、基于时间和基于用户的ACL,广泛用于企业网络和互联网安全中,以增强安全性、实现精细管理和灵活调整。然而,ACL 也存在管理复杂和可能影响性能的局限性。未来,ACL 将趋向智能化和自动化,与其他安全技术结合,提供更全面的安全保障。
97 4
|
29天前
|
机器人 API
随机昵称网名[百万昵称库]免费API接口教程
该API接口用于随机生成网名,适用于机器人昵称、虚拟用户名等场景。支持POST和GET请求,需提供用户ID和KEY。返回状态码及信息提示,示例如下:{"code":200,"msg":"豌豆公主"}。详情见官方文档:https://www.apihz.cn/api/zicisjwm.html