使用Web Scraper 插件,不需要编程,也能爬网

简介:

使用Web Scraper 插件,不需要编程,也能爬网,使用Web Scraper插件,能够创建一个网站地图,并能遍历网站,抓取我们感兴趣的数据,比如,我们登陆淘宝,京东等商务网站,我们可以通过 Web Scraper,抓取某一类商品的规格说明,价格,厂家等信息,我们通过Web Scraper可以抓取我们进入头条上的最热门的文章,也可以抓取我们自己的所有文章列表,发布时间,阅读和浏览量等信息,当然也能抓取我们的粉丝列表。 最最最重要的是,你不需要写任何的代码,只需点击,点击,点击,最后还能把抓取的结果导出为Excel可以识别的CSV格式。这功能,爽!!!

其官方网站如下:http://webscraper.io/tutorials

使用Web Scraper 插件,不需要编程,也能爬网

Web Scraper Chrome 插件的安装

打开Chrome浏览器,输入下面的URL地址:

https://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn

使用Web Scraper 插件,不需要编程,也能爬网

点击“Added to Chrome”就安装了,安装后,在浏览器中按下F12或者点击右键,选择“检查(Inspect)”,在开发者工具下面就能看到WebScraper的Tab。

使用Web Scraper 插件,不需要编程,也能爬网

Web Scraper Chrome 插件的入门例子

下面以抓取京东上面的所有的手机信息为例子,使用Web Scraper演示一下其使用和操作方法。

Step1. 创建一个京东手机的SiteMap(网站站点图)

使用Web Scraper 插件,不需要编程,也能爬网

Step2. 在SiteMap上点击选择需要抓取的信息

如下图所示意,想抓取当前京东上,热门推荐的手机的网站和品牌信息,则抓取方法如下:命名一个id,这个id是自己定义的,然后选择抓取的类型,比如本例子中我们选择,“Link”

  • Link

  • PopupLink

  • Table

  • Element Attribute

  • Image

  • Groupped

  • HTML

  • Element

  • Element Click

  • Element Scroll down

然后选择你感兴趣元素,比如我选择了iPhone,荣耀,小米,华为,Vivo,Oppo,其会自动生成一个获取这些信息数据的表达式,我们可以称呼其为XPath,最后,点击保存。

使用Web Scraper 插件,不需要编程,也能爬网

Step3. 保存后,点击“Data Preview”预览数据。

使用Web Scraper 插件,不需要编程,也能爬网

Step4. 点击“Data Preview”预览的数据如下。

使用Web Scraper 插件,不需要编程,也能爬网

Step5. 点击“Scrape”,立马开始抓取数据。

当出现“Scraping Finished”的字样的时候,说明已经抓取成功。

使用Web Scraper 插件,不需要编程,也能爬网

Step6. 点击“Export Data as CSV”,导出为CVS的数据格式,这样Excel就能打开

使用Web Scraper 插件,不需要编程,也能爬网

写在最后的话

本文简单介绍总结了Web Scraper的插件的功能,安装以及一个简单的单页面例子。其实Web Scraper的功能远远不止于此,其实还能抓取分页,还能多页多元素的抓取,还能抓取二级页面,比如,所有iphone或者华为手机的价格,配置等信息










本文转自 小强测试帮 51CTO博客,原文链接:http://blog.51cto.com/xqtesting/2071868,如需转载请自行联系原作者
目录
相关文章
|
3月前
|
Java 应用服务中间件 Apache
Maven程序 tomcat插件安装与web工程启动
Maven程序 tomcat插件安装与web工程启动
40 0
|
4月前
|
自然语言处理 Java 数据库连接
掌握JSP页面编程:动态生成Web内容
【4月更文挑战第3天】Java Server Pages (JSP) 是一种用于创建动态Web内容的Java技术,它结合HTML并允许在页面中嵌入Java代码。JSP支持代码片段、表达式语言(EL)和JSTL标签库,简化动态内容生成。当服务器接收到请求时,执行JSP中的Java代码并将结果嵌入HTML返回给客户端。示例展示了如何显示当前日期和时间。JSP可与Servlet、JavaBeans、数据库等结合,用于构建功能丰富的交互式Web应用。
100 5
掌握JSP页面编程:动态生成Web内容
|
4月前
|
开发框架 前端开发 .NET
C#编程与Web开发
【4月更文挑战第21天】本文探讨了C#在Web开发中的应用,包括使用ASP.NET框架、MVC模式、Web API和Entity Framework。C#作为.NET框架的主要语言,结合这些工具,能创建动态、高效的Web应用。实际案例涉及企业级应用、电子商务和社交媒体平台。尽管面临竞争和挑战,但C#在Web开发领域的前景将持续拓展。
157 3
|
4月前
|
JSON JavaScript 数据格式
jwt-auth插件实现了基于JWT(JSON Web Tokens)进行认证鉴权的功能。
jwt-auth插件实现了基于JWT(JSON Web Tokens)进行认证鉴权的功能。
136 1
|
4天前
|
Java API Apache
从零到英雄的蜕变:如何用Apache Wicket打造你的第一个Web应用——不仅是教程,更是编程之旅的启航
【9月更文挑战第4天】学习Apache Wicket这一开源Java Web应用框架是一段激动人心的旅程。本文将指导你通过Maven搭建环境,并创建首个“Hello, World!”应用。从配置`pom.xml`到实现`HelloWorldApplication`类,再到`web.xml`的设置,一步步教你构建与部署简单网页。适合初学者快速上手,体验其简洁API与强大组件化设计的魅力。
|
7天前
|
存储 关系型数据库 MySQL
PHP编程基础:构建你的第一个Web应用
【8月更文挑战第31天】 在数字时代的海洋里,每个人都可以成为自己命运的船长。本文将引领初学者启航,用PHP语言搭建起第一个属于自己的网站。我们将从浅入深,逐步探索PHP的世界,最终实现一个简单的个人博客系统。这不仅是一段代码的旅程,更是一次思维和技术的飞跃。
|
7天前
|
API 数据库 开发者
解锁Web2py新境界!揭秘如何利用神秘插件系统,让你的Web项目瞬间起飞?
【8月更文挑战第31天】Web2py是一款轻量级且功能全面的Python Web框架,其插件系统允许开发者在不修改核心代码的情况下扩展框架功能,提升项目灵活性和可扩展性。本文介绍如何利用Web2py插件系统增强Web项目,包括插件的优势、选择与安装方法,并通过集成身份认证插件的具体示例展示其应用过程。通过合理利用插件,可以显著提高开发效率和用户体验。
19 1
|
7天前
|
开发者 Java 安全
Struts 2 实战秘籍:Action 驱动业务,配置文件成就高效开发!
【8月更文挑战第31天】Struts 2 框架作为 Apache 软件基金会的顶级项目,广泛应用于企业级 Web 应用开发。其核心组件 Action 类处理用户请求,而配置文件定义请求与 Action 类间的映射关系。掌握 Action 组件的最佳实践包括继承 `ActionSupport` 类、实现 `execute` 方法及使用类型安全的方法;配置文件的最佳实践则涉及组织 Action 到包中、定义全局结果及使用通配符映射。遵循这些最佳实践,可构建高效、可维护的 Web 应用程序。
19 0
|
7天前
|
开发者 前端开发 Apache
【绝不错过!】揭秘Wicket大神级插件,带你飞越编程极限,探索Web应用开发新大陆!
【8月更文挑战第31天】Apache Wicket是一个成熟的Java Web框架,以其组件化体系结构、直观的API及对MVC的支持著称。其活跃社区贡献了大量插件和扩展,显著提升了Wicket的功能性。本文推荐几个实用插件,如**Wicket Ajax Support**,可轻松添加Ajax功能,提升用户体验;**Bootstrap for Wicket**则将Bootstrap与Wicket结合,美化应用界面。
15 0
|
7天前
|
开发框架 开发工具 Java
从零到高手:一文教你快速上手Vaadin,打造首个炫酷Web应用,开启编程新世界的大门
【8月更文挑战第31天】Vaadin是一款基于Java的Web应用开发框架,以其丰富的组件库、简洁的API及对现代Web标准的支持而广受开发者欢迎。本文将指导你从零开始快速搭建一个简单的Vaadin应用。首先确保已安装JDK 11及以上版本和IDE(如IntelliJ IDEA或Eclipse)。接着使用Spring Initializr创建新项目,并选中“Spring Web”和“Vaadin”依赖。创建项目后,编写主应用类和主页类,实现基本页面功能。最后配置启动页面并运行应用。通过这些步骤,你将成功搭建一个基础Vaadin应用,开启探索更多特性的旅程。
17 0
下一篇
DDNS