NodeJs编写小爬虫

简介: 一,爬虫及Robots协议          爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。               robots.txt是一个文本文件,robots是一个协议,而不是一个命令。


一,爬虫及Robots协议


          爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

    

          robots.txt是一个文本文件,robots是一个协议,而不是一个命令。robots.txt是爬虫要查看的第一个文件。robots.txt文件告诉爬虫在服务器上什么文件是可以被查看的,搜索机器人就会按照该文件中的内容来确定访问的范围。

           

          



     如上图,我们可以在网站中直接访问robots.txt文件查看网站禁止访问和允许访问的文件。


二,使用NodeJs爬去网页需要安装的模块


Express

       Express 是一个基于 Node.js 平台的极简、灵活的 web 应用开发框架,它提供一系列强大的特性,帮助你创建各种 Web 和移动设备应用。

        中文API:http://www.expressjs.com.cn/


Request

       简化了http请求。

       API:https://www.npmjs.com/package/request


Cheerio

        以一种类似JQ的方式处理爬取到的网页。

        API:https://www.npmjs.com/package/cheerio



这三个模块在安装NodeJs 之后,可以使用npm命令进行安装。


三,简单爬取网页示例

var express = require('express');
var app = express();
var request = require('request');
var cheerio = require('cheerio');
app.get('/', function(req, res){
    request('http://blog.csdn.net/lhc1105', function (error, response, body) {
      if (!error && response.statusCode == 200) {
        $ = cheerio.load(body);//当前的$,它是拿到了整个body的前端选择器
      console.log($('.user_name').text()); //我博客的获取用户名
      }else{
         console.log("思密达,没爬取到用户名,再来一次");
      }
})
});
app.listen(3000);

之后,




然后在浏览器中访问:http://localhost:3000/,就能看到输出的用户名。


感觉比python爬取方便点儿,主要是对网页元素解析上,省去了很多正则表达式。


     by the way ,新年快乐~~~







目录
相关文章
|
4月前
|
数据采集 资源调度 JavaScript
Node.js 适合做高并发、I/O密集型项目、轻量级实时应用、前端构建工具、命令行工具以及网络爬虫和数据处理等项目
【8月更文挑战第4天】Node.js 适合做高并发、I/O密集型项目、轻量级实时应用、前端构建工具、命令行工具以及网络爬虫和数据处理等项目
59 5
|
6月前
|
数据采集 存储 编解码
技术笔记:Node.jsmm131图片批量下载爬虫1.01增加断点续传功能
技术笔记:Node.jsmm131图片批量下载爬虫1.01增加断点续传功能
97 0
|
6月前
|
数据采集 Web App开发 XML
详尽分享用Node.js写爬虫,撸羞羞的图片
详尽分享用Node.js写爬虫,撸羞羞的图片
37 0
|
7月前
|
数据采集 JavaScript 数据可视化
Node.js爬虫在租房信息监测与分析中的应用
Node.js爬虫在租房信息监测与分析中的应用
|
7月前
|
数据采集 JavaScript 前端开发
分享58个NodeJs爬虫源码总有一个是你想要的
分享58个NodeJs爬虫源码总有一个是你想要的
90 4
|
7月前
|
数据采集 Web App开发 JavaScript
 nodejs爬虫框架
 nodejs爬虫框架
231 0
|
数据采集 JSON JavaScript
node-spider:node实践简单的爬虫
node-spider:node实践简单的爬虫
108 0
|
数据采集 存储 缓存
用nodejs实现一个小小爬虫
用nodejs实现一个小小爬虫
159 0
|
数据采集 Web App开发 存储
基于Apify+node+react/vue搭建一个有点意思的爬虫平台
熟悉我的朋友可能会知道,我一向是不写热点的。为什么不写呢?是因为我不关注热点吗?其实也不是。有些事件我还是很关注的,也确实有不少想法和观点。 但我一直奉行一个原则,就是:要做有生命力的内容。
661 0
|
数据采集 Web App开发 JavaScript
养只爬虫当宠物(Node.js 爬虫爬取 58 同城租房信息)
养只爬虫当宠物(Node.js 爬虫爬取 58 同城租房信息)
205 0