撸个有成就感的爬虫免费看电影

本文涉及的产品
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
简介:

背景

1. 想看电影。
2. 需要有免费的电影资源。

只要我们有了免费的电影资源后,就可以愉快的看电影了,或者把免费电影链接发给某个姑娘,嘿嘿嘿!

如何获取电影资源

国内的视频网站有:腾讯视频、爱奇艺、优酷等等,今天就看爱奇艺上的电影好了。

 ●  电影资源这些数据都在 html 页面上,所以先撸一个通过请求 url 获取 html 页面的方法。

ps:也可以使用现成的库 比如 Axios。

fetch.js

const http = require('http');
   const https = require('https');
   const urlMd = require('url');
   module.exports = function (url, callback){        let urlInfo = urlMd.parse(url);        let fetcher = urlInfo.protocol === 'http:' ? http : https;        let req = fetcher.request({
           hostname: urlInfo.hostname,
           path: urlInfo.path,
       }, (res) => {
           console.log(`状态码: ${res.statusCode}`);            if (res.statusCode === 200) {                let content = [];
               res.on('data'(chunk) => {
                   content.push(chunk);
               })
   
               res.on('end'() => {                    let b = Buffer.concat(content);
                   callback && callback(null,b.toString());
               })
           } else {
               callback(new Error(`状态码:${res.statusCode}`));
           }
       })
   
       req.end();
       req.on('error'(err) => {
           callback(err);
       })
   }复制代码

 ●  注意:因为后面要用 util.promisify 来包裹此函数,所以 callback 需要符合 nodejs 规定,第一个参数必须为 err。

1. 通过 util.parse 解析出使用 http 还是 https

2. 通过 request 设置请求信息
3. 通过 req.end 发送
4. 请求成功后,判断状态码 200 为成功,否则为失败( 304 也可能是成功,这里没有扩展)

 ●  寻找电影所在的地址

发现这个页面满足了我们的需要,接下来获取到电影所在的 html 即可。

097aa168e333ddd2bdfec74e8939978ab70cf8a9

d3db7eb86dd5c37144948065de614c9d3165a948

当前的url:  http://list.iqiyi.com/www/1/-------------11-1-1-iqiyi--.html

当点击下一页的时候发现 url 变成了:http://list.iqiyi.com/www/1/-------------11-2-1-iqiyi--.html

对比发现 url 只改变了一个数字,那么是不是它可以控制页码呢?,验证后果然如此。

index.js

function getSourceURL(index{        return `http://list.iqiyi.com/www/1/-------------11-${index}-1-iqiyi--.html`
   }复制代码
1. 通过 index 控制页码
2. 返回url
3. 打开爱奇艺
4. 点击电影频道
5. 点击全部

 ●  解析 html 获取电影数据

知道了电影所在的 url,也有了通过 url 获取 html 页面数据的方法,那么接下来就是要解析出 html 内的电影数据咯。(fetch 拉取到的 html 页面数据都是字符串形式)

index.js

const jsdom = require('jsdom');
   const { JSDOM } = jsdom;    
   function parseHTML(html{
       const dom = new JSDOM(html);        let aList = dom.window.document.querySelectorAll('div.site-piclist_pic > a');
       aList = Array.from(aList);        return aList.map((a) => {            return {                source: a.href,
               title: a.title,
               url`${config.parseURL}${a.href}`
           }
       });
   }复制代码

config.json

     "parseURL":"http://vip.jlsprh.com/index.php?url="复制代码
1. 使用 jsdom 库解析 html
2. 获取所有的电影标签
3. 返回需要的数据

config.parseURL 为解析视频的接口地址(通过电影url 可以免费播放,无需会员)

万里长征 还差一点

接下来通过并发(加快请求速度)来请求电影页面,解析并保存到本地。

config.json

{        "pageMaxNum":"20",        "parseURL":"http://vip.jlsprh.com/index.php?url="
   }复制代码

index.js

const util = require('util');
   const fetch = util.promisify(require('./fetch.js'));
   const jsdom = require('jsdom');
   const { JSDOM } = jsdom;
   const fs = require('fs');
   const config = require('./config.json');
   
   (function ({
       Promise.all(fetchHandler())
           .then(d => parseHTML(d))
           .then(d => saveToFile(d));
   })()    
   function fetchHandler(){        let promiseList = [];        for (let i = 1; i <= config.pageMaxNum; i++) {
           promiseList.push(fetch(getSourceURL(i)));
       }        return promiseList;
   }    
   function getSourceURL(index{        return `http://list.iqiyi.com/www/1/-------------11-${index}-1-iqiyi--.html`
   }    
   function parseHTML(html{
       const dom = new JSDOM(html);        let aList = dom.window.document.querySelectorAll('div.site-piclist_pic > a');
       aList = Array.from(aList);        return aList.map((a) => {            return {                source: a.href,
               title: a.title,
               url`${config.parseURL}${a.href}`
           }
       });
   }    
   function saveToFile(data{        let str = JSON.stringify(data);
       fs.writeFile('./data.json', str, { flag'w+' }, (err) => {            if (err) console.log(err);
       })
   }复制代码
1. 通过 pageMaxNum 字段来控制拉取的页码数和并发的数量。
2. 利用 util.promisify 使 fetch 返回 promise
3. 利用 Promise.all 全部请求完成后在处理
4. 解析 html 取出所需数据
5. 保存到本地

结束语

全部撸完后,你会得到一个 data.json 文件(别忘记执行 node index),里面包含免费播放的链接地址。后续的话可以在撸一个前台页面,基于这些数据可以制作一个小电影网站了~

至此,一个小小的爬虫就学会了。是不是感觉很有成就感呢,只学习干巴巴的 API 的话可是相当枯燥,把这些知识转化为一个小项目,可以提高自己的动力和兴趣,把结果分享给朋友的话还能提高自己的成就感,何乐而不为呢。


原文发布时间为:2018-11-20

本文作者:春去春又来

本文来自云栖社区合作伙伴“程序员修炼营”,了解相关信息可以关注“程序员修炼营”。

相关文章
|
8月前
|
数据采集 JSON JavaScript
Python爬虫案例:抓取猫眼电影排行榜
python爬取猫眼电影排行榜数据分析,实战。(正则表达式,xpath,beautifulsoup)【2月更文挑战第11天】
327 2
Python爬虫案例:抓取猫眼电影排行榜
|
5月前
|
数据采集 数据可视化 算法
【优秀python案例】基于Python的豆瓣电影TOP250爬虫与可视化设计与实现
本文设计并实现了一个基于Python的豆瓣电影TOP250爬虫与可视化系统,通过获取电影评分、评论并应用词云和饼图等可视化技术,为用户提供了电影评价的直观展示和深入分析。
1190 3
【优秀python案例】基于Python的豆瓣电影TOP250爬虫与可视化设计与实现
|
3月前
|
数据采集 开发者
爬虫案例—抓取豆瓣电影的电影名称、评分、简介、评价人数
爬虫案例—抓取豆瓣电影的电影名称、评分、简介、评价人数
153 0
|
5月前
|
数据采集 数据可视化 关系型数据库
【优秀python web设计】基于Python flask的猫眼电影可视化系统,可视化用echart,前端Layui,数据库用MySQL,包括爬虫
本文介绍了一个基于Python Flask框架、MySQL数据库和Layui前端框架的猫眼电影数据采集分析与可视化系统,该系统通过爬虫技术采集电影数据,利用数据分析库进行处理,并使用Echart进行数据的可视化展示,以提供全面、准确的电影市场分析结果。
164 4
|
7月前
|
数据采集 存储 JavaScript
(2024)豆瓣电影详情内容爬虫详解和源码
这是一个Python爬虫程序,用于抓取豆瓣电影详情页面如`https://movie.douban.com/subject/1291560/`的数据。它首先发送GET请求,使用PyQuery解析DOM,然后根据`&lt;br&gt;`标签分割HTML内容,提取电影信息如导演、演员、类型等,并将中文键转换为英文键存储在字典中。完整代码包括请求、解析、数据处理和测试部分。当运行时,会打印出电影详情,如导演、演员列表、类型、时长等。
143 1
 (2024)豆瓣电影详情内容爬虫详解和源码
|
7月前
|
数据采集 存储 JavaScript
(2024)豆瓣电影TOP250爬虫详细讲解和代码
这是一个关于如何用Python爬取2024年豆瓣电影Top250的详细教程。教程涵盖了生成分页URL列表和解析页面以获取电影信息的函数。`getAllPageUrl()` 生成前10页的链接,而`getMoiveListByUrl()` 使用PyQuery解析HTML,提取电影标题、封面、评价数和评分。代码示例展示了测试这些函数的方法,输出包括电影详情的字典列表。
373 3
|
7月前
|
数据采集 存储 JSON
豆瓣电影信息爬虫实战-2024年6月
使用Python和`requests`、`PyQuery`库,本文教程教你如何编写一个豆瓣电影列表页面的爬虫,抓取电影标题、导演、主演等信息。首先确保安装所需库,然后了解技术栈,包括Python、Requests、PyQuery和正则表达式。爬虫逻辑包括发送HTTP请求、解析HTML、提取数据。代码示例展示了如何实现这一过程,最后运行爬虫并将结果保存为JSON文件。注意遵守网站使用条款和应对反爬策略。
240 2
|
数据采集 存储 安全
Python爬虫实战:利用代理IP爬取某瓣电影排行榜并写入Excel(附上完整源码)
Python爬虫实战:利用代理IP爬取某瓣电影排行榜并写入Excel(附上完整源码)
231 0
Python爬虫实战:利用代理IP爬取某瓣电影排行榜并写入Excel(附上完整源码)
|
数据采集 存储 数据可视化
电影产业的数据洞察:爬虫技术在票房分析中的应用
电影产业是一个庞大而复杂的行业,涉及到各种各样的因素,如导演、演员、类型、主题、预算、宣传、口碑、评分、奖项等。这些因素都会影响电影的票房收入,也会反映出电影市场的动态和趋势。为了更好地了解电影产业的数据洞察,我们需要收集和分析大量的电影相关信息,这就是爬虫技术发挥作用的地方。
169 0
|
数据采集 XML 存储
构建一个简单的电影信息爬虫项目:使用Scrapy从豆瓣电影网站爬取数据
这个案例展示了如何使用 Scrapy 框架构建一个简单的爬虫项目,从网页中提取数据并保存到文件中。通过配置、编写爬虫代码、定义数据模型和数据处理管道,你可以灵活地构建各种爬虫应用。
332 0
构建一个简单的电影信息爬虫项目:使用Scrapy从豆瓣电影网站爬取数据