经验大分享:PYTHON爬取66影视的电影下载链接,有搜索功能

简介: 经验大分享:PYTHON爬取66影视的电影下载链接,有搜索功能

本片代码亮点在于使用BeautifulSoup的select功能,可以直接根据数据在html页面中的层级标签来获取数据。

# -- coding=gb18030 --

author = 'vincent'

import sys

import urllib2

import urllib

import cookielib

from bs4 import BeautifulSoup

class Spider66ys:

headers = None

home_url = None

def init(self):

self.headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 5.1; rv:50.0) Gecko/20100101 Firefox/50.0'

}//代码效果参考:http://www.ezhiqi.com/zx/art_7500.html

self.home_url = ""

# 获取网页信息

def get_html(self, url):

print "正在获取网页【", url, "】的信息..."

if len(url) == 0:

print "Input url is null!"

sys.exit(0)

request = urllib2.Request(url, headers=self.headers)

response = urllib2.urlopen(request)

html = response.read()

# print "获取首页信息(", url, ")完毕."

return html

# 在电影页面下获取电影的下载链接

def get_download_url(self, film):

print "开始从网页【", film【0】, "】中获取电影【", film【1】, "】的下载链接..."

html = self.get_html(film【0】)

# fp = open("film.html", "w")

# fp.write(html)

# fp.close()

soup = BeautifulSoup(html, "lxml", from_encoding="gb18030")

# print soup.prettify()

results = soup.select("html > body > div.wrap > div.mainleft \

> div.contentinfo > div#text > table > tbody > tr > td > a")

for result in results:

film.append(result【'href'】)

# 获取最新更新电影

def get_new_update(self):

new_film_list = 【】

print "正在获取【", self.home_url, "】更新电影..."

html = self.get_html(self.home_url)

# fp = open("66ys.html", "w")

# fp.write(html)

# fp.close()

soup = BeautifulSoup(html, "lxml", from_encoding="gb18030")

results = soup.select("html > body > div.wrap > div.tnlist > ul > li > a")

for result in results:

film = 【】

film.append(result【'href'】)

film.append(result.getText().encode('gb18030').strip())

self.get_download_url(film)

new_film_list.append(film)

return new_film_list

# 根据关键字在66影视上搜索电影

def search_film(self, content):

search_film_list = 【】

search_url = self.home_url + "/e/search/index.php"

print "开始搜索电影【", content, "】..."

# print search_url

postDict = {

"keyboard": content,

"show": "title,smalltext",

"submit": "",

"tbname": "Article",

"tempid": "1"

}//代码效果参考:http://www.ezhiqi.com/bx/art_7199.html

postData = urllib.urlencode(postDict)

# print postData

cookie_jar = cookielib.LWPCookieJar()

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie_jar))

urllib2.install_opener(opener)

request = urllib2.Request(search_url, postData, headers=self.headers)

response = urllib2.urlopen(request)

opener.open(request)

html = response.read()

# fp = open("search.html", "w")

# fp.write(html)

# fp.close()

# print content

soup = BeautifulSoup(html, "lxml", from_encoding="gb18030")

results = soup.select("html > body > table.tableborder > tr > td > div > b")

if len(results) == 1:

print "没有搜索到相关的内容"

return None

results = soup.select("html > body > div > div.wrap > div.mainleft > div.channellist > div.listBox > ul > li \

div.listInfo > h3 > a")

# print results

for result in results:

film = 【】

film.append(result【'href'】)

film.append(result.getText().encode('gb18030').strip())

self.get_download_url(film)

search_film_list.append(film)

print "共搜索到【", len(results), "】部电影。"

return search_film_list

if name == "main":

spider = Spider66ys()

# new_film_list = spider.get_new_update()

# for film in new_film_list:

# for info in film:

# print info, "\t"

# print ""

content = "冰与火之歌"

search_film_list = spider.search_film(content)

for film in search_film_list:

print film【1】, ":"

for info in film【2:】:

print info

print "-"*200

心有猛虎,细嗅蔷薇

相关文章
|
6月前
|
缓存 供应链 监控
1688item_search_factory - 按关键字搜索工厂数据接口深度分析及 Python 实现
item_search_factory接口专为B2B电商供应链优化设计,支持通过关键词精准检索工厂信息,涵盖资质、产能、地理位置等核心数据,助力企业高效开发货源、分析产业集群与评估供应商。
|
7月前
|
缓存 API 网络架构
淘宝item_search_similar - 搜索相似的商品API接口,用python返回数据
淘宝联盟开放平台中,可通过“物料优选接口”(taobao.tbk.dg.optimus.material)实现“搜索相似商品”功能。该接口支持根据商品 ID 获取相似推荐商品,并返回商品信息、价格、优惠等数据,适用于商品推荐、比价等场景。本文提供基于 Python 的实现示例,包含接口调用、数据解析及结果展示。使用时需配置淘宝联盟的 appkey、appsecret 和 adzone_id,并注意接口调用频率限制和使用规范。
|
6月前
|
JSON 监控 数据格式
1688 item_search_app 关键字搜索商品接口深度分析及 Python 实现
1688开放平台item_search_app接口专为移动端优化,支持关键词搜索、多维度筛选与排序,可获取商品详情及供应商信息,适用于货源采集、价格监控与竞品分析,助力采购决策。
|
6月前
|
缓存 供应链 监控
VVIC seller_search 排行榜搜索接口深度分析及 Python 实现
VVIC搜款网seller_search接口提供服装批发市场的商品及商家排行榜数据,涵盖热销榜、销量排名、类目趋势等,支持多维度筛选与数据分析,助力选品决策、竞品分析与市场预测,为服装供应链提供有力数据支撑。
|
8月前
|
Web App开发 安全 数据安全/隐私保护
利用Python+Requests实现抖音无水印视频下载
利用Python+Requests实现抖音无水印视频下载
|
6月前
|
缓存 监控 算法
唯品会item_search - 按关键字搜索 VIP 商品接口深度分析及 Python 实现
唯品会item_search接口支持通过关键词、分类、价格等条件检索商品,广泛应用于电商数据分析、竞品监控与市场调研。结合Python可实现搜索、分析、可视化及数据导出,助力精准决策。
|
6月前
|
数据采集 数据可视化 关系型数据库
基于python大数据的电影数据可视化分析系统
电影分析与可视化平台顺应电影产业数字化趋势,整合大数据处理、人工智能与Web技术,实现电影数据的采集、分析与可视化展示。平台支持票房、评分、观众行为等多维度分析,助力行业洞察与决策,同时提供互动界面,增强观众对电影文化的理解。技术上依托Python、MySQL、Flask、HTML等构建,融合数据采集与AI分析,提升电影行业的数据应用能力。

推荐镜像

更多