采集天堂电影数据来看看

简介: 采集天堂电影数据来看看

阅读本文需要2分钟


最近本狗想放松放松, 想了想还是看看几部电影最为可贵, 于是找了大家最为熟悉的网站《电影天堂》去看个究竟。为了更好的去"挑选"电影,本狗就爬取了大几十页的数据。废话不多说:开工啦


1

原理:

构建目标URL:


def page_urls():
    baseurl = 'http://www.ygdy8.net/html/gndy/dyzz/list_23_{}.html'
    for i in range(1, 30):
        url = baseurl.format(i)
        parse_url(url)

只需要改变{}里面的内容就可以实现翻页


爬取电影详情URL:


def parse_url(url):
    response = requests.get(url, headers=headers)
    html = etree.HTML(response.text)
    tables = html.xpath('//table[@class="tbspan"]//a/@href')
    for table_url in tables:
        page_urls = baseurl + table_url


2

需要的模块:


import time
import random
import requests
from lxml import etree
import csv


主程序:(有点长,截取部分)

    def spider(page_urls):
        data = {}
        response = requests.get(page_urls, headers=headers)
        html = etree.HTML(response.content.decode('gbk'))
        title = html.xpath('//div[@class="title_all"]//font[@color="#07519a"]/text()')[0]
        data['名字'] = title
        try:
            images = html.xpath('//div[@id="Zoom"]//img/@src')[1]
        except:
            print("套路深!")
        try:
            posters = html.xpath('//div[@id="Zoom"]//img/@src')[0]
        except:
            print("套路深!!")
        data['海报'] = posters
        # time.sleep(random.randint(1, 2))
        zoom_ = html.xpath('//div[@id="Zoom"]')[0]
        infos = zoom_.xpath('.//text()')
        for info in infos:
            if info.startswith('◎年  代'):
                info1 = info.replace('◎年  代', '').strip()
                data['年代'] = info1
            elif info.startswith('◎产  地'):
                info2 = info.replace('◎产  地', '').strip()
                data['产地'] = info2
            elif info.startswith('◎类  别'):
                info3 = info.replace('◎类  别', '').strip()
                data['类别'] = info3
            elif info.startswith('◎语  言'):
                info4 = info.replace('◎语  言', '').strip()
                data['语言'] = info4
            elif info.startswith('◎上映日期'):
                info5 = info.replace('◎上映日期', '').strip()
                data['上映日期'] = info5
            elif info.startswith('◎豆瓣评分'):
                info6 = info.replace('◎豆瓣评分', '').strip()
                info6 = ''.join(info6.split('/')[:1])
                data['豆瓣评分'] = info6
            elif info.startswith('◎片  长'):
                info7 = info.replace('◎片  长', '').strip()
                data['片长'] = info7


    3

    效果图:



    这样查看电影很方便呀!!!最后本跟根据【评分】【类别】选择了些电影《头号玩家》《江湖儿女》《调音师》,感觉还不错!!!   主要原因还是没钱开会员


    后台回复 【电影】 获取源码

    相关文章
    |
    17天前
    |
    数据采集 JSON JavaScript
    Python爬虫案例:抓取猫眼电影排行榜
    python爬取猫眼电影排行榜数据分析,实战。(正则表达式,xpath,beautifulsoup)【2月更文挑战第11天】
    97 2
    Python爬虫案例:抓取猫眼电影排行榜
    |
    数据采集 存储 Web App开发
    Python爬虫系列8-抓取快乐8、刮刮乐、双色球等中奖数据分析规律
    人在绝大多数情况下,只要稍微有那么一点的退路,有那么一点余地,就可以成为逃避的借口和理由。努力装装样子,然后给自己一个台阶下,安慰自己说,“你看我已经很努力了,还是不行,那就算了吧”。 老话说得好:只有主动追求的东西才能到手;只要你想做,全世界都会帮你;只要你不想做,一只蚊子都能拦住你。虽说未来可期,但如果你连相信自己的勇气都没有,还有什么资格得到更好的呢。对吧!
    1247 0
    Python爬虫系列8-抓取快乐8、刮刮乐、双色球等中奖数据分析规律
    |
    17天前
    爬取猫眼电影
    爬取猫眼电影
    37 0
    |
    10月前
    |
    内存技术
    在线版!音乐伴奏提取、变调、调速、查调性……太强大了!
    由于Spleeter是要下载到电脑上运行的,由于电脑系统版本、电脑上的运行库等多方面原因,很多用户私信我说软件运行不了。
    445 0
    |
    弹性计算 运维 监控
    实战案例—南瓜电影 | 学习笔记
    快速学习实战案例—南瓜电影
    279 0
    |
    数据采集 Python
    Python爬虫系列18-采集电视剧详情 比如:导演、年份、类型、短评等数据
    身材不好就去锻炼,没钱就努力去赚,别把窘迫困境迁怒于别人,你唯一可以抱怨的就是不够努力的自己。 向往别人看过的风景,但是到了周末,却抱着手机在家宅过一个又一个周末。所以当自己想到的一些东西就赶紧行动起来,羡慕别人不如行动自己。 如果只是一味的去羡慕别人,从来都不去让自己行动起来,那么你永远都会在见证别人的成功,在见证别人的成长。
    Python爬虫系列18-采集电视剧详情 比如:导演、年份、类型、短评等数据
    |
    数据采集 Python
    Python爬虫系列15-采集梨视频等所有栏目中视频数据
    “人生之路是不可逆的,任何人都不可能重新来过、重新选择。” 生活中,每个人都在用不同的方式在成长在成熟,谁也不比谁更轻松。
    Python爬虫系列15-采集梨视频等所有栏目中视频数据
    |
    数据挖掘 Python
    Python数据分析系列03-豆瓣电影T250分析
    很多人在羡慕别人身材好的时候,却不知道别人有多自律,然而,自己明明前一刻再提醒自己,一定要努力锻炼出好的身材,但是下一秒却没有办法控制自己的食欲。 总感觉自己有很多的才华,却没有机会去施展,可是却没有发现自己没有去努力的表现自己。
    Python数据分析系列03-豆瓣电影T250分析
    |
    数据采集 Python
    Python爬虫系列16-采集网易音乐百万好听的歌曲进行批量下载
    业精于勤而荒于嬉,行成于思而毁于随。 吃得苦中苦,方为人上人,受得累中累,方成富贵人。完全赞同
    Python爬虫系列16-采集网易音乐百万好听的歌曲进行批量下载
    |
    数据采集 存储 Python
    Python爬虫系列9-非诚勿扰等婚恋网数据批量抓取!
    一般当大家遇到不顺心的时候,总是会焦虑,抱怨,我知道,这也是人软弱的一面,但是我们越是遇到困难,越是要振作起来,不要放弃自己,然后悄悄努力,只有这样才能让自己越来越好,如果一直沉浸在痛苦中,只会越来越糟。 适当的逼一逼自己,你会发现,人的潜力是无限的。
    Python爬虫系列9-非诚勿扰等婚恋网数据批量抓取!