【Python】从0开始写爬虫——把扒到的豆瓣数据存储到数据库

简介: 1. 我们扒到了什么?   id, 名称, 上映年份,上映日期,所属类目, 导演,主演,片长,评分,星评,评价人数 2. 把这些数据做一个分类。   a..基本信息 :名称, 导演,上映年份, 所属类目, 片长   b.评价信息:评分,星评,评价人数   c.主演表: 主演(我在纠结要不要单独列一张表) 3 .表设计。
 
1. 我们扒到了什么?

  id, 名称, 上映年份,上映日期,所属类目, 导演,主演,片长,评分,星评,评价人数

2. 把这些数据做一个分类。

  a..基本信息 :名称, 导演,上映年份, 所属类目, 片长

  b.评价信息:评分,星评,评价人数

  c.主演表: 主演(我在纠结要不要单独列一张表)

3 .表设计。现在有点蛋疼的是主键。用自增主键还是电影id做主键。经过我的多方面考虑,我慎重(草率)地决定,用电影id(反正都要建唯一索引,为什么不拿来当主键呢。。), 所以我刚才又在id那转了一下数据

    m_id = re.search("[0-9]+", movie_url).group()
    movie["id"] = int(m_id)

写着玩嘛,就是那么随意,有什么想法就改!!!

4. 建表。。也是蛋疼,我居然纠结过是用mysql还是mongodb, 马上就删自己一个耳光,你会mongodb嘛?感觉要是继续又开一个mongodb的坑,我就再也回不来这个爬虫了。

我也不傻不拉几地自己写建表sql了.直接用的SQLyog。稍微纠结了一下InnoDB和MyISAM。 我开始是想每次把一个电影的信息分别插入三个表,要不要用事务, 又想垃圾数据也不会扣我钱,所以用了MyISAM。毕竟就是大量的Insert和select

建表语句

 

CREATE DATABASE `douban`;
USE `douban`;

-- 基本信息表
CREATE TABLE `t_movie_info` (
  `id` bigint(20) unsigned NOT NULL COMMENT '主键,豆瓣电影id',
  `type` tinyint(4) DEFAULT NULL COMMENT '类型 0:电视剧,1:电影',
  `name` varchar(30) DEFAULT NULL COMMENT '电影名字',
  `director` varchar(50) DEFAULT NULL COMMENT '导演',
  `year` int(4) DEFAULT NULL COMMENT '上映年份',
  `month` int(2) DEFAULT NULL COMMENT '上映月份',
  `day` int(2) DEFAULT NULL COMMENT '上映日期',
  `categories1` varchar(20) DEFAULT NULL COMMENT '所属类目1',
  `categories2` varchar(20) DEFAULT NULL COMMENT '所属类目2',
  `time` int(3) DEFAULT NULL COMMENT '时长',
  PRIMARY KEY (`id`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8


-- 主演表
CREATE TABLE `t_movie_actors` (
  `id` bigint(20) unsigned NOT NULL COMMENT '主键,豆瓣电影id',
  `actor1` varchar(50) DEFAULT NULL,
  `actor2` varchar(50) DEFAULT NULL,
  `actor3` varchar(50) DEFAULT NULL,
  `actor4` varchar(50) DEFAULT NULL,
  `actor5` varchar(50) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8

-- 评价数据表
CREATE TABLE `t_movie_scores` (
  `id` bigint(20) unsigned NOT NULL COMMENT '主键,电影id',
  `score` double unsigned DEFAULT '0' COMMENT '评分',
  `votes` int(10) unsigned DEFAULT '0' COMMENT '评价人数',
  `star1` double unsigned DEFAULT '0' COMMENT '1星比例',
  `star2` double unsigned DEFAULT '0' COMMENT '2星比例',
  `star3` double unsigned DEFAULT '0' COMMENT '3星比例',
  `star4` double unsigned DEFAULT '0' COMMENT '4星比例',
  `star5` double unsigned DEFAULT '0' COMMENT '5星比例',
  PRIMARY KEY (`id`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8

 

5. 写一个方法把数据插入到数据库里。 也是第一次用python写数据到数据库,折腾了一晚上。 也不知道哪个小菜比写的 %s 不用加引号,搞得我第一次就看到这个,然后出了错一直认为这个是对的,在找别的原因

def inset_data(movie):
    # 获取一个数据库连接
    conn = pymysql.Connect(host="localhost", port=3306, user="root", password="root", db="douban")
    # conn.autocommit(True)    # 设置自动提交
    cursor = conn.cursor()   # 获取游标
    sql_insert_info = ("insert into `t_movie_info`(`id`, `type`, `name`, `director`, `year`, `month`, `day`, "
                       "`categories1`, `categories2`, `time`) values (%d, %d, '%s', '%s', %d, %d, %d, '%s', '%s', %d)")

    categories = movie["categories"]
    ca_len = len(categories)
    categories1 = categories[0] if ca_len > 0 else None
    categories2 = categories[1] if ca_len > 1 else None

    cursor.execute(sql_insert_info % (movie["id"], movie["type"], movie["name"], movie["directer"], movie["date"].year,
                                      movie["date"].month, movie["date"].day, categories1, categories2, movie["time"]))

    # 写sql 千万记住 %s 要加双引号,不然会报错 Unknown column 'a' in 'field list'
    sql_insert_actors = ("insert into `t_movie_actors`(id, actor1, actor2, actor3, actor4, actor5)"
                         "values(%d, '%s', '%s', '%s', '%s', '%s')")
    actors = movie["actors"]
    actors_len = len(actors)
    actor1 = actors[0] if actors_len > 0 else None
    actor2 = actors[1] if actors_len > 1 else None
    actor3 = actors[2] if actors_len > 2 else None
    actor4 = actors[3] if actors_len > 3 else None
    actor5 = actors[4] if actors_len > 4 else None

    cursor.execute(sql_insert_actors % (movie["id"], actor1, actor2, actor3, actor4, actor5))

    sql_insert_scores = ("insert into `t_movie_scores`(id, score, votes, star1, star2, star3, star4, star5)"
                         "values(%d, %f, %d, %f, %f, %f, %f, %f)")
    stars = movie["stars"]
    stars_len = len(stars)
    star1 = stars[0] if stars_len > 0 else 0.0
    star2 = stars[1] if stars_len > 1 else 0.0
    star3 = stars[2] if stars_len > 2 else 0.0
    star4 = stars[3] if stars_len > 3 else 0.0
    star5 = stars[4] if stars_len > 4 else 0.0
    cursor.execute(sql_insert_scores % (movie["id"], movie["score"], movie["vote"], star1, star2, star3, star4, star5))
    conn.commit()


data1 = douban_movie("https://movie.douban.com/subject/30236775/?from=showing")
inset_data(data1)
data2 = douban_movie("https://movie.douban.com/subject/26842702/?tag=%E7%83%AD%E9%97%A8&from=gaia")
inset_data(data2)
data3 = douban_movie("https://movie.douban.com/subject/26973784/?tag=%E6%9C%80%E6%96%B0&from=gaia")
inset_data(data3)
data4 = douban_movie("https://movie.douban.com/subject/30249296/?tag=%E7%83%AD%E9%97%A8&from=gaia")
inset_data(data4)

执行完后数据库:

 

相关文章
|
6天前
|
数据采集 存储 XML
Python爬虫定义入门知识
Python爬虫是用于自动化抓取互联网数据的程序。其基本概念包括爬虫、请求、响应和解析。常用库有Requests、BeautifulSoup、Scrapy和Selenium。工作流程包括发送请求、接收响应、解析数据和存储数据。注意事项包括遵守Robots协议、避免过度请求、处理异常和确保数据合法性。Python爬虫强大而灵活,但使用时需遵守法律法规。
|
7天前
|
数据采集 缓存 定位技术
网络延迟对Python爬虫速度的影响分析
网络延迟对Python爬虫速度的影响分析
|
8天前
|
数据采集 Web App开发 监控
高效爬取B站评论:Python爬虫的最佳实践
高效爬取B站评论:Python爬虫的最佳实践
|
9天前
|
数据采集 存储 JSON
Python爬虫开发中的分析与方案制定
Python爬虫开发中的分析与方案制定
|
14天前
|
数据采集 JSON 测试技术
Python爬虫神器requests库的使用
在现代编程中,网络请求是必不可少的部分。本文详细介绍 Python 的 requests 库,一个功能强大且易用的 HTTP 请求库。内容涵盖安装、基本功能(如发送 GET 和 POST 请求、设置请求头、处理响应)、高级功能(如会话管理和文件上传)以及实际应用场景。通过本文,你将全面掌握 requests 库的使用方法。🚀🌟
36 7
|
13天前
|
数据采集 Web App开发 JavaScript
爬虫策略规避:Python爬虫的浏览器自动化
爬虫策略规避:Python爬虫的浏览器自动化
|
13天前
|
数据采集 存储 XML
Python实现网络爬虫自动化:从基础到实践
本文将介绍如何使用Python编写网络爬虫,从最基础的请求与解析,到自动化爬取并处理复杂数据。我们将通过实例展示如何抓取网页内容、解析数据、处理图片文件等常用爬虫任务。
|
3天前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能浪潮下的自我修养:从Python编程入门到深度学习实践
【10月更文挑战第39天】本文旨在为初学者提供一条清晰的道路,从Python基础语法的掌握到深度学习领域的探索。我们将通过简明扼要的语言和实际代码示例,引导读者逐步构建起对人工智能技术的理解和应用能力。文章不仅涵盖Python编程的基础,还将深入探讨深度学习的核心概念、工具和实战技巧,帮助读者在AI的浪潮中找到自己的位置。
|
3天前
|
机器学习/深度学习 数据挖掘 Python
Python编程入门——从零开始构建你的第一个程序
【10月更文挑战第39天】本文将带你走进Python的世界,通过简单易懂的语言和实际的代码示例,让你快速掌握Python的基础语法。无论你是编程新手还是想学习新语言的老手,这篇文章都能为你提供有价值的信息。我们将从变量、数据类型、控制结构等基本概念入手,逐步过渡到函数、模块等高级特性,最后通过一个综合示例来巩固所学知识。让我们一起开启Python编程之旅吧!
|
3天前
|
存储 Python
Python编程入门:打造你的第一个程序
【10月更文挑战第39天】在数字时代的浪潮中,掌握编程技能如同掌握了一门新时代的语言。本文将引导你步入Python编程的奇妙世界,从零基础出发,一步步构建你的第一个程序。我们将探索编程的基本概念,通过简单示例理解变量、数据类型和控制结构,最终实现一个简单的猜数字游戏。这不仅是一段代码的旅程,更是逻辑思维和问题解决能力的锻炼之旅。准备好了吗?让我们开始吧!