Python--(爬虫与数据库的连接)

本文涉及的产品
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
RDS SQL Server Serverless,2-4RCU 50GB 3个月
推荐场景:
云数据库 RDS SQL Server,基础系列 2核4GB
简介: (每一天都是属于你的!)   Python对于初学后巩固基础的人还是更多的来接触python爬虫会更好一些,在Python爬虫中包含很多基础部分知识,并且在项目中会提升你的成功感!加油! 我在工作之余时间,把Python的爬虫基础内容整理了一下,资料因为太多所以都放在QQ群内了,需要的可以来---607021567。

(每一天都是属于你的!)

 

Python对于初学后巩固基础的人还是更多的来接触python爬虫会更好一些,在Python爬虫中包含很多基础部分知识,并且在项目中会提升你的成功感!加油!

我在工作之余时间,把Python的爬虫基础内容整理了一下,资料因为太多所以都放在QQ群内了,需要的可以来---607021567。

今天整理了一个两个网站的小说阅读平台的爬虫,将两个网站的小说可按自有的格式抓取下来自动生成txt文件。

项目介绍:

  --Python爬虫

    --模块:requests,BeautifulSoup,time

    --分析:request模块作用于网站的连接与处理,BeautifulSoup作用于源码中的代码分析与抓取,time主要是在我们抓取的过程中加入时间限制(这个主要是应对有网站监控的,这里我们就不需要了)

 因为这里没有涉及到数据库相关的操作,所以没有对数据库的相关详细内容,但是我会将Python与mongodb、MySQL、Sqlserver的连接方式的代码会附赠在下面。

 

一、网页分析:

首先步步分析网页内容:https://www.booktxt.net/6_6453/2529786.html,cookie信息--F12键。

这里面有很多广告,不过可以不用去理它们,首先获取到我们需要的网址:

 1 # -*- coding:utf-8 -*-
 2 import requests
 3 from bs4 import BeautifulSoup
 4 import time
 5 
 6 def project(url,page):
 7     #url='http://www.23us.so/files/article/html/1/1809/877404.html' #大主宰
 8     #url='http://www.23us.so/files/article/html/6/6100/2193573.html' #天下无双
 9     #url='https://www.booktxt.net/6_6453/2529786.html' #元尊
10     headers={"Cookie": "jieqiVisitId=article_articleviews%3D6453; cscpvrich87",
11         "Host": "www.booktxt.net",
12              "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0",
13              "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"}
14     r =requests.get(url,headers,timeout=30)
15     h = r.content

 这里主要使用request模块获取网址的源码,h--就是我们所获取的源码,你可以测试的时候print出来。

 

二、源码分析

我们这里直接在网页中来查看源码:网页中右键查看源码。

这里我们注意到文本的内容包含在<div id="content">的标签内,所以接下来我们使用bs4来处理。

1 soup = BeautifulSoup(h, "html.parser")
2 a1 = soup.find('div',class_="bookname").h1
3 text_da(a1.get_text().encode('utf-8')+'\n\n\n')
4 a = soup.find('div',id='content')
5 text_da(a.get_text().encode('utf-8')+'\n\n\n')

每一行分开解释:

1、使用BeautifulSoup模块,其中"html.parser"是模块内置函数,对源码的分析,这样我们就获取到网址的bs4源码。

2、首先是获取小说中的标题,soup.find--是获取源码中第一个div标签class=“bookname”下的h1标签,当前我们获取到h1标签所有内容包括标签,但是我们需要获取到文本内容。

3、获取获得标签内的文本内容--a1.get_text(),这里的encode('utf-8')是将我们获取的内容需要转码,不然是乱码的状态。

4、获取我们主要的文本内容--同理,需要获得文本内容的标签div

5、获得文本内容。

 

三、分页操作

因为我们浏览的页面会有分页,所有这里也是我们需要注意的地方。

这里的下一章按钮,就是我们的突破点:

1  b = soup.find('div',class_='bottem2')
2  if b:
3      a = b.find_all('a')
4      #shuurl = 'http://www.23us.so'+a[-1]['href']
5      shuurl = 'https://www.booktxt.net' + a[-2]['href']
6      #print shuurl
7      page=page+1
8      project(shuurl,page)

 我们在源码中获取到的下一章的网址位于a标签内。

3行、--我们获取所有的a标签。

5行、a[-2]是获取我们倒数第二个标签也就是我们的下一章标签,【’href‘】--是获得a标签内的href的内容也就是我们的地址,这里需要拼接字符串。

7行、是抓取的注释内容,稍后在源码中你会看到效果

8行、有的小伙伴注意到了,这里是调用函数,函数的名字就是我们一开始定义的函数,就是它自己本身。

 

四、写入文件

接下来,我们的主要价值数据获取到,但是我们需要它成为txt文件,所以我写了一个函数,在上面的函数体中直接调用就可以了。

1 def text_da(text):
2     fo = open("foo.txt", "a")
3     fo.write(text)
4 
5     # 关闭打开的文件
6     fo.close()

 

五、启动函数

最后一步,就是我们的启动程序代码。

1 if __name__ == '__main__':
2     page=1
3     url = 'https://www.booktxt.net/6_6453/2529786.html'  # 元尊
4     project(url,page)

这里主要是python的内置函数,作为启动py文件内的函数。

 

 六、源码

哦!忘了源码-----

 1 # -*- coding:utf-8 -*-
 2 import requests
 3 from bs4 import BeautifulSoup
 4 import time
 5 
 6 def project(url,page):
 7     #url='http://www.23us.so/files/article/html/1/1809/877404.html' #大主宰
 8     #url='http://www.23us.so/files/article/html/6/6100/2193573.html' #天下无双
 9     #url='https://www.booktxt.net/6_6453/2529786.html' #元尊
10     headers={"Cookie": "jieqiVisitId=article_articleviews%3D6453; cscpvrich8793_fidx=4; __tins__19219364=%7B%22sid%22%3A%201527749231776%2C%20%22vd%22%3A%204%2C%20%22expires%22%3A%201527751067272%7D; __51cke__=; __51laig__=4; Hm_lvt_6949867c34e7741ebac3943050f04833=1527749232; Hm_lpvt_6949867c34e7741ebac3943050f04833=1527749267; cscpvcouplet8792_fidx=4; cscpvrich8791_fidx=4",
11         "Host": "www.booktxt.net",
12              "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0",
13              "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"}
14     r =requests.get(url,headers,timeout=30)
15     h = r.content
16     #print h
17     soup = BeautifulSoup(h, "html.parser")
18     #a = soup.find('dd',id='contents')
19     #print a.get_text()
20     a1 = soup.find('div',class_="bookname").h1
21     text_da(a1.get_text().encode('utf-8')+'\n\n\n')
22     a = soup.find('div',id='content')
23     text_da(a.get_text().encode('utf-8')+'\n\n\n')
24     print ''+str(page)+'章!'
25     #b = soup.find('dd',id='footlink')
26     b = soup.find('div',class_='bottem2')
27     if b:
28         a = b.find_all('a')
29         #shuurl = 'http://www.23us.so'+a[-1]['href']
30         shuurl = 'https://www.booktxt.net' + a[-2]['href']
31         #print shuurl
32         page=page+1
33         project(shuurl,page)
34 
35 def text_da(text):
36     fo = open("foo.txt", "a")
37     fo.write(text)
38 
39     # 关闭打开的文件
40     fo.close()
41 
42 if __name__ == '__main__':
43     page=1
44     url = 'https://www.booktxt.net/6_6453/2529786.html'  # 元尊
45     project(url,page)

 

对了!还有Python对于数据库的连接操作,我这里直接就贴源码了,其中很多的内容我都注释了!不懂的可以加群---607021567(需要验证信息,因为我不知道来的是朋友还是敌人)

 1 # -*- coding:utf-8 -*-
 2 import pymongo
 3 from pymongo import MongoClient
 4 import json
 5 #MONGODB
 6 #连接
 7 client = MongoClient('mongodb://localhost')
 8 db = client.test
 9 table='test'
10 #db[table].insert({'user_id':2,'name':'zhu'})
11 #db[table].update({'name':'zhu'},{'$set':{'user_id':2}})
12 #db[table].remove({'name':'zhu'})
13 #查询结果排序(key:1或者-1)升序或者降序
14 a = db[table].find().sort("user_id",1)
15 print a
16 for i in a:
17     print i
18 
19 #db.authenticate('test','test')
20 
21 """table = 'imi_product'
22 a = db[table].find({'partno':'NEN1FX6'}).limit(1)
23 detailList = []
24 for i in a:
25         if (i.get("specs")):
26                 specary = i.get("specs")
27                 for i in specary:
28                     detailList.append({"left": i, "right": specary[i]})
29 print detailList
30 for i in detailList:
31     print i.get('right')
32 #查询和增加
33 #db[table].insert({'sn':1,'b':'b'})
34 #更改
35 #db[table].update({'sn':1},{'$set':{'b':'sda'}})
36 #删除
37 #删除name=lisi的全部记录
38 #db[table].remove({'sn': 1})
39 #删除集合里的所有记录
40 #db.users.remove()
41 #    (>)  大于 - $gt
42 #    (<)  小于 - $lt
43 #    (>=)  大于等于 - $gte
44 #    (<= )  小于等于 - $lte
45 #a = db[table]
46 #print a.find_one()"""
47 
48 
49 
50 #SQLSERVER
51 """import pyodbc
52 import MySQLdb
53 MSSQL_INFO = {"hostname":"localhost","username":"","password":"","dbname":"oneice"}
54 strconn= 'DRIVER={SQL Server};SERVER='+MSSQL_INFO.get("hostname")+';DATABASE='+MSSQL_INFO.get("dbname")+';UID='+MSSQL_INFO.get("username")+';PWD='+MSSQL_INFO.get("password")
55 db = pyodbc.connect(strconn)
56 sqldb = db.cursor()
57 #查询
58 sql = 'select * from news where news_id=1'
59 #添加
60 sql ="insert into news (news_title,news_author,news_summary,news_content,news_pic) values ('haha','happy','Iriji','little','12dsa')"
61 #删除
62 sql ="delete from news where news_id=5"
63 sqldb.execute(sql)
64 sqldb.commit()
65 #查询
66 row = sqldb.fetchone()
67 print row[1]
68 #存储过程
69 sqldb.execute("{call 存储过程名字 (参数)}", '上传的参数')
70 q = sqldb.fetchone()/fetchall()
71 sqldb.commit()
72 if q:
73     print q[1]"""

这里包含这Python调用SQLSERVER的存储过程和基本操和MONGODB的基本操作!

Welcome to Python world! I have a contract in this world! How about you?
相关实践学习
MongoDB数据库入门
MongoDB数据库入门实验。
快速掌握 MongoDB 数据库
本课程主要讲解MongoDB数据库的基本知识,包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用(唯一索引、地理索引、过期索引、全文索引等)、MapReduce操作实现、用户管理、Java对MongoDB的操作支持(基于2.x驱动与3.x驱动的完全讲解)。 通过学习此课程,读者将具备MongoDB数据库的开发能力,并且能够使用MongoDB进行项目开发。 &nbsp; 相关的阿里云产品:云数据库 MongoDB版 云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。 云数据库MongoDB版(ApsaraDB for MongoDB)完全兼容MongoDB协议,基于飞天分布式系统和高可靠存储引擎,提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。 产品详情: https://www.aliyun.com/product/mongodb
相关文章
|
4天前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
30 6
|
3天前
|
数据采集 JSON 测试技术
Python爬虫神器requests库的使用
在现代编程中,网络请求是必不可少的部分。本文详细介绍 Python 的 requests 库,一个功能强大且易用的 HTTP 请求库。内容涵盖安装、基本功能(如发送 GET 和 POST 请求、设置请求头、处理响应)、高级功能(如会话管理和文件上传)以及实际应用场景。通过本文,你将全面掌握 requests 库的使用方法。🚀🌟
19 7
|
5天前
|
数据采集 Web App开发 前端开发
Python爬虫进阶:Selenium在动态网页抓取中的实战
【10月更文挑战第26天】动态网页抓取是网络爬虫的难点,因为数据通常通过JavaScript异步加载。Selenium通过模拟浏览器行为,可以加载和执行JavaScript,从而获取动态网页的完整内容。本文通过实战案例,介绍如何使用Selenium在Python中抓取动态网页。首先安装Selenium库和浏览器驱动,然后通过示例代码展示如何抓取英国国家美术馆的图片信息。
24 6
|
2天前
|
数据采集 Web App开发 JavaScript
爬虫策略规避:Python爬虫的浏览器自动化
爬虫策略规避:Python爬虫的浏览器自动化
|
3天前
|
数据采集 存储 XML
Python实现网络爬虫自动化:从基础到实践
本文将介绍如何使用Python编写网络爬虫,从最基础的请求与解析,到自动化爬取并处理复杂数据。我们将通过实例展示如何抓取网页内容、解析数据、处理图片文件等常用爬虫任务。
|
5天前
|
数据采集 前端开发 中间件
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第26天】Python是一种强大的编程语言,在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架,为开发者提供了强大的工具集。本文通过实战案例,详细解析Scrapy框架的应用与技巧,并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。
23 4
|
5天前
|
数据采集 Web App开发 iOS开发
如何利用 Python 的爬虫技术获取淘宝天猫商品的价格信息?
本文介绍了使用 Python 爬虫技术获取淘宝天猫商品价格信息的两种方法。方法一使用 Selenium 模拟浏览器操作,通过定位页面元素获取价格;方法二使用 Requests 和正则表达式直接请求页面内容并提取价格。每种方法都有详细步骤和代码示例,但需注意反爬措施和法律法规。
|
5天前
|
数据采集 存储 Web App开发
利用Python 的爬虫技术淘宝天猫销量和库存
使用 Python 爬虫技术获取淘宝天猫商品销量和库存的步骤包括:1. 安装 Python 和相关库(如 selenium、pandas),下载浏览器驱动;2. 使用 selenium 登录淘宝或天猫;3. 访问商品页面,分析网页结构,提取销量和库存信息;4. 处理和存储数据。注意网页结构可能变化,需遵守法律法规。
|
5天前
|
Java 数据库连接 数据库
深入探讨Java连接池技术如何通过复用数据库连接、减少连接建立和断开的开销,从而显著提升系统性能
在Java应用开发中,数据库操作常成为性能瓶颈。本文通过问题解答形式,深入探讨Java连接池技术如何通过复用数据库连接、减少连接建立和断开的开销,从而显著提升系统性能。文章介绍了连接池的优势、选择和使用方法,以及优化配置的技巧。
10 1
|
3月前
|
数据采集 存储 中间件
Python进行网络爬虫:Scrapy框架的实践
【8月更文挑战第17天】网络爬虫是自动化程序,用于从互联网收集信息。Python凭借其丰富的库和框架成为构建爬虫的首选语言。Scrapy作为一款流行的开源框架,简化了爬虫开发过程。本文介绍如何使用Python和Scrapy构建简单爬虫:首先安装Scrapy,接着创建新项目并定义爬虫,指定起始URL和解析逻辑。运行爬虫可将数据保存为JSON文件或存储到数据库。此外,Scrapy支持高级功能如中间件定制、分布式爬取、动态页面渲染等。在实践中需遵循最佳规范,如尊重robots.txt协议、合理设置爬取速度等。通过本文,读者将掌握Scrapy基础并了解如何高效地进行网络数据采集。
191 6