python数据抓取分析(python + mongodb)

本文涉及的产品
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
简介: 分享点干货!!! Python数据抓取分析 编程模块:requests,lxml,pymongo,time,BeautifulSoup 首先获取所有产品的分类网址: 1 def step(): 2 try: 3 headers = { 4 。

分享点干货!!!

Python数据抓取分析

编程模块:requests,lxml,pymongo,time,BeautifulSoup

首先获取所有产品的分类网址:

 1 def step():
 2     try:
 3         headers = {
 4            。。。。。
 5             }
 6         r = requests.get(url,headers,timeout=30)
 7         html = r.content
 8         soup = BeautifulSoup(html,"lxml")
 9         url = soup.find_all(正则表达式)
10         for i in url:
11             url2 =  i.find_all('a')
12             for j in url2:
13                  step1url =url + j['href']
14                  print step1url
15                  step2(step1url)
16     except Exception,e:
17         print e

 

我们在产品分类的同时需要确定我们所访问的地址是产品还是又一个分类的产品地址(所以需要判断我们访问的地址是否含有if判断标志):

 1 def step2(step1url):
 2     try:
 3         headers = {
 4            。。。。
 5             }
 6         r = requests.get(step1url,headers,timeout=30)
 7         html = r.content
 8         soup = BeautifulSoup(html,"lxml")
 9         a = soup.find('div',id='divTbl')
10         if a:
11             url = soup.find_all('td',class_='S-ITabs')
12             for i in url:
13                 classifyurl =  i.find_all('a')
14                 for j in classifyurl:
15                      step2url = url + j['href']
16                      #print step2url
17                      step3(step2url)
18         else:
19             postdata(step1url)

当我们if判断后为真则将第二页的分类网址获取到(第一个步骤),否则执行postdata函数,将网页产品地址抓取!

 1 def producturl(url):
 2     try:
 3         p1url = doc.xpath(正则表达式)
 4         for i in xrange(1,len(p1url) + 1):
 5             p2url = doc.xpath(正则表达式)
 6             if len(p2url) > 0:
 7                 producturl = url + p2url[0].get('href')
 8                 count = db[table].find({'url':producturl}).count()
 9                 if count <= 0:
10                         sn = getNewsn()
11                         db[table].insert({"sn":sn,"url":producturl})
12                         print str(sn) + 'inserted successfully'
13                 else:
14                         'url exist'
15 
16     except Exception,e:
17         print e

其中为我们所获取到的产品地址并存入mongodb中,sn作为地址的新id。

下面我们需要在mongodb中通过新id索引来获取我们的网址并进行访问,对产品进行数据分析并抓取,将数据更新进数据库内!

其中用到最多的BeautifulSoup这个模块,但是对于存在于js的价值数据使用BeautifulSoup就用起来很吃力,所以对于js中的数据我推荐使用xpath,但是解析网页就需要用到HTML.document_fromstring(url)方法来解析网页。

对于xpath抓取价值数据的同时一定要细心!如果想了解xpath就在下面留言,我会尽快回答!

 1 def parser(sn,url):
 2     try:
 3         headers = {
 4             。。。。。。
 5             }
 6         r = requests.get(url, headers=headers,timeout=30)
 7         html = r.content
 8         soup = BeautifulSoup(html,"lxml")
 9         dt = {}
10         #partno
11         a = soup.find("meta",itemprop="mpn")
12         if a:
13             dt['partno'] = a['content']
14         #manufacturer
15         b = soup.find("meta",itemprop="manufacturer")
16         if b:
17             dt['manufacturer'] = b['content']
18         #description
19         c = soup.find("span",itemprop="description")
20         if c:
21             dt['description'] = c.get_text().strip()
22         #price
23         price = soup.find("table",class_="table table-condensed occalc_pa_table")
24         if price:
25             cost = {}
26             for i in price.find_all('tr'):
27                 if len(i) > 1:
28                     td = i.find_all('td')
29                     key=td[0].get_text().strip().replace(',','')
30                     val=td[1].get_text().replace(u'\u20ac','').strip()
31                     if key and val:
32                         cost[key] = val
33             if cost:
34                 dt['cost'] = cost
35                 dt['currency'] = 'EUR'
36         
37         #quantity
38         d = soup.find("input",id="ItemQuantity")
39         if d:
40            dt['quantity'] = d['value']
41         #specs
42         e = soup.find("div",class_="row parameter-container")
43         if e:
44             key1 = []
45             val1= []
46             for k in e.find_all('dt'):
47                 key =  k.get_text().strip().strip('.')
48                 if key:
49                     key1.append(key)
50             for i in e.find_all('dd'):
51                 val =  i.get_text().strip()
52                 if val:
53                     val1.append(val)
54             specs = dict(zip(key1,val1))
55         if specs:
56             dt['specs'] = specs
57             print dt
58 
59             
60         if dt:
61             db[table].update({'sn':sn},{'$set':dt})
62             print str(sn) +  ' insert successfully'
63             time.sleep(3)
64         else:
65             error(str(sn) + '\t' + url)
66     except Exception,e:
67         error(str(sn) + '\t' + url)
68         print "Don't data!"

最后全部程序运行,将价值数据分析处理并存入数据库中!

 

Welcome to Python world! I have a contract in this world! How about you?
相关实践学习
MongoDB数据库入门
MongoDB数据库入门实验。
快速掌握 MongoDB 数据库
本课程主要讲解MongoDB数据库的基本知识,包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用(唯一索引、地理索引、过期索引、全文索引等)、MapReduce操作实现、用户管理、Java对MongoDB的操作支持(基于2.x驱动与3.x驱动的完全讲解)。 通过学习此课程,读者将具备MongoDB数据库的开发能力,并且能够使用MongoDB进行项目开发。 &nbsp; 相关的阿里云产品:云数据库 MongoDB版 云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。 云数据库MongoDB版(ApsaraDB for MongoDB)完全兼容MongoDB协议,基于飞天分布式系统和高可靠存储引擎,提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。 产品详情: https://www.aliyun.com/product/mongodb
相关文章
|
3天前
|
SQL 自然语言处理 数据库
【Azure Developer】分享两段Python代码处理表格(CSV格式)数据 : 根据每列的内容生成SQL语句
本文介绍了使用Python Pandas处理数据收集任务中格式不统一的问题。针对两种情况:服务名对应多人拥有状态(1/0表示),以及服务名与人名重复列的情况,分别采用双层for循环和字典数据结构实现数据转换,最终生成Name对应的Services列表(逗号分隔)。此方法高效解决大量数据的人工处理难题,减少错误并提升效率。文中附带代码示例及执行结果截图,便于理解和实践。
|
2月前
|
缓存 Rust 算法
从混沌到秩序:Python的依赖管理工具分析
Python 的依赖管理工具一直没有标准化,主要原因包括历史发展的随意性、社区的分散性、多样化的使用场景、向后兼容性的挑战、缺乏统一治理以及生态系统的快速变化。依赖管理工具用于处理项目中的依赖关系,确保不同环境下的依赖项一致性,避免软件故障和兼容性问题。常用的 Python 依赖管理工具如 pip、venv、pip-tools、Pipenv、Poetry 等各有优缺点,选择时需根据项目需求权衡。新工具如 uv 和 Pixi 在性能和功能上有所改进,值得考虑。
105 35
|
1月前
|
数据采集 JSON 测试技术
如何在Python中高效实现CSV到JSON的数据转换
在实际项目中,数据格式转换是常见问题,尤其从CSV到JSON的转换。本文深入探讨了多种转换方法,涵盖Python基础实现、数据预处理、错误处理、性能优化及调试验证技巧。通过分块处理、并行处理等手段提升大文件转换效率,并介绍如何封装为命令行工具或Web API,实现自动化批量处理。关键点包括基础实现、数据清洗、异常捕获、性能优化和单元测试,确保转换流程稳定高效。
156 83
|
4天前
|
NoSQL MongoDB 数据库
微服务——MongoDB实战演练——表结构分析
本文档来源于数据库articledb,展示了一张图片资源。图片宽度为1207像素,高度607像素,采用内联显示方式。内容涉及图像处理与样式设定,适用于文档或网页设计中多媒体元素的布局参考。图片来源为cdn.nlark.com,支持webp格式并附带水印处理。
14 1
微服务——MongoDB实战演练——表结构分析
|
5天前
|
数据库 Python
【YashanDB知识库】python驱动查询gbk字符集崖山数据库CLOB字段,数据被驱动截断
【YashanDB知识库】python驱动查询gbk字符集崖山数据库CLOB字段,数据被驱动截断
|
23天前
|
JSON API 数据格式
Python 请求微店商品详情数据 API 接口
微店开放平台允许开发者通过API获取商品详情数据。使用Python请求微店商品详情API的主要步骤包括:1. 注册并申请API权限,获得app_key和app_secret;2. 确定API接口地址与请求参数,如商品ID;3. 生成签名确保请求安全合法;4. 使用requests库发送HTTP请求获取数据;5. 处理返回的JSON格式响应数据。开发时需严格遵循微店API文档要求。
|
19天前
|
数据采集 XML 存储
Python爬虫实战:一键采集电商数据,掌握市场动态!
这个爬虫还挺实用,不光能爬电商数据,改改解析规则,啥数据都能爬。写爬虫最重要的是要有耐心,遇到问题别着急,慢慢调试就成。代码写好了,运行起来那叫一个爽,分分钟几千条数据到手。
|
2月前
|
并行计算 安全 Java
Python GIL(全局解释器锁)机制对多线程性能影响的深度分析
在Python开发中,GIL(全局解释器锁)一直备受关注。本文基于CPython解释器,探讨GIL的技术本质及其对程序性能的影响。GIL确保同一时刻只有一个线程执行代码,以保护内存管理的安全性,但也限制了多线程并行计算的效率。文章分析了GIL的必要性、局限性,并介绍了多进程、异步编程等替代方案。尽管Python 3.13计划移除GIL,但该特性至少要到2028年才会默认禁用,因此理解GIL仍至关重要。
196 16
Python GIL(全局解释器锁)机制对多线程性能影响的深度分析
|
1月前
|
数据采集 数据安全/隐私保护 Python
从零开始:用Python爬取网站的汽车品牌和价格数据
在现代化办公室中,工程师小李和产品经理小张讨论如何获取懂车帝网站的汽车品牌和价格数据。小李提出使用Python编写爬虫,并通过亿牛云爬虫代理避免被封禁。代码实现包括设置代理、请求头、解析网页内容、多线程爬取等步骤,确保高效且稳定地抓取数据。小张表示理解并准备按照指导操作。
102 6
从零开始:用Python爬取网站的汽车品牌和价格数据
|
20天前
|
存储 监控 API
1688平台API接口实战:Python实现店铺全量商品数据抓取
本文介绍如何使用Python通过1688开放平台的API接口自动化抓取店铺所有商品数据。首先,开发者需在1688开放平台完成注册并获取App Key和App Secret,申请“商品信息查询”权限。接着,利用`alibaba.trade.product.search4trade`接口,构建请求参数、生成MD5签名,并通过分页机制获取全量商品数据。文中详细解析了响应结构、存储优化及常见问题处理方法,还提供了竞品监控、库存预警等应用场景示例和完整代码。