Python案例篇:迟来的520礼物采集,没准明年就能用上了

简介: Python案例篇:迟来的520礼物采集,没准明年就能用上了

不过对于辣条这么有情商的人是完全不可能犯这样的错误的,这时候我又掏出了我的杀手锏,直接采集数据分析,大数据会给我答案~
目录
前言
工具准备
效果展示
项目思路解析
简易源码分享

工具准备
开发工具:pycharm
开发环境:python3.7, Windows10
使用工具包:requests, csv, re

效果展示

项目思路解析
首先对当前的网页进行分析,明确我们需要采集哪些数据信息,既然是520的节日礼物那我们肯定会关心它的标题,销量,地址,展示图片,店铺名,先对它的页面进行分析看看他的数据是动态还是静态数据,在浏览器页面鼠标右击点击查看网页源代码,看看是否存在我们想要的数据信息

可以看到我们想要的数据在源代码里,数据为静态数据,我们直接请求当前的网址就行,发送网请求之后需要进行数据的筛选筛选数据的方法有很多,可以使用xpath,也可以使用正则,我们今天用正则的方式提取数据信息,将获取到的数据进行筛选,获取到我们想要的数据信息,正则表达式会专门出一篇文章讲解,将我们的数据保存在csv的文件里

简易源码分享

import csv
import json
import random
import time

import requests
import re

headers = {

'referer': 'https://s.网址.com/',
'cookie': '',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36',

}

def save_data(data):

f = open('520女友礼物.csv', "a", newline="", encoding='utf-8')
csv_writer = csv.DictWriter(f, fieldnames=['标题', '价格', '购买人数', '地点', '网址', '图片地址', '评论数', '店铺'])
csv_writer.writerow(data)

def get_data(url):

response = requests.get(url, headers=headers)
print(response.text)
data = re.findall('"auctions":(.*?),"recommendAuctions', response.text)[0]
for info in json.loads(data):
    item = {}
    item['网址'] = info['detail_url']
    item['标题'] = info['raw_title']
    item['图片地址'] = info['pic_url']
    item['价格'] = info['view_price']
    item['地点'] = info['item_loc']
    item['购买人数'] = info.get('view_sales')
    item['评论数'] = info['comment_count']
    item['店铺'] = info['nick']
    print(item)
    save_data(item)


if name == '__main__':

key = "520女友礼物"
file = open('{}.csv'.format(key), "w", encoding="utf-8-sig", newline='')
csv_head = csv.writer(file)
# 表头
header = ['标题', '价格', '购买人数', '地点', '网址', '图片地址', '评论数', '店铺']
csv_head.writerow(header)

for i in range(1, 4):
    url = 'https://s.taobao.com/search?q={}&s={}'.format(key, str(i*44))
    get_data(url)
    time.sleep(5)
目录
相关文章
|
5月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
5月前
|
JSON API 数据安全/隐私保护
Python采集淘宝拍立淘按图搜索API接口及JSON数据返回全流程指南
通过以上流程,可实现淘宝拍立淘按图搜索的完整调用链路,并获取结构化的JSON商品数据,支撑电商比价、智能推荐等业务场景。
|
8月前
|
JSON API 数据格式
Python采集京东商品评论API接口示例,json数据返回
下面是一个使用Python采集京东商品评论的完整示例,包括API请求、JSON数据解析
|
5月前
|
数据采集 监控 数据库
Python异步编程实战:爬虫案例
🌟 蒋星熠Jaxonic,代码为舟的星际旅人。从回调地狱到async/await协程天堂,亲历Python异步编程演进。分享高性能爬虫、数据库异步操作、限流监控等实战经验,助你驾驭并发,在二进制星河中谱写极客诗篇。
Python异步编程实战:爬虫案例
|
6月前
|
JSON API 数据安全/隐私保护
Python采集淘宝评论API接口及JSON数据返回全流程指南
Python采集淘宝评论API接口及JSON数据返回全流程指南
|
6月前
|
设计模式 缓存 运维
Python装饰器实战场景解析:从原理到应用的10个经典案例
Python装饰器是函数式编程的精华,通过10个实战场景,从日志记录、权限验证到插件系统,全面解析其应用。掌握装饰器,让代码更优雅、灵活,提升开发效率。
428 0
|
7月前
|
API Python
Python采集淘宝店铺所有商品API接口指南
淘宝没有公开的官方API供采集店铺商品数据,但可以通过以下几种方法获取商品信息。需要注意的是,淘宝有严格的反爬机制,直接采集可能违反其服务条款。
|
8月前
|
数据采集 XML 数据处理
淘宝商家采集工具,淘宝买家联系方式采集,淘宝卖家旺旺采集软件【python】
以上代码实现了一个基础的淘宝数据采集框架,包含爬虫核心、数据处理和代理管理三个模块。
|
9月前
|
数据采集 数据可视化 JavaScript
用Python采集CBC新闻:如何借助海外代理IP构建稳定采集方案
本文介绍了如何利用Python技术栈结合海外代理IP采集加拿大CBC新闻数据。内容涵盖使用海外代理IP的必要性、青果代理IP的优势、实战爬取流程、数据清洗与可视化分析方法,以及高效构建大规模新闻采集方案的建议。适用于需要获取国际政治经济动态信息的商业决策、市场预测及学术研究场景。
|
10月前
|
数据采集 自然语言处理 Java
Playwright 多语言一体化——Python/Java/.NET 全栈采集实战
本文以反面教材形式,剖析了在使用 Playwright 爬取懂车帝车友圈问答数据时常见的配置错误(如未设置代理、Cookie 和 User-Agent),并提供了 Python、Java 和 .NET 三种语言的修复代码示例。通过错误示例 → 问题剖析 → 修复过程 → 总结教训的完整流程,帮助读者掌握如何正确配置爬虫代理及其它必要参数,避免 IP 封禁和反爬检测,实现高效数据采集与分析。
628 3
Playwright 多语言一体化——Python/Java/.NET 全栈采集实战

推荐镜像

更多