如何自动化查询TESCO商品信息

简介: 可以在网站https://www.tesco.com/查询食品、饮料、家居用品、电器、玩具等商品。如果需要定期获取商品信息,可以使用爬虫程序进行采集。但是直接访问链接获取会被网站拒绝响应,因此需要进行如下优化。

显示器10.jpg

Tesco是全球三大零售企业之一,成立于1932年,是英国最大的零售公司之一,也是世界三大零售商之一。可以在它的网站https://www.tesco.com/查询食品、饮料、家居用品、电器、玩具等商品。如果需要定期获取商品信息,可以使用爬虫程序进行采集。但是直接访问链接获取会被网站拒绝响应,因此需要进行如下优化:

1、User-Agent随机设置

因为User-Agent是请求头的一部分,它包含了浏览器的信息,如浏览器类型、版本、操作系统等。如果每次请求都使用相同的User-Agent,那么网站很容易识别出这是一个爬虫程序,从而采取反爬虫措施。通过使用多个User-Agent随机调用的方式,可以避免一个请求头长时间访问。

2、获取重定向URL

在不发送 cookie 的情况下查看 from:htmlrequests.get

<!DOCTYPE html>
<html>
  <head>
    <meta charset="utf-8">
    <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">
    <meta http-equiv="refresh" content="5; URL='/groceries/hu-HU/shop/alkohol/sor-cider/all?bm-verify=AAQAAAAH_...

可以看到有一个正在将您的浏览器重定向到其中包含的URL http-equiv="refresh"content="...",可以提取 URL 并跟踪重定向。

3、使用爬虫代理IP

代理IP是指通过第三方服务器的IP地址,用来隐藏爬虫服务器真实的IP地址,从而达到匿名访问网站的目的。使用代理IP可以避免被网站封禁IP,从而保证爬虫程序的正常运行。


结合上述的优化策略,提供相应的demo如下:

importrequestsfromscrapyimportSelectorimportrandomimportbase64#亿牛云(动态转发隧道代理)# 爬虫代理加强版 代理服务器proxyHost="www.16yun.cn"proxyPort="31111"# 爬虫代理加强版 代理验证信息proxyUser="16YUN"proxyPass="16IP"proxyMeta="http://%(user)s:%(pass)s@%(host)s:%(port)s"% {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}
# 设置 http和https访问都是用HTTP代理proxies= {
"http"  : proxyMeta,
"https" : proxyMeta,
}
user_agents= [
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36',
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36',
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36'# 添加更多的User-Agent值]
headers= {
'User-Agent': random.choice(user_agents),  # 随机选择一个User-Agent值  }
site='https://bevasarlas.tesco.hu'page_url=site+'/groceries/hu-HU/shop/alkohol/sor-cider/all'html=requests.get(page_url, proxies=proxies, headers=headers)
sel=Selector(text=html)
# 从`content`属性提取URLhref=sel.xpath('//meta[@http-equiv]/@content').get().split('=', maxsplit=1)[1].strip('\'')
# 跟随重定向html=requests.get(url=site+href,proxies=proxies, headers=headers)
sel=Selector(text=html)
scraped_data=sel.xpath('//li[contains(@class, "product-list--list-item")]')
card=scraped_data[0]
name=card.xpath('.//span[@class="styled__Text-sc-1xbujuz-1 ldbwMG beans-link__text"]/text()').extract()
print(name)


相关文章
|
8天前
|
缓存 监控 API
微店商品详情API接口实战指南:从零实现商品数据自动化获取
本文介绍了微店商品详情API接口的应用,涵盖申请与鉴权、签名加密、数据解析等内容。通过Python实战演示了5步获取商品数据的流程,并提供了多平台同步、价格监控等典型应用场景。开发者可利用此接口实现自动化操作,提升电商运营效率,降低人工成本。文中还总结了频率限制、数据缓存等避坑指南,助力开发者高效使用API。
|
3月前
|
存储 缓存 运维
阿里云先知安全沙龙(上海站)——后渗透阶段主机关键信息自动化狩猎的实现与应用
本文介绍了在后渗透测试中使用LSTAR工具和PowerShell脚本进行RDP状态查询、端口获取及凭据收集的过程,强调了高强度实战场景下的OPSEC需求。通过MITRE ATT&CK框架的应用,详细阐述了凭证访问、发现和收集等关键技术,确保攻击者能够隐蔽、持续且高效地渗透目标系统,最终获取核心数据或控制权。文中还展示了SharpHunter等工具的自动化实现,进一步提升了操作的安全性和效率。
|
5月前
|
数据采集 监控 数据挖掘
CSV文件自动化生成:用Pandas与Datetime高效处理京东商品信息
在电商竞争激烈的背景下,实时掌握商品价格和库存信息至关重要。本文介绍如何使用Python的`pandas`和`datetime`库从京东抓取商品名称、价格等信息,并生成CSV文件。结合代理IP技术,提升爬取效率和稳定性。通过设置请求头、使用代理IP和多线程技术,确保数据抓取的连续性和成功率。最终,数据将以带时间戳的CSV文件形式保存,方便后续分析。
172 2
|
7月前
|
数据采集 存储 监控
用爬虫技术玩转石墨文档:自动化数据处理与信息提取的新探索
在当今数字化时代,文档协作与管理成为了职场人士日常工作中不可或缺的一部分。石墨文档,作为一款功能强大的在线文档工具,凭借其云端存储、多人实时协作、丰富的文档格式支持等特点,赢得了广泛的用户群体。然而,随着数据量的激增,如何高效地管理和利用这些数据成为了一个亟待解决的问题。此时,爬虫技术便成为了我们玩转石墨文档、实现自动化数据处理与信息提取的强大工具。
124 0
|
7月前
|
XML JSON 监控
淘宝商品数据接口实战:自动化监控与竞品分析
淘宝开放平台提供的商品列表数据接口是一种API,使开发者能编程获取淘宝商品数据。主要功能包括按关键词、分类等获取商品列表及其详情,并支持分页、排序及多维度筛选。常见参数有关键词、页码、排序方式等。使用需注册账号获取API密钥,构建并发送HTTP请求,解析JSON/XML响应数据进行业务处理。此接口适用于商品监控、市场分析等多种场景。[体验API](http://u6v.cn/5W41Dx)
|
8月前
|
数据采集 存储 API
在信息时代,Python爬虫用于自动化网络数据采集,提高效率。
【7月更文挑战第5天】在信息时代,Python爬虫用于自动化网络数据采集,提高效率。基本概念包括发送HTTP请求、解析HTML、存储数据及异常处理。常用库有requests(发送请求)和BeautifulSoup(解析HTML)。基本流程:导入库,发送GET请求,解析网页提取数据,存储结果,并处理异常。应用案例涉及抓取新闻、商品信息等。
134 2
|
9月前
|
安全 生物认证 网络安全
信息打点-红蓝队自动化项目&资产侦察&武器库部署&企查产权&网络空间
信息打点-红蓝队自动化项目&资产侦察&武器库部署&企查产权&网络空间
130 0
|
10月前
|
监控 数据挖掘 API
京东商品API接口:电商数据自动化的钥匙
京东商品API接口为电商领域带来了巨大的便利和潜力。通过本篇文章,读者应该能够了解如何使用京东商品API接口,并通过示例代码学习如何实际调用API获取商品数据。 随着技术的不断发展,京东商品API接口将继续为电商自动化、数据分析和市场研究提供支持,帮助商家和开发者在竞争激烈的市场中保持领先。我们鼓励读者继续探索和学习,充分利用京东商品API接口带来的机遇。
|
10月前
|
存储 弹性计算 运维
自动化客服响应与知识库查询
【4月更文挑战第30天】
108 0
|
10月前
|
弹性计算 JSON Shell
基于Web API的自动化信息收集和整理
【4月更文挑战第30天】
119 0

热门文章

最新文章