【原创】淘宝关键词搜索爬取与解析

简介: 【原创】淘宝关键词搜索爬取与解析
本文所有教程及源码、软件仅为技术研究。不涉及计算机信息系统功能的删除、修改、增加、干扰,更不会影响计算机信息系统的正常运行。不得将代码用于非法用途,如侵立删!

淘宝关键词搜索及X5滑块

环境

  • win10、mac
  • Python3.9

根据关键词获取品牌列表

先根据搜索关键词获取到所有的品牌id:也就是ppath参数,目的是这样可以筛选更精准的数据,因为默认只显示100页数据

   defget_brand(self):

       """

       根据关键词获取品牌列表

       """

       headers= {

           "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",

           "Accept-Language": "zh-CN,zh;q=0.9",

           "Cache-Control": "no-cache",

           "Connection": "keep-alive",

           "Pragma": "no-cache",

           "Referer": "https://s.taobao.com/search?q=^%^E7^%^AC^%^94^%^E8^%^AE^%^B0^%^E6^%^9C^%^AC^%^E7^%^94^%^B5^%^E8^%^84^%^91&imgfile=&js=1&stats_click=search_radio_tmall^%^3A1&initiative_id=staobaoz_20230127&tab=mall&ie=utf8&bcoffset=0&p4ppushleft=^%^2C44&style=grid&s=0",

           "Sec-Fetch-Dest": "document",

           "Sec-Fetch-Mode": "navigate",

           "Sec-Fetch-Site": "same-origin",

           "Sec-Fetch-User": "?1",

           "Upgrade-Insecure-Requests": "1",

           "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36",

           "sec-ch-ua": "^\\^Not_A",

           "sec-ch-ua-mobile": "?0",

           "sec-ch-ua-platform": "^\\^Windows^^",

       }

       cookies= {

           "cookie2": "1c1f03c4df47307258a30c65ce1db555",

       }

       url="https://s.taobao.com/search"

       params= {

           "q": self.word,

           "imgfile": "",

           "js": "1",

           "stats_click": "search_radio_tmall^%^3A1",

           "initiative_id": "staobaoz_20230127",

           "tab": "mall",

           "ie": "utf8",

           "style": "grid"

       }

       # response = requests.get(url, headers=headers, params=params)

       response=self._parse_url(url=url, headers=headers, params=params)

       ifnotresponse:

           yieldNone

       # print(response.text)

       res=re.findall(r'g_page_config = (.*?)};', response.text, re.M|re.S)

       ifnotres:

           yieldNone

       datas=jsonpath.jsonpath(json.loads(res[0] +"}"), "$..sub")

       ifnotdatas:

           yieldNone

       fordataindatas[0]:

           yielddata

根据关键词、品牌、销量搜索商品列表

具体的参数多抓几个包对比一下,很容易就分析出来了

   defget_products(self, ppath, page):

       """

       获取商品列表 根据销量排序

       ppath:品牌代码

       page:翻页

       """

       headers= {

           "Accept": "*/*",

           "Accept-Language": "zh-CN,zh;q=0.9",

           "Cache-Control": "no-cache",

           "Connection": "keep-alive",

           "Pragma": "no-cache",

           "Referer": "https://s.taobao.com/search?q=^%^E7^%^AC^%^94^%^E8^%^AE^%^B0^%^E6^%^9C^%^AC^%^E7^%^94^%^B5^%^E8^%^84^%^91&imgfile=&js=1&style=grid&stats_click=search_radio_tmall^%^3A1&initiative_id=staobaoz_20230127&tab=mall&ie=utf8&bcoffset=0&p4ppushleft=^%^2C44&cps=yes&ppath=20000^%^3A11119&sort=sale-desc&s=44",

           "Sec-Fetch-Dest": "script",

           "Sec-Fetch-Mode": "no-cors",

           "Sec-Fetch-Site": "same-origin",

           "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36",

           "sec-ch-ua": "^\\^Not_A",

           "sec-ch-ua-mobile": "?0",

           "sec-ch-ua-platform": "^\\^Windows^^",

       }

       url="https://s.taobao.com/search"

       params= {

           "data-key": "s",

           "data-value": page,

           "ajax": "true",

           "_ksTS": "1674837683322_2012",

           "callback": "jsonp2013",

           "q": self.word,

           "imgfile": "",

           "js": "1",

           "style": "grid",

           "stats_click": "search_radio_tmall^%^3A1",

           "initiative_id": "staobaoz_20230127",

           "tab": "mall",

           "ie": "utf8",

           "bcoffset": "0",

           "p4ppushleft": "^%^2C44",

           "cps": "yes",

           "ppath": ppath,

           "sort": "sale-desc",

           "s": ''

       }

       # 第一页的时候请求参数不一样

       ifpage==1:

           params['data-value'] ='0,1'

           params['data-key'] ='s,ps'

           params['s'] = (int(page) -1) *44

       else:

           params['data-value'] =int(page) *44

           params['s'] = (int(page)-1) *44

       response=requests.get(url, headers=headers, params=params)

       returnresponse.text

滑块处理

触发滑块后,搜索并定位appkey,抓到punish.js提取验证所需参数:''appkey': 'X82Y__4efeef942d19c56bafab18ba3da969f4''token': '1c797559e58912c4ee46af4bd6371aec',生成x5sec:"7b2277616762726964676561643b32223a223037393766353232633166646661326337346262333664616130356462383031434e434337497747454e7a746b2b7a356f493771495367454d4b447a344a4146227d"  

效果

资源下载

数据demo下载:https://mp.csdn.net/mp_download/manage/download/UpDetailed


本文仅供学习交流使用,如侵立删!


相关文章
|
11月前
|
API 数据处理 开发者
获取淘宝分类详情:深入解析taobao.cat_get API接口
淘宝开放平台推出的`taobao.cat_get` API接口,帮助开发者和商家获取淘宝、天猫的商品分类详情。该接口支持获取类目列表、属性及父类目信息,通过指定分类ID(cid)实现精准查询,并提供灵活的参数设置和高效的数据处理。使用流程包括注册账号、创建应用、获取App Key/Secret、构造请求、发送并解析响应。示例代码展示了如何用Python调用此API。开发者可借此为电商项目提供数据支持。
|
9月前
|
数据采集 安全 数据挖掘
淘宝天猫宝贝详情页面商品评论采集接口全解析
淘宝天猫商品评论采集接口为电商数据挖掘提供了重要工具。通过分析海量评论,消费者可获取购买决策参考,商家能优化产品与服务,市场研究者则能洞察行业趋势与竞品表现。该接口支持Python请求,助力开发者构建智能分析应用,推动电商生态中各方价值提升。使用时需遵守平台规则,确保数据安全与合法利用。
275 15
|
9月前
|
机器学习/深度学习 JSON 算法
淘宝拍立淘按图搜索API接口系列的应用与数据解析
淘宝拍立淘按图搜索API接口是阿里巴巴旗下淘宝平台提供的一项基于图像识别技术的创新服务。以下是对该接口系列的应用与数据解析的详细分析
|
10月前
|
搜索推荐 数据挖掘 API
Lazada 淘宝详情 API 的价值与应用解析
在全球化电商浪潮下,Lazada 和淘宝作为东南亚和中国电商市场的关键力量,拥有海量商品数据和庞大用户群体。详情 API 接口为电商开发者、商家和分析师提供了获取商品详细信息(如描述、价格、库存、评价等)的工具,助力业务决策与创新。本文深入解析 Lazada 和淘宝详情 API 的应用场景及价值,并提供 Python 调用示例,帮助读者更好地理解和运用这两个强大的工具。
253 18
|
10月前
|
数据采集 监控 搜索推荐
深度解析淘宝商品详情API接口:解锁电商数据新维度,驱动业务增长
淘宝商品详情API接口,是淘宝开放平台为第三方开发者提供的一套用于获取淘宝、天猫等电商平台商品详细信息的应用程序接口。该接口涵盖了商品的基本信息(如标题、价格、图片)、属性参数、库存状况、销量评价、物流信息等,是电商企业实现商品管理、市场分析、营销策略制定等功能的得力助手。
|
9月前
|
JSON API 数据格式
淘宝商品评论API接口系列的应用与数据解析
在电商平台中,用户评论是了解商品质量、服务水平和用户满意度的重要数据来源。淘宝作为中国最大的电商平台,提供了商品评论API接口,帮助开发者获取和分析用户评价数据。本文将介绍淘宝商品评论API接口系列的作用、使用方法,并通过示例展示如何调用API并解析返回的JSON数据。
|
9月前
|
存储 自然语言处理 监控
深度解析淘宝商品评论API接口:技术实现与应用实践
淘宝商品评论API接口是电商数据驱动的核心工具,帮助开发者高效获取用户评价、画像及市场趋势。其核心功能包括多维度信息采集、筛选排序、动态更新、OAuth 2.0认证和兼容多种请求方式。通过该接口,开发者可进行商品优化、竞品分析、舆情监控等。本文详细解析其技术原理、实战应用及挑战应对策略,助力开启数据驱动的电商运营新篇章。
|
11月前
|
JSON 供应链 搜索推荐
淘宝APP分类API接口:开发、运用与收益全解析
淘宝APP作为国内领先的购物平台,拥有丰富的商品资源和庞大的用户群体。分类API接口是实现商品分类管理、查询及个性化推荐的关键工具。通过开发和使用该接口,商家可以构建分类树、进行商品查询与搜索、提供个性化推荐,从而提高销售额、增加商品曝光、提升用户体验并降低运营成本。此外,它还能帮助拓展业务范围,满足用户的多样化需求,推动电商业务的发展和创新。
364 5
|
12月前
|
数据采集 JSON API
如何利用Python爬虫淘宝商品详情高级版(item_get_pro)API接口及返回值解析说明
本文介绍了如何利用Python爬虫技术调用淘宝商品详情高级版API接口(item_get_pro),获取商品的详细信息,包括标题、价格、销量等。文章涵盖了环境准备、API权限申请、请求构建和返回值解析等内容,强调了数据获取的合规性和安全性。
|
12月前
|
数据采集 XML 数据格式
解析Amazon搜索结果页面:使用BeautifulSoup
解析Amazon搜索结果页面:使用BeautifulSoup

推荐镜像

更多
  • DNS