获取携程网站上指定景点的用户评论数据

简介: 获取携程网站上指定景点的用户评论数据

古人说:成功的关键在于坚持不懈,所以小编晚上跟着B站一起学习了,并写出了这篇文章,学习在于努力

本文获取的是携程旅游网站中不同景点的评论数据,

1.导入相应的模块

import requests
import json
import csv

2.定义postUrl变量为携程网站评论数据请求的URL。接着定义urls列表,包含不同景点的poiId和名称

postUrl = "https://m.ctrip.com/restapi/soa2/13444/json/getCommentCollapseList"
# 将景点poiId和名称添加到此处
urls = [
    ['76865', '星海广场'],
    ['75628', '棒棰岛'],
    ['75633', '大连森林动物园'],
    ['60514877', '三寰牧场'],
    ['75635', '劳动公园'],
    ['23035466', '东港音乐喷泉广场'],
    ['79494', '海之韵广场'],
    ['87618', '金石滩度假区'],
    ['87748', '滨海路'],
    ['87647', '滨海国家地质公园'],
    ['24845945', '莲花山观景台'],
    ['92196', '白玉山景区'],
    ['13301914', '大连天门山国家森林公园'],
]

3.遍历urls列表,对于每个景点,首先定义data_pre变量,包含评论数据请求的参数,其中poiId为当前景点的poiId

for id in urls:
    print("正在爬取景点:", id[1])
    # 通过返回值判断总评论数,每页9条,计算出总页数,对大于2000条的数据只爬取两千条
    data_pre = {
        "arg": {
            "channelType": 2,
            "collapseType": 0,
            "commentTagId": 0,
            "pageIndex": 1,
            "pageSize": 10,
            "poiId": id[0],
            "sourceType": 1,
            "sortType": 3,
            "starType": 0
        },
        "head": {
            "cid": "09031069112760102754",
            "ctok": "",
            "cver": "1.0",
            "lang": "01",
            "sid": "8888",
            "syscode": "09",
            "auth": "",
            "xsid": "",
            "extension": []
        }
    }

4.发送post请求获取该景点评论的总页数,将返回的数据解析为json格式,从中获取评论总数,计算出总页数total_page。如果总页数大于300,则将total_page设置为300。接着遍历1到total_page,对于每一页,定义data变量,包含评论数据请求的参数,其中pageIndex为当前页数。

 html = requests.post(postUrl, data=json.dumps(data_pre)).text
    html = json.loads(html)
    # 确定总页数总页数
    total_page = int(html['result']['totalCount'] / 10)
    if total_page > 300:
        total_page = 300
    # 遍历查询评论
    print("总页数:", total_page, "爬取中")

5.发送post请求获取评论数据,将返回的数据解析为json格式,从中获取每条评论的内容result,并将其保存到csv文件中。最后输出该景点的名称和爬取完成的提示信息。

 # 创建写入csv文件
    path = '景点数据.csv'
    xuhao = 0
    with open(path, 'w', newline='', encoding='utf-8') as f:
        file = csv.writer(f)
        file.writerow(['序号', '景区ID', '景区名称', '评论'])
        for page in range(1, int(total_page) + 1):
            data = {
                "arg": {
                    "channelType": 2,
                    "collapseType": 0,
                    "commentTagId": 0,
                    "pageIndex": page,
                    "pageSize": 10,
                    "poiId": id[0],
                    "sourceType": 1,
                    "sortType": 3,
                    "starType": 0
                },
                "head": {
                    "cid": "09031069112760102754",
                    "ctok": "",
                    "cver": "1.0",
                    "lang": "01",
                    "sid": "8888",
                    "syscode": "09",
                    "auth": "",
                    "xsid": "",
                    "extension": []
                }
            }
            html = requests.post(postUrl, data=json.dumps(data)).text
            html = json.loads(html)
            # 获取评论
            for j in range(10):
                result = html['result']['items'][j]['content']
                file.writerow([xuhao, id[0], id[1], result])
                print([xuhao, id[0], id[1], result])
                xuhao += 1
    print(id[1], "爬取完成")

常用的获取数据工具包括Scrapy、BeautifulSoup、Selenium等。Scrapy是一个Python编写的开源网络爬虫框架,可以快速高效地进行数据爬取,支持多线程、分布式爬取等功能。BeautifulSoup是一个Python库,可以快速解析HTML和XML文档,提取需要的信息。Selenium是一个自动化测试工具,可以模拟人类操作浏览器,对于一些需要登录或滑动验证码的网站爬取非常有用。

除了工具,还有一些常用的技巧可以提高数据爬取的效率。例如,设置合适的请求头可以避免被网站反爬虫机制拦截;使用代理IP可以避免频繁访问同一网站被封禁IP;使用多线程或异步IO可以提高爬取速度等等。同时,还需要注意遵守网站的robots协议和法律法规,不进行恶意爬取和侵犯隐私等行为。

相关文章
|
8月前
|
JSON API 数据格式
携程网获取景点列表 API 接口(携程 API 系列)
携程作为国内知名的在线旅游服务提供商,其景点列表API对接口功能、参数和返回格式进行了详细定义。该接口可获取景点基本信息(名称、地区、开放时间等),支持条件筛选查询(如按地区、评分、价格区间等)。接口返回JSON或XML格式数据,并设有调用限制以确保系统稳定性和数据安全。虽然携程未公开免费API,开发者可通过商务合作申请权限。以下为模拟Python请求示例,展示了如何使用该接口获取景点信息。 代码示例中,通过`requests.get()`发送GET请求,设置请求参数(如地区、门票价格等)和请求头(模拟浏览器访问),并处理响应数据。实际应用需替换为真实的接口URL,并遵循携程官方文档要求。
1607 0
|
数据采集 数据挖掘 Python
python爬虫去哪儿网上爬取旅游景点14万条,可以做大数据分析的数据基础
本文介绍了使用Python编写的爬虫程序,成功从去哪儿网上爬取了14万条旅游景点信息,为大数据分析提供了数据基础。
922 1
|
11月前
|
JSON API 数据格式
携程API接口系列,酒店景点详情请求示例参考
携程API接口系列涵盖了酒店预订、机票预订、旅游度假产品预订、景点门票预订等多个领域,其中酒店和景点详情请求是较为常用的功能。以下提供酒店和景点详情请求的示例参考
|
11月前
|
自然语言处理 算法 搜索推荐
NLTK模块使用详解
NLTK(Natural Language Toolkit)是基于Python的自然语言处理工具集,提供了丰富的功能和语料库。本文详细介绍了NLTK的安装、基本功能、语料库加载、词频统计、停用词去除、分词分句、词干提取、词形还原、词性标注以及WordNet的使用方法。通过示例代码,帮助读者快速掌握NLTK的核心功能。
1951 1
|
搜索推荐 前端开发 数据可视化
基于Python协同过滤的旅游景点推荐系统,采用Django框架,MySQL数据存储,Bootstrap前端,echarts可视化实现
本文介绍了一个基于Python协同过滤算法的旅游景点推荐系统,该系统采用Django框架、MySQL数据库、Bootstrap前端和echarts数据可视化技术,旨在为用户提供个性化的旅游推荐服务,提升用户体验和旅游市场增长。
1508 9
基于Python协同过滤的旅游景点推荐系统,采用Django框架,MySQL数据存储,Bootstrap前端,echarts可视化实现
|
数据采集 搜索推荐 算法
基于B站视频评论的文本分析,采用包括文本聚类分析、LDA主题分析、网络语义分析
本文通过Python爬虫技术采集B站视频评论数据,利用LDA主题分析、聚类分析和语义网络分析等方法,对评论进行深入的文本分析,挖掘用户评论的主题、情感倾向和语义结构,旨在为商业决策提供支持,优化内容创作和用户满意度。
1836 2
基于B站视频评论的文本分析,采用包括文本聚类分析、LDA主题分析、网络语义分析
|
11月前
|
机器学习/深度学习 自然语言处理 PyTorch
Transformers入门指南:从零开始理解Transformer模型
【10月更文挑战第29天】作为一名机器学习爱好者,我深知在自然语言处理(NLP)领域,Transformer模型的重要性。自从2017年Google的研究团队提出Transformer以来,它迅速成为NLP领域的主流模型,广泛应用于机器翻译、文本生成、情感分析等多个任务。本文旨在为初学者提供一个全面的Transformers入门指南,介绍Transformer模型的基本概念、结构组成及其相对于传统RNN和CNN模型的优势。
9638 1
|
存储 人工智能 搜索推荐
RAG系统的7个检索指标:信息检索任务准确性评估指南
大型语言模型(LLMs)在生成式AI领域备受关注,但其知识局限性和幻觉问题仍具挑战。检索增强生成(RAG)通过引入外部知识和上下文,有效解决了这些问题,并成为2024年最具影响力的AI技术之一。RAG评估需超越简单的实现方式,建立有效的性能度量标准。本文重点讨论了七个核心检索指标,包括准确率、精确率、召回率、F1分数、平均倒数排名(MRR)、平均精确率均值(MAP)和归一化折损累积增益(nDCG),为评估和优化RAG系统提供了重要依据。这些指标不仅在RAG中发挥作用,还广泛应用于搜索引擎、电子商务、推荐系统等领域。
5171 2
RAG系统的7个检索指标:信息检索任务准确性评估指南
|
12月前
|
自然语言处理 索引
使用BERT进行情感分析
【10月更文挑战第2天】
|
数据采集 数据可视化 搜索推荐
Python爬虫技术从去哪儿网获取旅游数据,对攻略进行可视化分析,提供全面的旅游攻略和个性化的出行建议
本文利用Python爬虫技术从去哪儿网获取旅游数据,通过数据处理和可视化分析,提供了全面的旅游攻略和个性化出行建议,同时探讨了热门目的地、出游方式、时间段以及玩法的偏好,为旅游行业和游客提供了有价值的参考信息。
841 9