有关网页抓取问题的一些经验总结

简介:

 在写爬虫的时候经常会遇到有些页面下载下来会有问题,如果你把请求模拟成和浏览器一样,肯定是可以把页面正确获取的,但是其中往往很多参数都没有什么用,真正影响的就几个关键参数。这里特别把自己的经验做一下总结。

    重点需要关注的参数有:
1. url: 这主要就是URL编码会导致问题,在URL中包含中文的时候可能会出现
2. user-agent: 大网站通常会对不同的浏览器做优化,所以会有区别
3. cookie: 有些网站会用到cookie信息,比如有些网站会把session信息记录在cookie中
4. refer: 有些网站为了防止跨站攻击,会对refer的页面进行检查
5. accept-charset和accept-encoding: 个别网站会对接收的编码会有特殊处理
6. sessionID: 这个有时会设在参数中,有些网站会用到这个值,当然还有其他参数可能会有用到。

    上面都是经验之谈,希望能对大家有所帮助。



本文转自passover 51CTO博客,原文链接:http://blog.51cto.com/passover/560121,如需转载请自行联系原作者

相关文章
|
数据可视化 物联网 Python
GNU Radio简介及流程图搭建
GNU Radio简介及流程图搭建
644 0
|
人工智能 自然语言处理 算法
国产新型AI编程助手—DevChat AI插件在VSCode中的应用
国产新型AI编程助手—DevChat AI插件在VSCode中的应用
651 0
|
Shell
一个用于添加/删除定时任务的shell脚本
一个用于添加/删除定时任务的shell脚本
320 1
|
数据可视化 Android开发 开发者
安卓应用开发中的自定义View组件
【10月更文挑战第5天】在安卓应用开发中,自定义View组件是提升用户交互体验的利器。本篇将深入探讨如何从零开始创建自定义View,包括设计理念、实现步骤以及性能优化技巧,帮助开发者打造流畅且富有创意的用户界面。
364 0
|
数据采集 自然语言处理 搜索推荐
通义千问赋能CACA指南:构建智慧肿瘤诊疗新生态
本文探讨了如何利用阿里云通义千问大模型,结合中国抗癌协会(CACA)编撰的《中国肿瘤整合诊治指南》,打造新一代智能化临床决策支持系统。该系统通过分层架构设计,实现智能问答、临床决策支持和患者管理等功能,显著提升了医生的工作效率和治疗方案的科学性。
672 1
|
Rust Apache 对象存储
Apache Paimon V0.9最新进展
Apache Paimon V0.9 版本即将发布,此版本带来了多项新特性并解决了关键挑战。Paimon自2022年从Flink社区诞生以来迅速成长,已成为Apache顶级项目,并广泛应用于阿里集团内外的多家企业。
18077 13
Apache Paimon V0.9最新进展
|
存储 SQL 分布式计算
大数据中结构化数据
【10月更文挑战第18天】
771 4
|
安全 量子技术 芯片
光量子计算:实现通用量子计算机的路径
【10月更文挑战第3天】光量子计算作为量子计算的重要技术路径,利用光学原理处理量子信息,以光子作为量子比特,通过操控光子状态实现高效量子运算。其具备高速、高精度、易集成及低环境要求等优势,是实现通用量子计算机的关键。目前全球量子计算正处于快速发展阶段,中美等国在该领域取得显著进展,光量子计算有望在量子通信、量子化学等多个领域发挥重要作用,推动科技进步。
|
搜索推荐 Linux Shell
在Linux中,如何创建一个新用户?
在Linux中,如何创建一个新用户?
|
人工智能 计算机视觉
李飞飞空间智能系列新进展,吴佳俊团队新BVS套件评估计算机视觉模型
【5月更文挑战第29天】李飞飞教授的SVL实验室与吴佳俊团队推出BEHAVIOR Vision Suite(BVS),一个创新工具包,用于生成定制合成数据以评估计算机视觉模型。BVS解决了现有数据生成器在资产、多样性和真实性方面的局限,提供灵活的场景、对象和相机参数调整。它包含8000多个对象模型和1000个场景,适用于多种视觉任务。实验展示了BVS在评估模型鲁棒性、场景理解和域适应中的效用,但也指出其在覆盖范围、使用难度和域适应上的局限。[论文链接](https://arxiv.org/pdf/2405.09546)
303 4