使用 User-Agent 模拟浏览器行为的技巧

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 使用 User-Agent 模拟浏览器行为的技巧

在现代网络爬虫和自动化测试中,模拟浏览器行为是一个至关重要的技术。通过模拟浏览器行为,爬虫可以伪装成真实用户,从而绕过网站的反爬虫机制,获取所需的数据。而 User-Agent 是实现这一目标的关键技术之一。
一、User-Agent 的作用
User-Agent 是 HTTP 请求头中的一个重要字段,用于标识发起请求的客户端信息,包括浏览器类型、版本、操作系统等。服务器通过 User-Agent 可以判断请求是否来自真实用户,从而提供针对性的内容和服务。在爬虫中,通过设置合适的 User-Agent,可以模拟不同浏览器的行为,避免被网站识别为爬虫。
二、如何设置 User-Agent

  1. Python 中的 User-Agent 设置
    在 Python 中,常用的 requests 库可以轻松设置 User-Agent。以下是一个示例代码:
    import requests
    from requests.auth import HTTPProxyAuth

目标 URL

url = 'https://www.example.com'

设置 User-Agent

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}

设置代理服务器

proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

proxies = {
"http": f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}",
"https": f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"
}

发送请求

response = requests.get(url, headers=headers, proxies=proxies, auth=HTTPProxyAuth(proxyUser, proxyPass))

打印响应内容

print(response.text)
在这个示例中,我们通过设置请求头中的 User-Agent 字段,伪装成谷歌浏览器发送请求。

  1. Java 中的 User-Agent 设置
    在 Java 中,可以使用 Jsoup 库来设置 User-Agent:
    import org.jsoup.Jsoup;
    import org.jsoup.nodes.Document;
    import java.net.Authenticator;
    import java.net.PasswordAuthentication;
    import java.net.Proxy;

public class Main {
public static void main(String[] args) {
String url = "https://www.example.com";

    // 设置 User-Agent
    String userAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3";

    // 设置代理服务器
    String proxyHost = "www.16yun.cn";
    int proxyPort = 5445;
    String proxyUser = "16QMSOML";
    String proxyPass = "280651";

    // 配置代理认证
    Authenticator.setDefault(new Authenticator() {
        @Override
        protected PasswordAuthentication getPasswordAuthentication() {
            return new PasswordAuthentication(proxyUser, proxyPass.toCharArray());
        }
    });

    // 创建代理服务器
    Proxy proxy = new Proxy(Proxy.Type.HTTP, new java.net.InetSocketAddress(proxyHost, proxyPort));

    try {
        // 发送请求
        Document doc = Jsoup.connect(url)
                .proxy(proxyHost, proxyPort)
                .userAgent(userAgent)
                .get();

        // 打印响应内容
        System.out.println(doc.title());
    } catch (Exception e) {
        e.printStackTrace();
    }
}

}
通过 Jsoup.connect(url).userAgent(userAgent).get() 方法,可以设置 User-Agent 并获取网页内容。

  1. Scala 中的 User-Agent 设置
    在 Scala 中,可以使用 Dispatch 库来设置 User-Agent:
    import dispatch._
    import scala.concurrent.ExecutionContext.Implicits.global
    import scala.concurrent.Future

object UserAgentExample extends App {
val url = "https://www.example.com"

// 设置 User-Agent
val userAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"

// 设置代理服务器
val proxyHost = "www.16yun.cn"
val proxyPort = 5445
val proxyUser = "16QMSOML"
val proxyPass = "280651"

// 创建代理服务器
val proxy = new java.net.InetSocketAddress(proxyHost, proxyPort)
val httpProxy = new java.net.Proxy(java.net.Proxy.Type.HTTP, proxy)

// 配置代理认证
java.net.Authenticator.setDefault(new java.net.Authenticator() {
    override def getPasswordAuthentication(): java.net.PasswordAuthentication = {
        new java.net.PasswordAuthentication(proxyUser, proxyPass.toCharArray)
    }
})

// 发送请求
val req = url(url).addHeader("User-Agent", userAgent)
val response: Future[String] = Http.default(req OK as.String)

response.onSuccess {
    case str => println(str)
}

Thread.sleep(5000) // 等待异步请求完成

}
通过 addHeader 方法,可以设置 User-Agent 并发送请求。
三、高级技巧:模拟真实用户行为

  1. 随机化请求间隔
    真实用户在浏览网页时,操作之间会有随机的间隔。通过在操作之间添加随机延迟,可以模拟这种自然行为:
    Python复制
    import time
    import random

def random_sleep(min_seconds=1, max_seconds=3):
time.sleep(random.uniform(min_seconds, max_seconds))

示例:在两个操作之间添加随机延迟

random_sleep()
driver.get('https://www.example.com')
random_sleep()
driver.find_element_by_id('some-button').click()

  1. 使用随机的 User-Agent
    通过设置随机的 User-Agent,可以使请求看起来来自不同的浏览器:
    Python复制
    from selenium import webdriver
    import random

user_agents = [
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0.3 Safari/605.1.15",

# 更多 User-Agent 字符串...

]

random_user_agent = random.choice(user_agents)
options = webdriver.ChromeOptions()
options.add_argument(f'user-agent={random_user_agent}')
driver = webdriver.Chrome(options=options)

  1. 模拟鼠标移动和点击
    使用 Selenium 的 ActionChains 类,可以模拟鼠标的移动和点击:
    Python复制
    from selenium.webdriver.common.action_chains import ActionChains

element = driver.find_element_by_id('some-button')
action = ActionChains(driver)
action.move_to_element(element).click().perform()

  1. 输入文本时的延迟
    模拟真实用户输入文本时的速度和节奏,可以通过逐个字符输入并添加延迟:
    Python复制
    def type_randomly(input_element, text):
    for char in text:
     input_element.send_keys(char)
     time.sleep(random.uniform(0.1, 0.5))  # 随机延迟模拟打字速度
    

input_field = driver.find_element_by_id('input-field-id')
type_randomly(input_field, 'Hello, World!')
四、注意事项

  1. 选择合适的 User-Agent:User-Agent 字符串应该模仿一个真实用户的浏览器。可以从浏览器开发者工具中复制 User-Agent 字符串。
  2. 更新 User-Agent:随着浏览器版本的更新,User-Agent 字符串也会变化。定期更新你的 User-Agent 字符串,以保持其真实性。
  3. 避免滥用:虽然设置 User-Agent 可以减少被识别为爬虫的风险,但过度请求仍然可能触发网站的反爬机制。合理设置请求频率和遵守网站的 robots.txt 规定是非常重要的。
  4. 尊重网站政策:在使用爬虫时,始终遵守目标网站的使用条款和隐私政策,不要进行任何可能侵犯版权或隐私的行为。
相关文章
|
10月前
|
测试技术
用navigator.sendBeacon完成网页埋点异步请求记录用户行为,当网页关闭的时候,依然后完美完成接口请求,不会因为浏览器关闭了被中断请求。
用navigator.sendBeacon完成网页埋点异步请求记录用户行为,当网页关闭的时候,依然后完美完成接口请求,不会因为浏览器关闭了被中断请求。
|
存储 搜索推荐 数据挖掘
使用selenium库模拟浏览器行为,获取网页的cookie值
使用selenium库模拟浏览器行为,获取网页的cookie值
|
8月前
|
存储 缓存 边缘计算
高并发架构设计三大利器:缓存、限流和降级问题之控制浏览器缓存的行为问题如何解决
高并发架构设计三大利器:缓存、限流和降级问题之控制浏览器缓存的行为问题如何解决
|
10月前
|
移动开发 JavaScript 前端开发
javascript监听浏览器离开、进入行为
javascript监听浏览器离开、进入行为
235 0
|
应用服务中间件 nginx
【Nginx】记录 nginx 配置文件中 location下根据 ua (user-agent) 判断移动端和电脑端不同浏览器来源
【Nginx】记录 nginx 配置文件中 location下根据 ua (user-agent) 判断移动端和电脑端不同浏览器来源
277 0
|
Web App开发 Java Apache
如何在Selenium自动化Chrome浏览器中模拟用户行为和交互?
Selenium是一个用于自动化Web应用程序测试的工具,它可以模拟真实的用户在浏览器中进行各种操作,如点击、输入、滚动等。Selenium支持多种浏览器,如Chrome、Firefox、Edge等,但是每种浏览器都需要相应的驱动程序才能与Selenium进行通信。本文将介绍如何在Selenium中使用Chrome浏览器,并且设置代理服务器来避免被目标网站识别。
544 0
如何在Selenium自动化Chrome浏览器中模拟用户行为和交互?
|
Web App开发 Linux Android开发
常见浏览器User-Agent大全
下面是工作中需要用到的常见浏览器User-Agent字符串的收集整理,不断更新中。 OperaMozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.
11043 2
|
JavaScript 前端开发
浏览器行为
浏览器行为
85 0
|
Web App开发 JavaScript 前端开发
JavaScript停止冒泡和阻止浏览器默认行为
JavaScript停止冒泡和阻止浏览器默认行为
120 0
|
数据采集 Python
Python爬虫:常用的浏览器请求头User-Agent
Python爬虫:常用的浏览器请求头User-Agent
386 0