Python爬虫:设置随机 User-Agent
在Python中编写爬虫时,为了模拟真实用户的行为并防止被服务器识别为爬虫,通常需要设置随机的User-Agent。你可以使用fake-useragent
库来实现这一功能。首先,你需要安装fake-useragent
库:
pip install fake-useragent
然后,你可以按照以下示例代码来设置随机User-Agent:
import requests from fake_useragent import UserAgent def get_random_user_agent(): ua = UserAgent() return ua.random def crawl_url(url): headers = {'User-Agent': get_random_user_agent()} response = requests.get(url, headers=headers) if response.status_code == 200: return response.text else: print("Failed to fetch URL:", response.status_code) if __name__ == "__main__": url = "https://example.com" # 要爬取的网址 html_content = crawl_url(url) print(html_content) # 输出网页内容
编辑
这个示例中,get_random_user_agent()
函数使用fake-useragent
库来获取一个随机的User-Agent字符串,并将其用于构造请求头。然后,crawl_url()
函数发送带有随机User-Agent的HTTP请求,并返回网页内容。
记得在使用爬虫时,要尊重网站的robots.txt文件,以避免访问被禁止的页面。同时,避免发送过于频繁的请求,以免对服务器造成负担。