python使用aiohttp+代理+header爬取安居客

简介: 使用aiohttp来爬取网站,使用不同的代理IP和header

根据国家统计局发布大中城市房价格指数显示,新房已持续下跌约17个月,二手房下跌持续18个月。但是今年2月,开始出现了逆转,新房和二手房价格环比均转涨。特别是今年春节过后,多地二手房市场快速回暖,成交量反弹,房价也跟着有所回升。这是不是预示着房价的"小阳春"来了,但是能持续多久也是
正好这里我们可以使用scrapy爬虫去网上抓抓成都最近的房价情况,看下房价是不是真的开第二波走热了。数据来源就以安居客为目标https://chengdu.anjuke.com/sale/?from=HomePage_TopBar
经过简单分析,现在的安居客反爬机制做的比较严,所以为了伪装真实用户访问页面,抓取过程中最重要的就是获取浏览器正常请求页面数据的 http 请求头,并在 requests 中设置一样的请求头。其中最重要的请求头部字段就是 user-agent 。另外网可能也会设置 cookie 字段,存储用户本次访问的会话信息,其中可能也包含了数据访问的权限信息,这种情况下,为了能正确抓取到数据,就必须提供此字段。还有就是代理IP的添加也是必不可少的辅助工具。这里我们就使用aiohttp来爬取网站,使用不同的代理IP和header。实现过程如下:

import asyncio
import aiohttp
from aiohttp_socks import ProxyConnector
import random

# 定义目标网站和代理服务器的列表
urls = ["https://chengdu.anjuke.com/sale/?from=HomePage_TopBar", "https://chengdu.anjuke.com/sale/?from=HomePage_TopBar"]
proxies = ["socks5://16yun:16ip@www.16yun.cn:8888", "socks5://16yun:16ip@www.16yun.cn:11111", "socks5://username:password@host3:port3"]

# 定义用户代理的列表
user_agents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 11_6_1) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.2 Safari/605.1.15",
    "Mozilla/5.0 (iPhone; CPU iPhone OS 15_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15 Mobile/15E148 Safari/604.1"
]

# 定义异步函数来发送GET请求,并使用不同的代理服务器和头部来连接目标网站
async def fetch(url):
    try:
        # 随机选择一个代理服务器和一个用户代理
        proxy = random.choice(proxies)
        user_agent = random.choice(user_agents)
        
        # 创建一个aiohttp_socks.ProxyConnector对象,用来设置代理服务器的参数    
        connector = ProxyConnector.from_url(proxy)
        
        # 创建一个字典,用来设置头部参数    
        headers = {"User-Agent": user_agent}
        
        # 创建并启动一个aiohttp.ClientSession对象,用来发送HTTP请求,并传入connector和headers参数    
        async with aiohttp.ClientSession(connector=connector, headers=headers) as session:
            async with session.get(url) as response:
                # 检查响应状态码是否为200,否则抛出异常
                if response.status != 200:
                    raise Exception(f"Bad status code: {response.status}")
                # 返回响应内容的文本格式
                return await response.text()
                
            # 在每次请求之后关闭会话    
            await session.close()
            
    except Exception as e:
        # 打印异常信息,并返回None
        print(e)
        return None

# 定义异步主函数来创建并运行多个协程任务,并控制并发数量和超时时间等参数    
async def main():
    # 创建一个空列表,用来存储所有的协程任务        
    tasks = []
    # 循环遍历目标网站列表,每次创建一个fetch函数的协程任务,并添加到列表中        
    for url in urls:
        task = asyncio.create_task(fetch(url))
        tasks.append(task)
        
    # 使用asyncio.gather函数来收集并执行所有的协程任务,并返回一个包含所有结果的列表        
    results = await asyncio.gather(*tasks)
    
    # 打印结果列表    
    print(results)

# 在程序入口处调用异步主函数,并启动事件循环         
if __name__ == "__main__":
     asyncio.run(main())

整体来说短时交易量比较高并不意味着市场进入了快速升温阶段,而且还只是小幅回暖,主要还是在局部、短时间内不一定就能大面积的上涨。

相关文章
|
1月前
|
数据采集 JSON 数据格式
python爬虫之app爬取-charles的使用
charles 基本原理,charles抓包,分析,重发。
54 0
|
1月前
|
数据采集 NoSQL Redis
Python爬虫-代理池原理和搭建
代理池架构,代理池的实现
42 0
|
1月前
|
数据采集 安全 数据安全/隐私保护
python怎么获取免费代理IP
python怎么获取免费代理IP
49 0
|
2月前
|
数据采集 存储 架构师
上进计划 | Python爬虫经典实战项目——电商数据爬取!
在如今这个网购风云从不间歇的时代,购物狂欢持续不断,一年一度的“6.18年中大促”、“11.11购物节”等等成为了网购电商平台的盛宴。在买买买的同时,“如何省钱?”成为了大家最关心的问题。 比价、返利、优惠券都是消费者在网购时的刚需,但在这些“优惠”背后已产生灰色地带。
|
1月前
|
数据采集 数据挖掘 调度
异步爬虫实践攻略:利用Python Aiohttp框架实现高效数据抓取
本文介绍了如何使用Python的Aiohttp框架构建异步爬虫,以提升数据抓取效率。异步爬虫利用异步IO和协程技术,在等待响应时执行其他任务,提高效率。Aiohttp是一个高效的异步HTTP客户端/服务器框架,适合构建此类爬虫。文中还展示了如何通过代理访问HTTPS网页的示例代码,并以爬取微信公众号文章为例,说明了实际应用中的步骤。
|
1月前
|
数据采集 测试技术 API
python爬虫之app爬取-微信朋友圈
搭建appium环境,appium基本使用,API操作等等
79 0
|
5天前
|
数据挖掘 API 数据安全/隐私保护
python请求模块requests如何添加代理ip
python请求模块requests如何添加代理ip
|
6天前
|
存储 关系型数据库 MySQL
Python搭建代理IP池实现存储IP的方法
Python搭建代理IP池实现存储IP的方法
|
6天前
|
Python
Python动态IP代理防止被封的方法
Python动态IP代理防止被封的方法
|
6天前
|
存储 API Python
python之代理ip的配置与调试
python之代理ip的配置与调试

热门文章

最新文章