python爬取去哪儿出境游攻略

简介: 如何使用python获取去哪儿网出境游攻略

近期,关于热门旅游目的地泰国的旅游安全问题受到热议,好在官网已经针对这些假新闻进行了辟谣,一些旅行社表示经过这次泰国游安全问题热议虽然暂未收到退订单的情况,但预订量有所减少。相关的不实言论容易对旅游情绪产生极大的负面影响。
事实上,截至目前泰国游仍是国内出境游最受欢迎的目的地国家之一,无论在各在线旅游平台上的搜索热度还是预订量均位居前列。马蜂窝大数据显示,近一周马蜂窝站内“五一出境游”相关热度上涨超过110%,泰国、马来西亚、印度尼西亚、日本、西班牙位居目前五一假期订单量最高的境外目的地前五。
我想很多人处境游之前肯定会做很多的攻略,但是网上攻略太多了看得头皮发麻,但是仔细看的话每条旅游攻略都有特定的参数条件的,比如人数、价钱、游玩时间,也就是说我们可以通过筛选这些条件初步获取我们满意的攻略。要实现这样让人满意的攻略唯有python爬虫,所以这里我们就通过使用python爬取去哪儿有关出国游的各种攻略来制定自己的一份满意的出游路线。
爬取数据过程中最重要的就是解决反爬机制的问题,一般网站都是从3个方面进行反爬限制,用户请求的Headers、 用户行为、 网站目录和数据加载方式,其中比较常见的就是基于用户行为的反爬,特别是同一IP短时间内多次访问的限制,对于这种情况直接使用爬虫代理IP就可以解决。
代理IP的获取也是很简单的事,网上有免费和付费的,但是质量都层次不齐。如果是企业里需要的话,建议直接购买优质代理,不仅代理质量有保证,售后也是有保证的吗。代理在爬虫程序里面的实现方法这里可以分享下:

string targetUrl = "https://www.qunar.com/";


// 代理服务器(产品官网 www.16yun.cn)
string proxyHost = "http://t.16yun.cn";
string proxyPort = "31111";

// 代理验证信息
string proxyUser = "16ZWCETA";
string proxyPass = "852746";

// 设置代理服务器
WebProxy proxy = new WebProxy(string.Format("{0}:{1}", proxyHost, proxyPort), true);


ServicePointManager.Expect100Continue = false;

var request = WebRequest.Create(targetUrl) as HttpWebRequest;

request.AllowAutoRedirect = true;
request.KeepAlive = true;
request.Method    = "GET";
request.Proxy     = proxy;

//request.Proxy.Credentials = CredentialCache.DefaultCredentials;

request.Proxy.Credentials = new System.Net.NetworkCredential(proxyUser, proxyPass);

// 设置Proxy Tunnel
// Random ran=new Random();
// int tunnel =ran.Next(1,10000);
// request.Headers.Add("Proxy-Tunnel", String.valueOf(tunnel));


//request.Timeout = 20000;
//request.ServicePoint.ConnectionLimit = 512;
//request.UserAgent = "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.82 Safari/537.36";
//request.Headers.Add("Cache-Control", "max-age=0");
//request.Headers.Add("DNT", "1");


//String encoded = System.Convert.ToBase64String(System.Text.Encoding.GetEncoding("ISO-8859-1").GetBytes(proxyUser + ":" + proxyPass));
//request.Headers.Add("Proxy-Authorization", "Basic " + encoded);

using (var response = request.GetResponse() as HttpWebResponse)
using (var sr = new StreamReader(response.GetResponseStream(), Encoding.UTF8))
{
    string htmlStr = sr.ReadToEnd();
}
相关文章
|
3月前
|
数据采集 存储 架构师
上进计划 | Python爬虫经典实战项目——电商数据爬取!
在如今这个网购风云从不间歇的时代,购物狂欢持续不断,一年一度的“6.18年中大促”、“11.11购物节”等等成为了网购电商平台的盛宴。在买买买的同时,“如何省钱?”成为了大家最关心的问题。 比价、返利、优惠券都是消费者在网购时的刚需,但在这些“优惠”背后已产生灰色地带。
|
3月前
|
数据采集 Python
爬虫实战-Python爬取百度当天热搜内容
爬虫实战-Python爬取百度当天热搜内容
133 0
|
3月前
|
数据采集 JSON 数据格式
python爬虫之app爬取-charles的使用
charles 基本原理,charles抓包,分析,重发。
152 0
|
27天前
|
数据采集 Web App开发 存储
Python-数据爬取(爬虫)
【7月更文挑战第24天】
55 7
|
27天前
|
数据采集 机器学习/深度学习 算法
Python-数据爬取(爬虫)
【7月更文挑战第23天】
43 5
|
1月前
|
数据采集 存储 Web App开发
Python-数据爬取(爬虫)
【7月更文挑战第15天】
86 3
|
3月前
|
数据采集 测试技术 API
python爬虫之app爬取-微信朋友圈
搭建appium环境,appium基本使用,API操作等等
206 0
|
2月前
|
Web App开发 Python Windows
经验大分享:PYTHON爬取66影视的电影下载链接,有搜索功能
经验大分享:PYTHON爬取66影视的电影下载链接,有搜索功能
24 2
|
2月前
|
存储 XML 数据处理
Python网络实践:去哪儿旅游数据爬取指南
Python网络实践:去哪儿旅游数据爬取指南
|
2月前
|
数据采集 JSON 算法
使用Python爬取华为市场APP应用进行分析
这个网站也是作者最近接触到的一个APP应用市场类网站。讲实话,还是蛮适合新手朋友去动手学习的。毕竟爬虫领域要想进步,还是需要多实战、多分析!该网站中的一些小细节也是能够锻炼分析能力的,也有反爬虫处理。甚至是下载APP的话在Web端是无法拿到APK下载的直链,需要去APP端接口数据获取