开发者社区> 问答> 正文

python爬虫类项目,requests无法正常get网页


我的系统是centos7,想在服务器上测试一个python脚本,通过requests模块发送get请求,访问https://www。footlocker。com。程序在自己的电脑上win10系统测试是成功的,但是一旦部署到ECS服务器端的时候,就无法访问了,显示read time out,port=443。
我测试了服务器上,能够ping通这个网站,但是到脚本里就无法get到了。
代码:
from bs4 import BeautifulSoup
import requests
import urllib.request
from requests.packages.urllib3.exceptions import InsecureRequestWarning
requests.packages.urllib3.disable_warnings(InsecureRequestWarning)
url = 'https://www.footaction.com'
print('start')
header = {
    "Connection":"keep-alive",
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36",
}
r = requests.get('https://www.footlocker.com', headers = header, timeout = 5)
print(r)
content = r.text
soup = BeautifulSoup(content, 'html.parser')
print(soup)


展开
收起
goojia 2019-01-05 13:03:55 3334 0
3 条回答
写回答
取消 提交回答
  • 应该是访问白名单的事。

    2019-11-20 16:26:57
    赞同 展开评论 打赏
  • 你不是来打广告的吧。我尝试了,同样等待超时。应该是对方服务器对阿里云主机请求进行阻拦。不知兄台,云主机是哪里的节点?
    2019-01-06 15:27:27
    赞同 展开评论 打赏
  • Repython爬虫类项目,requests无法正常get网页
    求救求救求救吖,新手,在这里卡了一天半了

    -------------------------

    回 2楼君斗云的帖子
    哇,终于有人肯回我了,我的主机地址是在上海的,可能那边的网站对阿里云的IP进行了拦截,我使用代理之后就可以get通了。
    2019-01-05 13:46:05
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
From Python Scikit-Learn to Sc 立即下载
Data Pre-Processing in Python: 立即下载
双剑合璧-Python和大数据计算平台的结合 立即下载