开发者社区 问答 正文

360不能抓取网站

1、请先查看抓取错误信息,判断抓取失败原因,进行优化处理。比如错误提示:Recv failure: Connection reset by peer、 Unknown SSL protocol error in connection to www.example.com:443,这种错误是因为我们抓取检测IP被禁,导致抓取检测失败。请将:220.181.132.235 182.118.31.216,进行加白处理。
2、请核实网站的服务商是否有相应的屏蔽策略,为保证网站的收录不出现异常,建议将我们的360搜索蜘蛛全部进行加白处理,

展开
收起
1950165872005874 2018-10-22 18:37:19 1276 分享
分享
版权
举报
阿里云 AI 助理回答

面对您提到的抓取错误问题,这里提供一些建议和解决方案,结合阿里云的产品和服务来帮助您优化处理这些问题。

1. 抓取错误信息处理

错误提示:Recv failure: Connection reset by peer、Unknown SSL protocol error in connection to www.example.com:443

这些错误通常意味着服务器在尝试建立连接时遇到了问题,可能是由于IP被封禁、SSL协议不兼容或网络配置问题导致的。对于IP被禁的问题,您需要:

  • 加白IP地址:根据错误提示,您已识别出需要加白的IP地址(220.181.132.235 和 182.118.31.216)。如果您使用的是阿里云的Web应用防火墙(WAF)或安全组服务,可以通过管理控制台将这些IP添加到允许列表中。

    • 对于WAF,登录阿里云控制台,进入WAF管理界面,选择相应域名下的访问控制规则,添加IP白名单。
    • 对于ECS实例的安全组,同样在控制台找到对应实例的安全组设置,添加入方向规则,允许这两个IP的访问。

网站服务商屏蔽策略

如果您的网站托管在特定的服务商上,并且他们有针对爬虫的屏蔽策略,您需要联系服务商支持,请求为360搜索蜘蛛(通常是BaiduspiderGooglebot等,对于360应为特有的User-Agent字符串,如可能为360spider,具体需查询360官方文档确认)进行全局加白。确保他们不会对来自这些搜索引擎的合法爬虫流量进行拦截。

2. 加白360搜索蜘蛛

为了全面保障收录,确实应该将所有主要搜索引擎的爬虫加入白名单。对于360搜索蜘蛛,除了直接在服务器或CDN层面加白外,还可以考虑以下措施:

  • robots.txt文件:虽然这不是直接的“加白”操作,但确保您的robots.txt文件没有无意间禁止了360搜索蜘蛛的访问。可以在其中明确允许其抓取,例如:

    User-agent: 360spider
    Allow: /
    
  • 云服务商支持:如果使用的是阿里云CDN服务,可以通过CDN控制台配置源站访问控制,确保包含360搜索蜘蛛的User-Agent能够顺利通过CDN访问到源站内容。

综上所述,解决这类问题涉及到了解并调整服务器、防火墙、CDN以及与网站服务商沟通等多个环节。利用阿里云提供的工具和服务,可以有效地管理和优化这一过程,确保网站内容能被正确抓取和索引。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答