开发者社区问答正文

360不能抓取网站

1、请先查看抓取错误信息，判断抓取失败原因,进行优化处理。比如错误提示：Recv failure: Connection reset by peer、 Unknown SSL protocol error in connection to www.example.com:443，这种错误是因为我们抓取检测IP被禁，导致抓取检测失败。请将：220.181.132.235 182.118.31.216，进行加白处理。

2、请核实网站的服务商是否有相应的屏蔽策略,为保证网站的收录不出现异常，建议将我们的360搜索蜘蛛全部进行加白处理，

展开

收起

1950165872005874 2018-10-22 18:37:19 1312 版权

阿里云 AI 助理回答

面对您提到的抓取错误问题，这里提供一些建议和解决方案，结合阿里云的产品和服务来帮助您优化处理这些问题。

1. 抓取错误信息处理

错误提示：Recv failure: Connection reset by peer、Unknown SSL protocol error in connection to www.example.com:443

这些错误通常意味着服务器在尝试建立连接时遇到了问题，可能是由于IP被封禁、SSL协议不兼容或网络配置问题导致的。对于IP被禁的问题，您需要：

加白IP地址：根据错误提示，您已识别出需要加白的IP地址（220.181.132.235 和 182.118.31.216）。如果您使用的是阿里云的Web应用防火墙（WAF）或安全组服务，可以通过管理控制台将这些IP添加到允许列表中。
- 对于WAF，登录阿里云控制台，进入WAF管理界面，选择相应域名下的访问控制规则，添加IP白名单。
- 对于ECS实例的安全组，同样在控制台找到对应实例的安全组设置，添加入方向规则，允许这两个IP的访问。

网站服务商屏蔽策略

如果您的网站托管在特定的服务商上，并且他们有针对爬虫的屏蔽策略，您需要联系服务商支持，请求为360搜索蜘蛛（通常是Baiduspider、Googlebot等，对于360应为特有的User-Agent字符串，如可能为360spider，具体需查询360官方文档确认）进行全局加白。确保他们不会对来自这些搜索引擎的合法爬虫流量进行拦截。

2. 加白360搜索蜘蛛

为了全面保障收录，确实应该将所有主要搜索引擎的爬虫加入白名单。对于360搜索蜘蛛，除了直接在服务器或CDN层面加白外，还可以考虑以下措施：

robots.txt文件：虽然这不是直接的“加白”操作，但确保您的robots.txt文件没有无意间禁止了360搜索蜘蛛的访问。可以在其中明确允许其抓取，例如：
```
User-agent: 360spider
Allow: /
```
云服务商支持：如果使用的是阿里云CDN服务，可以通过CDN控制台配置源站访问控制，确保包含360搜索蜘蛛的User-Agent能够顺利通过CDN访问到源站内容。

综上所述，解决这类问题涉及到了解并调整服务器、防火墙、CDN以及与网站服务商沟通等多个环节。利用阿里云提供的工具和服务，可以有效地管理和优化这一过程，确保网站内容能被正确抓取和索引。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

网络安全云计算云虚拟主机

问答地址：

开发者社区 > 云计算 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

360不能抓取网站

1. 抓取错误信息处理

错误提示：Recv failure: Connection reset by peer、Unknown SSL protocol error in connection to www.example.com:443

网站服务商屏蔽策略

2. 加白360搜索蜘蛛

相关文章