我想采集某视频平台的平台数据,用selenium一直跳出验证码,怎么解决呀?

最近有课题要分析AI类视频的用户情感偏向,所以在用python采集数据,遇到一些bug,请求支援

展开
收起
py世界 2025-10-29 07:41:48 32 分享 版权
1 条回答
写回答
取消 提交回答
  • 分享编程故事~

    我也经常遇到这种情况,用selenium、playwright被网站识别为爬虫脚本,然后老是跳出来验证码,有时候还没限制ip访问。
    后来查技术资料发现,用selenium很容易暴露非真人的身份。
    1、浏览器指纹暴露​​:会留下一些自动化程序的“特征”,比如navigator.webdriver,网站一检测到这个,就知道不是正常浏览器
    ​​2、行为不像真人​​:访问过快,过于规律,就会被网站识别
    3、​​IP地址异常:请求过于频繁,或者过于规则的请求都会被识别出来

    为了应对这些爬虫检测机制,我会直接用亮数据的网页解锁api来访问,和普通selenium请求一样,但是亮数据内置了自动切换ip功能,且能识别并解锁验证码,并隐藏浏览器指纹,这样就不会被检测到。
    我还用过亮数据的远程浏览器,操作类似普通浏览器,但能绕过爬虫检测,适合比较稳定的采集业务。

    2025-10-29 14:33:08
    赞同 31 展开评论
问答分类:

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

还有其他疑问?
咨询AI助理