我接了个任务需要做个数据采集类的agent,时间不多,想直接用mcp来实现
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
cursor相当于是一个万能的智能体,可以开发各种ai产品,包括数据爬虫智能体,我之前就用python 做了个爬虫skills,可以请求、解析、清洗、存储数据。
首先请求网页用的是brightdata mcp,之所以不用requests去请求网页,是因为涉及到反爬检测,处理起来很麻烦,bright data有专门的解锁功能,直接绕过爬虫检测,而且ai调用mcp很方便。
解析网页可以用python的beautifulsoup库,把元素里的关键数据提取出来,最后可以用pandas对数据进行清洗,并通过连接sqlite mcp,把数据存储到数据库里。