最近在研究推特上的ai类帖子,准备分析ai技术的发展趋势,想用dify来实现自动化采集,有大佬做过类似的吗?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
这种爬虫类工作流用dify挺好实现的,dify负责搭建流程,亮数据api负责通过关键词/url来采集数据字段,然后用python pandas处理数据,deepseek提炼数据结论,最后输出为文本、excel等各种报表。
dify上有现成的亮数据api入口,你需要去亮数据上申请key,配置到dify上就可以。亮数据的好处在于能自主处理反爬限制,包括配置ip代理、解锁验证码等,完全不需要手工写脚本处理,比较方便省事。
搭建好工作流后,可以部署在公司内网或者本地电脑,设置定时任务,就可以自动采集推特数据了。