公司要我去训练一个内部用的大模型,但数据需要自己采集,会用到电商、社媒之类的数据,请问用什么工具采集?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
我上周刚刚在公司本地服务器搭建了客服大模型,数据一般来自于公司本地数据,另一半来自于互联网电商数据,这些三方数据采集用的是亮数据的网页抓取api,可以请求整个网页并解析为Markdown、文本、HTML或JSON文件形式,而且不需要自己处理验证码、ip封锁等问题。
亮数据api好处在于它内置了动态住宅ip池可以自动切换,而且有专门的解锁器可用于处理人机验证,所以对于大部分网站都能轻松采集,下面以某海外主流电商网站为例,讲解下如何用亮数据网页抓取api采集数据,用于AI大模型训练。
首先是注册账号并获取key,接着在控制台点击 "Web Scrapers",进入爬虫模版市场,选择对应的电商网站,输入产品url就可以自动采集。
或者你可以用python requests访问api,也可以直接采集到商品数据,非常简单。