我在训练本地大模型,如何获取海量训练数据呢?尤其是社媒帖子数据

公司要我去训练一个内部用的大模型,但数据需要自己采集,会用到电商、社媒之类的数据,请问用什么工具采集?

展开
收起
py世界 2025-11-21 23:33:54 10 分享 版权
1 条回答
写回答
取消 提交回答
  • 分享编程故事~

    我上周刚刚在公司本地服务器搭建了客服大模型,数据一般来自于公司本地数据,另一半来自于互联网电商数据,这些三方数据采集用的是亮数据的网页抓取api,可以请求整个网页并解析为Markdown、文本、HTML或JSON文件形式,而且不需要自己处理验证码、ip封锁等问题。
    亮数据api好处在于它内置了动态住宅ip池可以自动切换,而且有专门的解锁器可用于处理人机验证,所以对于大部分网站都能轻松采集,下面以某海外主流电商网站为例,讲解下如何用亮数据网页抓取api采集数据,用于AI大模型训练。
    首先是注册账号并获取key,接着在控制台点击 "Web Scrapers",进入爬虫模版市场,选择对应的电商网站,输入产品url就可以自动采集。
    或者你可以用python requests访问api,也可以直接采集到商品数据,非常简单。

    2025-11-21 23:48:53
    赞同 2 展开评论

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

还有其他疑问?
咨询AI助理