自己训练小模型会比使用通用大模型更加贴合用户需求,所以我准备采集数据自己去训练,求问下如何采集?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
这题我会,现在小模型会渐渐成为垂直领域AI应用趋势,尤其是像电商、客服、游戏这类场景,因为大模型不了解你的客户,对行业知识不专业,所以需要大量行业数据训练小模型。
我给公司做过商品竞争力分析的小模型,说说我是怎么采集数据和训练模型的,供参考。
1、确定数据范围:某电商平台的商品标题、详情描述、规格参数、价格、图片、用户评论等,以及某社交平台关于商品的帖子。
2、采集数据:我是用的亮数据爬虫API,它是那种一键采集的模式,只需要通过requests提交商品url就可以获取结构化json数据。
你不需要处理网站的反爬措施,因为亮数据的接口已经内置了处理IP封锁、验证码的技术,可以绕过自动化程序检测,所以相对稳定。
3、数据清洗:将数据整理成模型训练需要的标准格式,包含“指令”(任务描述)、“输入”(用户问题)和“输出”(理想回答)的json文件
4、训练模型,可以采用transform模型