我是做电商平台的,准备训练本地垂直小模型,用于AI客服,如何采集训练数据?

自己训练小模型会比使用通用大模型更加贴合用户需求,所以我准备采集数据自己去训练,求问下如何采集?

展开
收起
py世界 2025-10-29 07:41:47 30 分享 版权
1 条回答
写回答
取消 提交回答
  • 分享编程故事~

    这题我会,现在小模型会渐渐成为垂直领域AI应用趋势,尤其是像电商、客服、游戏这类场景,因为大模型不了解你的客户,对行业知识不专业,所以需要大量行业数据训练小模型。
    我给公司做过商品竞争力分析的小模型,说说我是怎么采集数据和训练模型的,供参考。
    1、确定数据范围:某电商平台的商品标题、详情描述、规格参数、价格、图片、用户评论等,以及某社交平台关于商品的帖子。
    2、采集数据:我是用的亮数据爬虫API,它是那种一键采集的模式,只需要通过requests提交商品url就可以获取结构化json数据。
    你不需要处理网站的反爬措施,因为亮数据的接口已经内置了处理IP封锁、验证码的技术,可以绕过自动化程序检测,所以相对稳定。
    3、数据清洗:将数据整理成模型训练需要的标准格式,包含“指令”(任务描述)、“输入”(用户问题)和“输出”(理想回答)的json文件
    4、训练模型,可以采用transform模型

    2025-10-29 11:56:03
    赞同 31 展开评论

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

还有其他疑问?
咨询AI助理