最近看到bright data有专门用于AI训练的数据,怎么用呢?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
我之前用NLP做过一个电商商品评论情感分析的模型,或许能给到你建议。我是用来聆听自己在某跨境平台户外商品用户评论,看看最新的趋势,大家的喜好之类,还是蛮有价值。
技术方案如下:
1、模型选择python NLTK库提供的语法分析、词性标注功能,搭配Transformers库(BERT)分析文本情感意图
2、数据处理选择numpy和pandas,速度比较快
3、数据集采用的是亮数据提供的amazon数据,亮数据有现成的商品数据集,包含商品名称、价格、标签、描述、评论等,而且是结构化的csv数据,不需要自己写python脚本采集。
如果需要更加复杂的数据,还可以用亮数据的数据抓取api,可以自定义request代码采集数据,而且不需要处理反爬机制,很方便。
4、搭建产品,模型跑好后,我用dash搭建了web看板,将模型集成到应用里,能提供自然对话、自主分析等功能。
阿里云自主研发的通义大模型,凭借万亿级超大规模数据训练和领先的算法框架,实现全模态高效精准的模型服务调用。https://www.aliyun.com/product/tongyi