我现在NLP有大量的商品的价签,里面包含很多的条目,比如“黄鹤楼;单价:100元;产地:湖北;质检员:张三”。我的需求:需要将商品的标签中的每个文本、词都划分到具体的类别中,并且最好能够拆分开键值对关系(如果有的话,键是:单价;值是:100元。类似这样。而“黄鹤楼”或者“品名:美仔牛仔裤”等都划分到“品名”这个实体中)。 我有数据,大概一两千;目前没有标注。 我这个场景,有什么api可以使用或者试用吗 ?谢谢 这个用文本分类还是命名实体识别、关系抽取 比较合适? ner的话,是否会有残留信息呢?比如说抽取了这些实体之后,是否会有剩余的文本?我的场景是要求每个文本都有其分类。
我的场景是这样,每个文本实体其实都可以通过规则抽取出来。关键是给它们分类;
针对您的需求,建议您使用命名实体识别(Named Entity Recognition,NER)技术来划分每个文本、词到具体的实体类别中,例如将“黄鹤楼”划分到“品名”实体中,“单价:100元”划分到“单价”实体中等。同时,您也可以使用关系抽取技术,将具有键值对关系的词语提取出来,并将其归为相应的实体类别中。
关于API,您可以考虑使用Python中的自然语言处理工具包,例如spaCy和NLTK,这些工具包可以提供NER和关系抽取功能。此外,您也可以使用基于深度学习的NLP API,例如Google Cloud Natural Language API或IBM Watson Natural Language Understanding等,它们也提供包括NER在内的多种NLP功能。
具体实现过程中,您需要先定义好实体类别和对应的键值对关系,并根据这些规则对文本进行抽取和分类。对于没有标注数据的情况,您可以考虑使用无监督学习或半监督学习技术进行模型训练和分类。同时,针对残留信息的问题,您可以在分类时对未被分类的文本进行处理,例如将其归为通用的“其他”类别中。
建议您用命名实体识别先试一下哈 要么就用文本实体抽取,实体标签字段可以自定义 https://help.aliyun.com/document_detail/162017.html?spm=a2c4g.144930.0.0.65d13e06LvtUUu,此回答整理自钉群“阿里云NLP基础服务2.0 - 用户答疑群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。