我现在NLP有大量的商品的价签，里面包含很多的条目，比如“黄鹤楼；单价：100元；产地：湖北；质检员

我现在NLP有大量的商品的价签，里面包含很多的条目，比如“黄鹤楼；单价：100元；产地：湖北；质检员：张三”。我的需求：需要将商品的标签中的每个文本、词都划分到具体的类别中，并且最好能够拆分开键值对关系（如果有的话，键是：单价；值是：100元。类似这样。而“黄鹤楼”或者“品名：美仔牛仔裤”等都划分到“品名”这个实体中）。我有数据，大概一两千；目前没有标注。我这个场景，有什么api可以使用或者试用吗？谢谢这个用文本分类还是命名实体识别、关系抽取比较合适？ ner的话，是否会有残留信息呢？比如说抽取了这些实体之后，是否会有剩余的文本？我的场景是要求每个文本都有其分类。

我的场景是这样，每个文本实体其实都可以通过规则抽取出来。关键是给它们分类；

展开

收起

真的很搞笑 2023-05-03 15:10:44 175 版权

2 条回答

写回答

取消提交回答

LittlePenguin

随心分享，欢迎友善交流讨论：）

针对您的需求，建议您使用命名实体识别（Named Entity Recognition，NER）技术来划分每个文本、词到具体的实体类别中，例如将“黄鹤楼”划分到“品名”实体中，“单价：100元”划分到“单价”实体中等。同时，您也可以使用关系抽取技术，将具有键值对关系的词语提取出来，并将其归为相应的实体类别中。

关于API，您可以考虑使用Python中的自然语言处理工具包，例如spaCy和NLTK，这些工具包可以提供NER和关系抽取功能。此外，您也可以使用基于深度学习的NLP API，例如Google Cloud Natural Language API或IBM Watson Natural Language Understanding等，它们也提供包括NER在内的多种NLP功能。

具体实现过程中，您需要先定义好实体类别和对应的键值对关系，并根据这些规则对文本进行抽取和分类。对于没有标注数据的情况，您可以考虑使用无监督学习或半监督学习技术进行模型训练和分类。同时，针对残留信息的问题，您可以在分类时对未被分类的文本进行处理，例如将其归为通用的“其他”类别中。

2023-05-05 14:16:21

赞同展开评论
芯在这

建议您用命名实体识别先试一下哈要么就用文本实体抽取，实体标签字段可以自定义 https://help.aliyun.com/document_detail/162017.html?spm=a2c4g.144930.0.0.65d13e06LvtUUu，此回答整理自钉群“阿里云NLP基础服务2.0 - 用户答疑群”

2023-05-03 20:00:51

赞同展开评论

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

我现在NLP有大量的商品的价签，里面包含很多的条目，比如“黄鹤楼；单价：100元；产地：湖北；质检员

相关文章