备案控制台

开发者社区人工智能文章正文

NLP7：综合实验

2023-11-13 64

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： NLP7：综合实验

实验要求

完成对中文搜狗新闻语料库的LDA主题提取。

实验内容

一、训练关键词提取算法

（1）加载已有的文档数据集。

为了解决编码错误，将编码改为GB18030：

能读取的文件数量从17678，增加到了17910。

打印文件内容信息，检查是否正确。

（2）加载停用词表。

（3）对数据集中的文档进行分词。并根据停用词表，过滤干扰词。

1.去除文本中的日期和时间

Demo1：

Demo2：

由于还需去除文本中的数字和英文字符，因此对于2022年1月1日这种字符串，去除“年”、“月”、“日”、“时”、“分”、“秒”即可，即将这些字符加入停用词中。而后发现原有停用词已包含这些字符，因此不需要额外处理。

2.去除文本中的数字和英文字符

Demo：

3.去除停用词

\n没有去除。寻找原因：1.停用词中没有\n，因此先打印停用词列表。

找到问题。如果不想让转义字符生效，需要显示字符串原来的意思，这就要用r和R来定义原始字符串。用了r后，还是存在问题。

使用另一种解决方案，问题得到解决。

最终版本：

其中，当len(words) =0时，不添加到列表。

（4）分词后单词的可视化

可以发现，单个词语和市场出现频率很高。

（5）根据数据集训练算法。

发现词频过高的词语会影响主题判断，因此进行过滤。

pyLDAvis是一个可以帮助用户理解语料库中主题分布的一个可视化工具。 pyLDAvis从训练好的LDA主题模型中提取信息，以通Web的交互式形式将主题分布做可视化的展示。

解决：pip install pyLDAvis==2.1.2

基于TF-IDF的建模：

基于计数的建模：

验证：

预期：

C000007 汽车

C000008 财经

C000010 IT

C000013 健康

C000014 体育

C000016 旅游

C000020 教育

C000022 招聘

C000023 文化

C000024 军事

不太符合。。。后期可以改进。

二、对新文档进行关键词提取

（1）对新文档进行分词。

（2）根据停用词表，过滤干扰词。

（3）根据训练好的算法提取关键词。

文章标签：

自然语言处理

数据可视化

算法

关键词：

自然语言处理实验

是Yu欸

目录

相关文章

Want595

|

机器学习/深度学习人工智能自然语言处理

【深度学习】实验18 自然语言处理

【深度学习】实验18 自然语言处理

Want595

74 0 0

阿里云社区

|

人工智能自然语言处理 API

实验：自然语言处理简单实现（二）

实验：自然语言处理简单实现（二）

阿里云社区

93 0 0

阿里云社区

|

人工智能自然语言处理算法

实验：自然语言处理简单实现（一）

实验：自然语言处理简单实现（一）

阿里云社区

124 0 0

三哥一起来编程

|

自然语言处理算法

nlp入门之新闻分类实验

本文使用sougouCy数据集，对收集到的新闻数据进行分类

三哥一起来编程

78 0 0

我的人鱼线呢

|

弹性计算自然语言处理 Ubuntu

ECS服务器使用体验之搭建brat平台，实现文本文件的简单标注，助力NLP实验

放假在家，由于疫情无法返校，实验室的服务器又无法实验外网web访问。使用ECS服务器解决了外网访问的麻烦。轻轻松松随时随地任意网络访问IP，实现brat标注顺利进行。

我的人鱼线呢

436 0 0

ECS服务器使用体验之搭建brat平台，实现文本文件的简单标注，助力NLP实验

蓝天白芸朵

|

人工智能自然语言处理 Java

NLP学习------HanLP使用实验

蓝天白芸朵

2678 0 0

游客qf4jmczx4xu2y

|

1月前

|

机器学习/深度学习人工智能自然语言处理

AI技术在自然语言处理中的应用与挑战

【10月更文挑战第3天】本文将探讨AI技术在自然语言处理（NLP）领域的应用及其面临的挑战。我们将分析NLP的基本原理，介绍AI技术如何推动NLP的发展，并讨论当前的挑战和未来的趋势。通过本文，读者将了解AI技术在NLP中的重要性，以及如何利用这些技术解决实际问题。

游客qf4jmczx4xu2y

91 3 3

ShaFaChuang-36210

|

2月前

|

机器学习/深度学习数据采集自然语言处理

深度学习在自然语言处理中的应用与挑战

本文探讨了深度学习技术在自然语言处理（NLP）领域的应用，包括机器翻译、情感分析和文本生成等方面。同时，讨论了数据质量、模型复杂性和伦理问题等挑战，并提出了未来的研究方向和解决方案。通过综合分析，本文旨在为NLP领域的研究人员和从业者提供有价值的参考。

ShaFaChuang-36210

79 5 5

龙大吉

|

1月前

|

自然语言处理算法 Python

自然语言处理（NLP）在文本分析中的应用：从「被动收集」到「主动分析」

【10月更文挑战第9天】自然语言处理（NLP）在文本分析中的应用：从「被动收集」到「主动分析」

龙大吉

49 4 4

mrq4nk6ni2neg

|

1月前

|

机器学习/深度学习人工智能自然语言处理

探索AI在自然语言处理中的创新应用

【10月更文挑战第7天】本文将深入探讨人工智能在自然语言处理领域的最新进展，揭示AI技术如何改变我们与机器的互动方式，并展示通过实际代码示例实现的具体应用。

mrq4nk6ni2neg

38 1 1

热门文章

最新文章

深度学习和自然语言处理：诠释词向量的魅力

2017年度最值得读的AI论文 | NLP篇 · 评选结果公布

为了理解自然语言，聊天机器人还要走很多“歪路”

自然语言处理商业化发布

魔搭中文开源模型社区：模型即服务-大模型驱动的自然语言开放生态（上）

独家 | 谷歌发布NLP最先进预训练模型：开源BERT

微软职位内部推荐-Senior NLP Scientist

微软职位内部推荐-Senior NLP Scientist & Developer

魔搭中文开源模型社区：模型即服务-大模型驱动的自然语言开放生态（中）

带你读《自然语言处理的认知方法》之二：人类关联规范能否评估机器制造的关联列表

使用Python实现深度学习模型：文本生成与自然语言处理

NLP技术在聊天机器人中的应用：技术探索与实践

自然语言处理（NLP）是人工智能和语言学的一个交叉领域，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

`transformers`库是Hugging Face提供的一个开源库，它包含了大量的预训练模型和方便的API，用于自然语言处理（NLP）任务。在文本生成任务中，`transformers`库提供了许多预训练的生成模型，如GPT系列、T5、BART等。这些模型可以通过`pipeline()`函数方便地加载和使用，而`generate()`函数则是用于生成文本的核心函数。

深度学习在自然语言处理中的应用与挑战

深度学习在自然语言处理中的应用与挑战

深度学习在自然语言处理中的应用与挑战

深度学习在自然语言处理中的应用与挑战

深度学习在自然语言处理中的应用与挑战

深度学习在自然语言处理中的应用与挑战

相关课程

更多

达摩院NLP（自然语言处理）技术和应用

达摩院自然语言处理NLP技术和应用

机器学习基础与回归算法

深度学习原理与实践

机器学习集成学习与模型融合

【算法实战】1. 机器学习基础

相关电子书

更多

自然语言处理得十个发展趋势

自然语言处理的十个发展趋势

深度学习与自然语言处理

相关实验场景

更多

如何快速训练大模型

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

以电商场景为例搭建AI语义搜索应用

AI克隆声音，基于函数计算部署GPT-Sovits语音生成模型

函数计算一键部署AI大语言模型并会话

使用PAI-快速开始，低代码实现大语言模型微调和部署

下一篇

手把手教你白嫖阿里云服务器(免费领服务器)