备案控制台

开发者社区人工智能文章正文

【机器学习PAI实践七】文本分析算法实现新闻自动分类

2017-06-02 1848

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

交互式建模 PAI-DSW，5000CU*H 3个月

模型训练 PAI-DLC，5000CU*H 3个月

简介： 一、背景新闻分类是文本挖掘领域较为常见的场景。目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式，消耗了大量的人力资源。本文尝试通过智能的文本挖掘算法对于新闻文本进行分类。无需任何人肉打标，完全由机器智能化实现。本文通过PLDA算法挖掘文章的主题，通过主题权重的聚类，实现新闻自动分类。包括了分词、词型转换、停用词过滤、主题挖掘、聚类等流程。

一、背景

新闻分类是文本挖掘领域较为常见的场景。目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式，消耗了大量的人力资源。本文尝试通过智能的文本挖掘算法对于新闻文本进行分类。无需任何人肉打标，完全由机器智能化实现。

本文通过PLDA算法挖掘文章的主题，通过主题权重的聚类，实现新闻自动分类。包括了分词、词型转换、停用词过滤、主题挖掘、聚类等流程。

二、数据集介绍

具体字段如下：

字段名	含义	类型	描述
category	新闻类型	string	体育、女性、社会、军事、科技等
title	标题	string	新闻标题
content	内容	string	新闻内容

数据截图：

三、数据探索流程

首先，实验流程图：

实验可以大致分为五个模块，分别是增加序号列、停用词过滤、分词及词频统计、文本主题挖掘、结果分析和评估。

1.增加序号列

本文的数据源输入是以单个新闻为单元，需要增加ID列来作为每篇新闻的唯一标识，方便下面的算法进行计算。

2.分词及词频统计

这两步都是文本挖掘领域最常规的做法，首先利用分词控件对于content字段，也就是新闻内容进行分词。去除过滤词之后（过滤词一般是标点符号及助语），对于词频进行统计。
如下图：

3.停用词过滤

停用词过滤功能用于过滤输入的停用词词库，一般过滤标点符号以及对于文章影响较少的助语等。

4.文本主题挖掘

使用PLDA文本挖掘组件需要先将文本转换成三元形式，append_id是每篇新闻的唯一标识，key_value字段中冒号前面的数字表示的是单词抽象成的数字标识，冒号后面是对应的单词出现的频率。三元组组件生成结果如下：

在上一步完成了文本转数字的过程，下一步数据进入PLDA算法。PLDA算法又叫主题模型，算法可以定位代表每篇文章的主题的词语。本次试验设置了50个主题，PLDA有六个输出桩，第五个输出桩输出结果显示的是每篇文章对应的每个主题的概率。如图：

5.结果分析和评估

上一步把文章从主题的维度表示成了一个向量。接下来就可以通过向量的距离实现聚类，从而实现文章分类。我们这里可以简单看一下分类的结果。查看K均值聚类组件的结果，cluster_index表示的是每一类的名称。找到第0类，一共有docid为115，292，248，166四篇文章。

通过过滤与映射组件查询115，292，248，166四篇文章。结果如下：

效果并不十分理想，将一篇财经、一篇科技的新闻跟两个体育类新闻分到了一起。主要原因是细节的调优没有做，也没有做特征工程，同时数据量太小也是一个主要的因素。本文只是一个简单的案例，商业合作可以私下联系我们，我们在文本方面我们有较完善的解决方案。

四、其它

作者微信公众号（与我联系）：

文章标签：

人工智能平台 PAI

算法

机器学习/深度学习

自然语言处理

数据挖掘

关键词：

人工智能平台 PAI实践

机器学习人工智能平台 PAI

算法分类

人工智能平台 PAI算法

机器学习算法

相关实践学习

使用PAI-EAS一键部署ChatGLM及LangChain应用

本场景中主要介绍如何使用模型在线服务（PAI-EAS）部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理，并通过LangChain集成自己的业务数据。

机器学习概览及常见算法

机器学习(Machine Learning, ML)是人工智能的核心，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，它是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。本课程将带你入门机器学习，掌握机器学习的概念和常用的算法。

傲海

目录

相关文章

子午s

|

14天前

|

机器学习/深度学习算法 TensorFlow

交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面

交通标志识别系统。本系统使用Python作为主要编程语言，在交通标志图像识别功能实现中，基于TensorFlow搭建卷积神经网络算法模型，通过对收集到的58种常见的交通标志图像作为数据集，进行迭代训练最后得到一个识别精度较高的模型文件，然后保存为本地的h5格式文件。再使用Django开发Web网页端操作界面，实现用户上传一张交通标志图片，识别其名称。

子午s

43 6 6

交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面

众所周知

|

13天前

|

机器学习/深度学习算法数据挖掘

Python数据分析革命：Scikit-learn库，让机器学习模型训练与评估变得简单高效！

在数据驱动时代，Python 以强大的生态系统成为数据科学的首选语言，而 Scikit-learn 则因简洁的 API 和广泛的支持脱颖而出。本文将指导你使用 Scikit-learn 进行机器学习模型的训练与评估。首先通过 `pip install scikit-learn` 安装库，然后利用内置数据集进行数据准备，选择合适的模型（如逻辑回归），并通过交叉验证评估其性能。最终，使用模型对新数据进行预测，简化整个流程。无论你是新手还是专家，Scikit-learn 都能助你一臂之力。

众所周知

67 8 8

Python大数据分析

|

2月前

|

机器学习/深度学习算法数据挖掘

8个常见的机器学习算法的计算复杂度总结

8个常见的机器学习算法的计算复杂度总结

Python大数据分析

126 4 5

8个常见的机器学习算法的计算复杂度总结

子午s

|

15天前

|

机器学习/深度学习存储人工智能

文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计

使用Python作为开发语言，基于文本数据集（一个积极的xls文本格式和一个消极的xls文本格式文件），使用Word2vec对文本进行处理。通过支持向量机SVM算法训练情绪分类模型。实现对文本消极情感和文本积极情感的识别。并基于Django框架开发网页平台实现对用户的可视化操作和数据存储。

子午s

20 0 0

文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计

八百标兵奔北坡

|

28天前

|

机器学习/深度学习数据采集算法

数据挖掘和机器学习算法

数据挖掘和机器学习算法

八百标兵奔北坡

38 5 6

Deephub

|

1月前

|

机器学习/深度学习数据采集存储

一文读懂蒙特卡洛算法：从概率模拟到机器学习模型优化的全方位解析

蒙特卡洛方法起源于1945年科学家斯坦尼斯劳·乌拉姆对纸牌游戏中概率问题的思考，与约翰·冯·诺依曼共同奠定了该方法的理论基础。该方法通过模拟大量随机场景来近似复杂问题的解，因命名灵感源自蒙特卡洛赌场。如今，蒙特卡洛方法广泛应用于机器学习领域，尤其在超参数调优、贝叶斯滤波等方面表现出色。通过随机采样超参数空间，蒙特卡洛方法能够高效地找到优质组合，适用于处理高维度、非线性问题。本文通过实例展示了蒙特卡洛方法在估算圆周率π和优化机器学习模型中的应用，并对比了其与网格搜索方法的性能。

Deephub

165 1 1

Python大数据分析

|

2月前

|

机器学习/深度学习算法数据挖掘

机器学习必知必会10大算法

机器学习必知必会10大算法

Python大数据分析

32 0 1

Python大数据分析

|

2月前

|

机器学习/深度学习算法数据挖掘

【白话机器学习】算法理论+实战之决策树

【白话机器学习】算法理论+实战之决策树

Python大数据分析

38 0 1

Python大数据分析

|

2月前

|

机器学习/深度学习存储算法

图解最常用的 10 个机器学习算法！

图解最常用的 10 个机器学习算法！

Python大数据分析

25 0 0

cz游客

|

2月前

|

机器学习/深度学习存储并行计算

C语言与机器学习：K-近邻算法实现

C语言与机器学习：K-近邻算法实现

cz游客

39 0 0

热门文章

最新文章

中国人工智能学会通讯——最优传输理论在机器学习中的应用 1.1 最优传输理论与 WGAN 模型

机器学习-异常检测算法（二）：Local Outlier Factor

SLS机器学习最佳实战：批量时序异常检测

机器学习常用函数解析

周志华机器学习课后习题解析【第二章】

《阿里云AI产品必知必会系列电子书》——机器学习平台PAI——DLC Quick Start使用教程

谷歌的机器学习云是不是一个好选项？

机器学习实战 | SKLearn入门与简单应用案例

【机器学习算法-python实现】扫黄神器-朴素贝叶斯分类器的实现

Andrew Ng机器学习课程笔记--week1（机器学习介绍及线性回归）

【AAAI 2024】再创佳绩！阿里云人工智能平台PAI多篇论文入选

阿里云人工智能平台PAI多篇论文入选EMNLP 2023

阿里云人工智能平台 PAI 扩散模型加速采样算法论文入选 CIKM 2023

MVVM模型，虚拟DOM和diff算法

Opencv（C++）学习系列---Laplacian拉普拉斯边缘检测算法

Opencv(C++)学习系列---Canny边缘检测算法

使用python实现FP-Growth算法

使用C语言实现DES算法代码

ICLR 2024：近似最优的最大损失函数量子优化算法

基于yolov2深度学习网络的视频手部检测算法matlab仿真

相关课程

更多

PAI平台学习路线：机器学习入门到应用

场景实践 - 机器学习PAI实现精细化营销

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

场景实践 - 基于机器学习进行收入预测分析

机器学习概览及常见算法

机器学习入门-概念原理及常用算法

相关电子书

更多

大规模机器学习在蚂蚁+阿里的应用

阿里巴巴机器学习平台AI

机器学习及人机交互实战

相关实验场景

更多

基于函数计算实现AI推理

函数计算实战-云开发创建视觉AI应用

推荐系统入门之使用协同过滤实现商品推荐

推荐系统入门之使用ALS算法实现打分预测

自然语言入门：NLP数据读取与数据分析

一键创建和部署高分电影推荐语音技能

下一篇

无影云桌面