机器学习实现海量新闻自动分类

2017-02-08 5281

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 通过最佳实践帮助您实现上述案例效果 Step1：数据导入MaxCompute 1.1 创建需要上传的本地数据新闻文本表： ign="top"> 字段名含义类型描述 category 新闻类型 string

通过最佳实践帮助您实现上述案例效果

Step1：数据导入MaxCompute

1.1 创建需要上传的本地数据

新闻文本表：

字段名	含义	类型	描述
category	新闻类型	string	体育、女性、社会、军事、科技等
title	标题	string	新闻标题
content	内容	string	新闻内容

源数据：nlp_use

stop_words表：

字段名	含义	类型	描述
point	用户名	string	人
stop_words	标点符号	string	" " ,等

源数据：stop_words

1.2 创建MaxCompute表

1.2.1 开通MaxCompute

阿里云实名认证账号访问https://www.aliyun.com/product/odps ，开通MaxCompute，选择按量付费进行购买。

1.2.2 数加上创建MaxCompute project

操作步骤:

步骤1: 进入数加管理控制台，前面开通MaxCompute成功页面，点击管理控制台，或者导航产品->大数据（数加）->MaxCompute 点击“管理控制台”。

步骤2: 创建项目。付费模式选择I/O后付费，输入项目名称：

步骤3: 创建MaxCompute表。进入大数据开发套件的数据开发页面

以开发者身份进入阿里云数加平台>大数据开发套件>管理控制台，点击对应项目操作栏中的进入工作区

1.2.3 创建表

点击菜单数据管理，右上新建表

1.2.4 填写信息配置

在新建表页面中填写基础信息的各配置项，点击下一步

在新建表页面中填写字段和分区信息的各配置项

1.2.5 点击提交

新建表提交成功后，系统将自动跳转返回数据表管理界面，点击我管理的表即可看到新建表

1.3 导入本地文件

进入大数据开发套件控制台，点击对应项目的进入工作区，点击菜单数据开发-->导入-->导入本地数据

选择目标表，并选择字段匹配方式，点击导入

文件导入成功后，系统右上角将提示文件导入成功，同时可以执行select语句查看数据

同样方法创建stop_words表

注意：如果原始字符集设GBK中文出现乱码，可改为UTF-8

Step2：机器学习中的数据准备

进入机器学习管理控制台，点击对应项目的进入机器学习

选择需要的租户及工作空间，点击“提交”

进入机器学习页面后，右击我的实验点击新建空白实验，输入实验名和实验描述

切换到组件栏，向画布中拖入读数据表，点击读数据表，在右侧表选择栏填入你的MaxCompute表

切换到字段信息栏，可以查看输入表的字段名、数据类型和前100行数据的数值分布

Step3：数据探索流程

实验流程图：

3.1 增加序号列

本文的数据源输入是以单个新闻为单元，需要增加ID列来作为每篇新闻的唯一标识，方便下面的算法进行计算。

3.1.1 增加序列号

切换至组件栏，向画布中拖入数据合并-->增加序号列，将nlp_use源表的输出与增加序号列连接，点击增加序号列，在右侧字段设置中进行填写

TB1.Xw1OVXXXXXGXVXXXXXXXXXX-1088-196.png

右击增加序列号点击执行后，查看数据

3.1.2 类型转换

向画布中拖入数据合并-->类型转换，将增加序号列输入到类型转换中，点击类型转换，在右侧选择字段

右击类型转换点击执行后，查看数据

3.2 分词及词频统计

这两步都是文本挖掘领域最常规的做法，首先利用分词控件对于content字段，也就是新闻内容进行分词。去除过滤词之后（过滤词一般是标点符号及助语），对于词频进行统计。

3.2.1 分词

切换至组件栏，向画布中拖入文本分析-->Split Word，将类型转换的输出连接到Split Word的输入数据表中，点击Split Word，在右侧设置字段

右击Split Word点击执行后，查看数据

3.2.2 词频统计

切换至组件栏，向画布中拖入文本分析-->词频统计

3.3 停用词过滤

停用词过滤功能用于过滤输入的停用词词库，一般过滤标点符号以及对于文章影响较少的助语等。

3.3.1 添加读数据表

切换到组件栏，向画布中拖入读数据表，点击读数据表，在右侧表选择栏填入你的MaxCompute表

右击读数据表点击执行，查看数据

3.3.2 停用词过滤

切换至组件栏，向画布中拖入文本分析-->停用词过滤，将Split Word的输出和stop_words源表的输出分别与停用词过滤进行连接，点击停用词过滤，在右侧选择字段

TB1Hg7.OVXXXXaAXpXXXXXXXXXX-996-347.png

右击停用词过滤点击执行，查看数据

3.3.3 词频统计

向画布中拖入文本分析-->词频统计，将停用词过滤的输出表与词频统计连接，在右侧设置字段

右击词频统计点击执行，查看数据

3.4 文本主题挖掘

使用PLDA文本挖掘组件需要先将文本转换成三元形式，append_id是每篇新闻的唯一标识，key_value字段中冒号前面的数字表示的是单词抽象成的数字标识，冒号后面是对应的单词出现的频率。

3.4.1 三元组转kv

切换至组件栏，向画布中拖入文本分析-->三元组转kv,将词频统计的三元组输出与三元组转kv的输入表连接，点击三元组转kv，在右侧设置字段

右击三元组转kv点击执行，查看数据

3.4.2 PLDA

在上一步完成了文本转数字的过程，下一步数据进入PLDA算法。PLDA算法又叫主题模型，算法可以定位代表每篇文章的主题的词语。本次试验设置了50个主题，PLDA有六个输出桩，第五个输出桩输出结果显示的是每篇文章对应的每个主题的概率。

切换至组件栏，向画布中拖入文本分析-->PLDA,将三元组转kv的输出表与PLDA连接，点击PLDA，在右侧进行字段和参数设置

TB1CD.zOVXXXXbBaFXXXXXXXXXX-276-402.png

右击PLDA点击执行后，查看数据

3.4.3 SQL脚本

向画布中拖入工具-->SQL脚本，将PLDA的第五个输出桩与SQL脚本连接，点击SQL脚本，在右侧写SQL语句

select * from ${t1};

右击SQL脚本点击执行后，查看数据

3.5 结果分析和评估

3.5.1 K均值聚类

上一步把文章从主题的维度表示成了一个向量。接下来就可以通过向量的距离实现聚类，从而实现文章分类。我们这里可以简单看一下分类的结果。查看K均值聚类组件的结果，cluster_index表示的是每一类的名称。找到第0类，一共有docid为115，292，248，166四篇文章。

向画布中拖入机器学习-->聚类-->K均值聚类，将SQL脚本的输出与K均值聚类的输入数据连接，点击K均值聚类，在右侧进行字段和参数设置

右击K均值聚类点击执行后，查看数据

3.5.2 过滤与映射

通过过滤与映射组件查询115，292，248，166四篇文章

向画布中拖入数据预处理-->采样与过滤-->过滤与映射，将类型转换中转换后的数据表输入到过滤与映射中，点击过滤与映射，在右侧写入过滤条件

append_id=292 or append_id=115  or append_id=248 or append_id=166 ;

右击过滤与映射点击执行后，查看数据

本文只是一个简单的案例，商业合作可以私下联系我们，我们在文本方面我们有较完善的解决方案。

机器学习实现海量新闻自动分类

Step1：数据导入MaxCompute

Step2：机器学习中的数据准备

Step3：数据探索流程

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

机器学习实现海量新闻自动分类

Step1：数据导入MaxCompute

Step2：机器学习中的数据准备

Step3：数据探索流程

热门文章

最新文章

相关课程

相关电子书

相关实验场景