使用机器学习pai产品的studio做新闻分类

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 使用机器学习pai产品的studio做新闻分类

背景
算法简介
数据集介绍
数据探索流程
总结

本文数据为虚构,仅供实验
本实验拟在介绍文本类组件。如果您有相关的需求,想要提高最终的效果,请联系我们。我们为您提供完整的解决方案和商业合作。

背景

新闻分类是文本挖掘领域较为常见的场景。目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式,消耗了大量的人力资源。本文通过智能的文本挖掘算法对新闻文本进行分类。机器学习分为监督学习和无监督学习,本文采用监督学习的方式,实现文本分类任务。处理流程包括了分词、过滤停用词、训练doc2vec、逻辑回归多分类、预测、多分类评估。本文档采用算法和平台提供的案例模板的新闻分类略有不同,数据集下载地址文件1,文件2

算法简介

本文算法原理是用一组向量来表示文档,然后进行多分类的逻辑回归来实现算法。

数据集介绍
数据截图如下:

字段介绍:

Label:新闻类型,也是我们的目标变量。
Text:文本类容

数据探索流程

实验流程图如下:

实现大致分为意下五个步骤:
1:读取数据并增加
2:对文本进行分词并过滤掉停用词
3:根据文本内容训练出doc2vec,拿到文本的向量表征
4:根据目标值进行多分类的逻辑回归
5:预测并进行结果分析

1、 读取数据并增加序号

(1).第一个组件是【读数据表】,表的创建与数据上传可以参考文档:https://help.aliyun.com/document_detail/69244.html?spm=a2c4g.11186623.6.558.3eb719ceorZ9Lq ,读取数据表可以参考文档中该组件试用方法:https://help.aliyun.com/document_detail/42709.html?spm=a2c4g.11186623.6.567.5b0618c0iejak2#%E8%AF%BB%E6%95%B0%E6%8D%AE%E8%A1%A8,执行完成后可以点击该组件右击--》查看数据,来查看你读取到的数据

(2).第二个组件是【增加序列号】,该组件执行完成后会给每一行分配一个append_id编号作为唯一标识,数据如下

(3).第三个组件是【类型转化】,该组件可以将数据类型转换,例如,int转换为string,我们这里将上一个组件生成的append_id编号从int转换到了string(这步骤可以不做,本实验中没什么意义)。

2、对文本进行分词并过滤掉停用词

(1). 第一个组件是【读数据表】,该表一行为一个停用词。
(2). 第二个组件是【split word】,将文本进行分词。


分词完毕结果如下图

(3).第三个组件是【停用词过滤】,对分完词的去掉停用词,停用词在文本中不重要

3、根据文本内容训练出doc2vec,拿到文本的向量表征


该组件是【Doc2Vec】,用一组向量来表征文本,参数设置如下


最终数据如图所示

4、根据目标值进行多分类的逻辑回归


(1).第一个组件是【Join】,由于我们doc2vec组件生成的数据缺失了label,所以我们需要关联原表,拿到label列,注意选择右表输出字段,只有当doc2vec执行完毕才能选到。

(2).第二个组件是【拆分】,按照比例0.8作为训练集,剩余数据作为测试集
(3).第三个组件是【逻辑回归多分类】

5、预测并进行结果分析


(1).第一个组件是预测,设置,生成数据如下


(2).第二个组件是多分类评估

执行完成后右击查看评估报告,可以看到最后的结果还是很不错的

实验总结

实验效果还是不错,F1值到达了0.9以上,超过工业标准的0.8。本实验在数据转换处多余,造成doc2vec完成后数据顺序混乱,当然最后用JOIN组件可以解决掉

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
15天前
|
机器学习/深度学习 算法 数据挖掘
Python数据分析革命:Scikit-learn库,让机器学习模型训练与评估变得简单高效!
在数据驱动时代,Python 以强大的生态系统成为数据科学的首选语言,而 Scikit-learn 则因简洁的 API 和广泛的支持脱颖而出。本文将指导你使用 Scikit-learn 进行机器学习模型的训练与评估。首先通过 `pip install scikit-learn` 安装库,然后利用内置数据集进行数据准备,选择合适的模型(如逻辑回归),并通过交叉验证评估其性能。最终,使用模型对新数据进行预测,简化整个流程。无论你是新手还是专家,Scikit-learn 都能助你一臂之力。
69 8
|
2月前
|
机器学习/深度学习 人工智能 算法
【人工智能】机器学习、分类问题和逻辑回归的基本概念、步骤、特点以及多分类问题的处理方法
机器学习是人工智能的一个核心分支,它专注于开发算法,使计算机系统能够自动地从数据中学习并改进其性能,而无需进行明确的编程。这些算法能够识别数据中的模式,并利用这些模式来做出预测或决策。机器学习的主要应用领域包括自然语言处理、计算机视觉、推荐系统、金融预测、医疗诊断等。
41 1
|
2月前
|
机器学习/深度学习 API 网络架构
"解锁机器学习超级能力!Databricks携手Mlflow,让模型训练与部署上演智能风暴,一触即发,点燃你的数据科学梦想!"
【8月更文挑战第9天】机器学习模型的训练与部署流程复杂,涵盖数据准备、模型训练、性能评估及部署等步骤。本文详述如何借助Databricks与Mlflow的强大组合来管理这一流程。首先需在Databricks环境内安装Mlflow库。接着,利用Mlflow跟踪功能记录训练过程中的参数与性能指标。最后,通过Mlflow提供的模型服务功能,采用REST API或Docker容器等方式部署模型。这一流程充分利用了Databricks的数据处理能力和Mlflow的生命周期管理优势。
83 7
|
2月前
|
机器学习/深度学习 运维 算法
【阿里天池-医学影像报告异常检测】3 机器学习模型训练及集成学习Baseline开源
本文介绍了一个基于XGBoost、LightGBM和逻辑回归的集成学习模型,用于医学影像报告异常检测任务,并公开了达到0.83+准确率的基线代码。
42 9
|
2月前
|
机器学习/深度学习 算法
【机器学习】简单解释贝叶斯公式和朴素贝叶斯分类?(面试回答)
简要解释了贝叶斯公式及其在朴素贝叶斯分类算法中的应用,包括算法的基本原理和步骤。
57 1
|
2月前
|
机器学习/深度学习
如何用贝叶斯方法来解决机器学习中的分类问题?
如何用贝叶斯方法来解决机器学习中的分类问题?
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
基于PAI-QuickStart搭建一站式模型训练服务体验
【8月更文挑战第5天】基于PAI-QuickStart搭建一站式模型训练服务体验
84 0
|
3月前
|
存储 人工智能 弹性计算
|
2月前
|
机器学习/深度学习 存储 人工智能
【机器学习】Qwen1.5-14B-Chat大模型训练与推理实战
【机器学习】Qwen1.5-14B-Chat大模型训练与推理实战
184 0
|
3月前
|
人工智能 自然语言处理 算法
下一篇
无影云桌面