文本分类 中|学习笔记

简介: 快速学习文本分类 中

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践文本分类 中】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15522


文本分类 中

 

主要内容

一、文本分类的一些应用场景

二、文本分类简史

 

一、文本分类的一些应用场景

1、新闻分类、邮件过滤

各类分类、垃圾邮件,垃圾邮件分成两类:第一类为Spam ,第二类为Not Spam,此为一个文本分类的应用。

2、舆情监控

如果发生任何紧急情况,当局可以对紧急情况进行监视和分类,以做出快速响应。此为政府部门最为关注的事情。

3、感情分类&观点挖掘

之前讲解了情感分析,具体为正面的/负面的,积极的/消极的,感兴趣的/不感兴趣的,主要取决于不同的应用需求,主要应用在一些产品的评论里面,此企业单位很重视的,包括事业单位同样重视,若有负面消息方面的报道需要第一时间进行解决。

之前有一则新闻:有一研究生在地铁上有不文明行为,将垃圾随处仍在地铁上,甚至与别人发生冲突,团委第一时间辟谣,声明不是本校研究生所为,接着学院也同时进行辟谣。

4、使用类别标记产品或内容

对产品和内容使用标签对网站上的内容进行文本分类可帮助搜索引擎收录网站;研究和分析竞争对手使用的标签和关键字,竞争情报分析。例如微博里面每个人都有自己的标签,标签也是一种分类,文章分类的标签,关于财经、经济、会计、市场营销等。

5、CRM 系统中自动客户服务

CRM任务可以根据重要性和相关性直接分配和分析。它减少了人工工作,因此具有很高的时间效率。

(1)营销人员可以根据用户在线谈论产品或品牌的方式来对其进行监视和分类

(2)学术文献分类,专利文献分类,法律文献分类,专利有新的专利分类法,故对此分类就需要使用文本分类进行解决。

(3)对大型文本数据进行分类有助于使搜索更容易且更相关,简化导航来改善用户体验。

 

三、文本分类简史

image.png1998年之前,许多文本分类需要依赖专家人工处理,耗时费力,有许多分类法对文本进行分类,早期还是十分麻烦的。大约1998-2013年,发展到机器学习,特征提取、文本表示,但特征工程质量不高,分类的准确率并不高。

2013-2016年之后开始发展为分布式表示,利用神经网络,这节课之前补了一些数字科学的部分内容,故之后就不进行深度学习,原来计划是接着学习,但是已经有了基础之后,同学们可以自行拓展。分布式表示、神经网络在2016-2018年发展的巨快,2013-2016年为TextCNN,2016-2018年为TextRNN,2018-2020年,有许多新的一些表示方法如ELMO,BERT,后面还会有许多变化,例如新出的GPT3,参数为3E,希望文本能够递减。对文本进行理解,若有一条路径是可行的就为量化表示,特别是一次向量的分布式表示,故此同济数学专业越来越强大。也就是说,找到一条路径,之前是用词表,同时也还有其他路径,为将概念性的内容整理出来,就为本体。

但是本体很难搞定一种通用场景,完成一个项目还是比较困难的,每一个领域需要一群专家进行构造本体,本体就是将概念全部建立起来。解决文本的语义全部途径,一种为将概念体系健全,就像一个专家把课程知识都学会,另一种途径为模式识别,向机器学习发展领域,事实证明在企业里面第二种途径更容易工程化,故此条路径发展十分快。

若同学们做出贡献,能够研究出向量的一种新的表示方法,让它的语义更强大,文本的各种歧义及不同场合,若能够解决以上问题,人工智能将会提升一个新的高度。感知人工智能为人类专家想到的借助计算机进行制造。

所谓的下一代人工智能为认知智能,需要解决的一个最大的问题为文本语言,认知可以进行推理,以上为文本分类简史的内容。希望同学们能够加强重视,将有关统计数学的知识使用到里面。

相关文章
|
3天前
|
弹性计算 人工智能 安全
云上十五年——「弹性计算十五周年」系列客户故事(第二期)
阿里云弹性计算十五年深耕,以第九代ECS g9i实例引领算力革新。携手海尔三翼鸟、小鹏汽车、微帧科技等企业,实现性能跃升与成本优化,赋能AI、物联网、智能驾驶等前沿场景,共绘云端增长新图景。
|
9天前
|
存储 弹性计算 人工智能
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
2025年9月24日,阿里云弹性计算团队多位产品、技术专家及服务器团队技术专家共同在【2025云栖大会】现场带来了《通用计算产品发布与行业实践》的专场论坛,本论坛聚焦弹性计算多款通用算力产品发布。同时,ECS云服务器安全能力、资源售卖模式、计算AI助手等用户体验关键环节也宣布升级,让用云更简单、更智能。海尔三翼鸟云服务负责人刘建锋先生作为特邀嘉宾,莅临现场分享了关于阿里云ECS g9i推动AIoT平台的场景落地实践。
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
|
7天前
|
人工智能 自然语言处理 自动驾驶
关于举办首届全国大学生“启真问智”人工智能模型&智能体大赛决赛的通知
关于举办首届全国大学生“启真问智”人工智能模型&智能体大赛决赛的通知
|
7天前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
|
8天前
|
编解码 自然语言处理 文字识别
Qwen3-VL再添丁!4B/8B Dense模型开源,更轻量,仍强大
凌晨,Qwen3-VL系列再添新成员——Dense架构的Qwen3-VL-8B、Qwen3-VL-4B 模型,本地部署友好,并完整保留了Qwen3-VL的全部表现,评测指标表现优秀。
636 7
Qwen3-VL再添丁!4B/8B Dense模型开源,更轻量,仍强大
|
3天前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
348 11
|
10天前
|
存储 机器学习/深度学习 人工智能
大模型微调技术:LoRA原理与实践
本文深入解析大语言模型微调中的关键技术——低秩自适应(LoRA)。通过分析全参数微调的计算瓶颈,详细阐述LoRA的数学原理、实现机制和优势特点。文章包含完整的PyTorch实现代码、性能对比实验以及实际应用场景,为开发者提供高效微调大模型的实践指南。
762 2
|
2天前
|
编解码 文字识别 算法
一张图能装下“千言万语”?DeepSeek-OCR 用视觉压缩长文本,效率提升10倍!
一张图能装下“千言万语”?DeepSeek-OCR 用视觉压缩长文本,效率提升10倍!
264 2