文本特征提取 2|学习笔记

简介: 快速学习文本特征提取 2

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践文本特征提取 2】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15502


文本特征提取 2

 

内容介绍:

一、评论时间分布情况

二、观测每周评论数据变化情况

三、分词去停用词

 

一、评论发布时间分布情况

数据转化,需要做一些基本操作,要把数据做些转化。创建时间就需要把它转化成一个日期的时间格式, panda 中有一个函数 to_datetime, 可以把 datatime 中的 creation_time 转化成标准的时间格式,一个是创建时间,一个是回复引用的时间,这是日期常用的一些属性。

image.png

 

二、观测每周评论数据变化情况

接下来做一个绘图,绘图会使用到一个函数即 subplots, 里面有参数可以设置图像的大小。反过来参数上的一个是图,另一个是画布。除此之外还会使用到 pandas 数据框里面的汇总函数 groupby 。按照两个字段进行汇总,汇总之后要进行计数,也就是对 groupby 汇总进行什么样的操作。

计数之后会给其一个名字 nickname, 最后用函数 unstack 分成行和列展开。

现在有两个码 ‘hour’ 和 ‘weekday’, 用 unstack 把它们分开一个做成行一个做成列。

在数据框 df 即 datafriend 当中,里面的前12条记录在 head 后面的数据框中可以填入12。也可以直接用数据框来绘图,数据框功能很强大,因为在 ax1 中绘图,图上面的线型就是一杠和一点(“—.”)代表线的一个风格,最后进行运行,得到数据框。

image.pngHour 是汇总第一关键字, weekday 是第二汇总关键字, hour 作为行, weekday 作为列。

image.png在图例当中,不同颜色代表0到6,也就是星期一到星期天,0表示星期天,横坐标表示的是小时。从图中可看出星期一到每周日用户评论情况趋势相同,用户活跃时间主要集中在8点到20点时段,深夜活跃度低可能大部分用户在睡觉。

image.png评论长度于评分关系情况,评论长度可以单独给其起一个词段,在数据框当中很方便, content_learn 就是评论内容的长度,用 content 里面的 str 函数来处理长度,要注意数据框中强大的字符串处理函数。在做处理文本数据挖掘中,大量时间都在做文本处理,所以要掌握数据框中各种的简单处理函数提高效率。

image.png以下是绘图结果,评分是1到5分,结果可以看出1星的用户评论长,说明不满意的用户提供更多信息。

 image.png


三、分词去停用词

做文本特征处理需要进行分词,分词先获取停用词,下载停用词表。通过 open 打开停用词表,下载 word_list 变量,这是一个借表格式。

image.png具体的分词过程中,先把 data 中的两个字段 “content” 和 “score” 单独拿出来放到一个 data1 的数据框当中。在 data1 里面就是两个字段。

image.png用 jieba 进行分词,会使用到两个高级函数 “apply” 和 “lamba”。 在 data1 [‘content’]这一列评论内容中引用到一个 apply 函数, apply 函数括号中的参数中用到的是另外一个函数,此函数功能强大,效率非常高。括号里面应该用到一个快速函数方法 lamba 还有 lamba 中的参数。

参数处理中会有空格,把 “jion” 与 jieba.cut 连接起来。 Jieba cut 是分词,其后 x 是传进来的数据框 data1[‘content’],也就是每一行评论由 cut 进行分词,此外还会放到  data1[‘seg_words’] 这一列当中。

image.png分词的结果有5条,每个词之间都会空格。

image.png

相关文章
|
9月前
|
机器学习/深度学习 人工智能 缓存
探秘 DeepSeek:那些你必须了解的事
DeepSeek是一家由中国幻方量化支持的创新型AI公司,专注于开发高性能、低成本的大语言模型。其独特的技术路径打破了参数规模、能耗成本和认知可靠性之间的“三元悖论”,实现了在单张显卡上运行170亿参数模型的突破。DeepSeek通过开源策略和高性价比模型(如DeepSeek-R1),大幅降低了AI应用门槛,推动了全球开发者社区的发展。其应用场景广泛覆盖教育、医疗、金融等领域,显著提升了工作效率和服务质量。DeepSeek的成功不仅在于技术创新,更在于其开放合作的理念,正引领AI行业的新变革。
1498 9
探秘 DeepSeek:那些你必须了解的事
|
8月前
|
存储 人工智能 物联网
ACK Gateway with AI Extension:大模型推理的模型灰度实践
本文介绍了如何使用 ACK Gateway with AI Extension 组件在云原生环境中实现大语言模型(LLM)推理服务的灰度发布和流量分发。该组件专为 LLM 推理场景设计,支持四层/七层流量路由,并提供基于模型服务器负载感知的智能负载均衡能力。通过自定义资源(CRD),如 InferencePool 和 InferenceModel,可以灵活配置推理服务的流量策略,包括模型灰度发布和流量镜像。
|
11月前
|
设计模式 C# C++
责任链模式(Chain of Responsibility Pattern)
责任链模式是一种行为型设计模式,允许多个对象按顺序处理请求,直到某个对象处理为止。适用于多个对象可能处理同一请求的场景,如请假审批流程。优点是灵活性高、降低耦合,但责任链过长可能影响性能。
|
机器学习/深度学习 运维 监控
开源日志分析Kibana
【10月更文挑战第22天】
333 3
|
JavaScript Java 测试技术
基于SpringBoot+Vue+uniapp的连锁超市会员管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue+uniapp的连锁超市会员管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
243 1
|
移动开发 弹性计算 前端开发
开年见礼!云开发生态激励计划上线,近万元补贴等新年福利请查收
工欲善其事,必先得其器,一款得心应手的编程工具,对于程序员来说无疑是效率神器,可以令开发工作事半功倍。阿里云云开发平台自发布1年半以来,为十几万开发者带来的效率加成和提升。今年云开发平台进一步升级演化,除了Web应用以外,天猫精灵智能应用平台、钉钉开放平台、支付宝开放平台将云开发平台集成到研发链路中,满足IoT语音技能、小程序、H5应用等开发者低门槛应用开发的需求。
开年见礼!云开发生态激励计划上线,近万元补贴等新年福利请查收
|
SQL 关系型数据库 Linux
信创迁移适配预研-达梦数据库DM8服务与客户端工具安装使用
信创迁移适配预研-达梦数据库DM8服务与客户端工具安装使用
864 0
信创迁移适配预研-达梦数据库DM8服务与客户端工具安装使用
|
分布式计算 Hadoop Java
hadoop配置
hadoop配置
404 0
|
机器学习/深度学习 人机交互 云栖大会
专访微软研究院张正友:从“张氏标定法”到人机交互,20年视觉技术的探索
张正友博士,是世界著名的计算机视觉和多媒体技术的专家,ACM Fellow,IEEE Fellow。他在立体视觉、三维重建、运动分析、图像配准、摄像机自标定等方面都有开创性的贡献。
7244 0
专访微软研究院张正友:从“张氏标定法”到人机交互,20年视觉技术的探索