​「Python大数据」VOC数据统计聚类

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: 使用Python脚本`learning.py`对VOC数据进行分词处理和聚类分析,借助jieba库去除停用词并统计词频。前处理后,筛选出频率最高的2000个名词存入`名词top2000.txt`。关键步骤包括加载自定义词典`luyouqi.txt`和停用词列表`stopwordsfull`。

前言

本文主要介绍通过python实现数据聚类、脚本开发、办公自动化。读取voc数据,聚类voc数据。

一、业务逻辑

  • 读取voc数据采集的数据
  • 批处理,使用jieba进行分词,去除停用词,词频统计聚类
  • 保存聚类后的数据写入到.txt文件中

    二、具体产出

    在这里插入图片描述

三、执行脚本

python learning.py

四、脚本

# VOC数据聚类
import pandas as pd
import jieba
import jieba.posseg as pseg
from collections import Counter

fileName = "100034532823" # sku

# 加载数据
df = pd.read_excel('clean/cleaned_voc'+fileName+'.xlsx')

# 创建一个 Counter 对象来存储词频统计结果
counter = Counter()

# 加载停用词
with open('stopwordsfull', 'r', encoding='utf-8',errors='replace') as f:
    stopwords = [line.strip() for line in f.readlines()]
    # print(stopwords)

# 加载自定义词典
jieba.load_userdict("luyouqi.txt")  # luyouqi.txt is your custom dictionary



# 遍历每行评论
for line in df['cleaned_comments']:
    # 将预处理和分词后的评论按空格拆分
    words = str(line).split()

    # 对每个词进行词性标注
    for word in words:
        # jieba 的词性标注需要一个完整的句子作为输入,因此我们需要将词语拼接回句子
        sentence = ''.join(word)

        # 使用 jieba 进行词性标注
        words_and_tags = pseg.cut(sentence)

        # 遍历标注结果
        for word, tag in words_and_tags:
            # 过滤出名词
            if tag.startswith('n') and len(word) > 1 and word not in stopwords:
            #if len(word) > 1 and word not in stopwords:
                # 将名词添加到 counter 中
                counter[word] += 1

# 获取词频最高的300个词
top300 = counter.most_common(2000)
# 写入到txt文件中
with open('learning/'+fileName+'名词top2000.txt', 'w') as f:
    for word, freq in top300:
        f.write(f"{word}\t{freq}\n")

五、关键文件

luyouqi.text 分词字典(片段)

2.4G
2.5G口
软路由
2.5G
WiFi
WiFi5
WiFi6
WiFi4

stopwordsfull 停用词(片段)

客户
层面
菜鸟
滑丝
换货
三思
固记
厂商
吸引力
体会
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
8月前
|
存储 分布式计算 大数据
基于Python大数据的的电商用户行为分析系统
本系统基于Django、Scrapy与Hadoop技术,构建电商用户行为分析平台。通过爬取与处理海量用户数据,实现行为追踪、偏好分析与个性化推荐,助力企业提升营销精准度与用户体验,推动电商智能化发展。
|
8月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的台风灾害分析及预测系统
针对台风灾害预警滞后、精度不足等问题,本研究基于Python与大数据技术,构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率,结合Django框架实现动态可视化与实时预警,为防灾决策提供科学支持,显著提高应急响应效率,具有重要社会经济价值。
|
8月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
9月前
|
数据采集 机器学习/深度学习 人工智能
Python:现代编程的首选语言
Python:现代编程的首选语言
1530 102
|
9月前
|
数据采集 机器学习/深度学习 算法框架/工具
Python:现代编程的瑞士军刀
Python:现代编程的瑞士军刀
493 104
|
9月前
|
人工智能 自然语言处理 算法框架/工具
Python:现代编程的首选语言
Python:现代编程的首选语言
387 103
|
9月前
|
机器学习/深度学习 人工智能 数据挖掘
Python:现代编程的首选语言
Python:现代编程的首选语言
406 82
|
8月前
|
Python
Python编程:运算符详解
本文全面详解Python各类运算符,涵盖算术、比较、逻辑、赋值、位、身份、成员运算符及优先级规则,结合实例代码与运行结果,助你深入掌握Python运算符的使用方法与应用场景。
511 3

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 推荐镜像

    更多