生成词云图的话需要先对数据进行分词处理 , 分词方法点击查看
import pandas as pd from collections import Counter from wordcloud import WordCloud import matplotlib.pyplot as plt # 假设您已经按照之前的步骤处理了数据,并且处理后的数据保存在'comments_processed.csv'文件中 # 读取处理后的数据 df = pd.read_csv('comments_processed.csv', encoding='utf-8-sig') # 假设处理后的词汇存储在'connected_words'列中 words = ' '.join(df['connected_words'].values) cleaned_stt = ' '.join(words.strip().split()) # 使用 split() 方法将字符串分割为列表 word_list = cleaned_stt.split(' ') word_counts = Counter(word_list) # 提取前20个高频词(如果词的数量少于20个,则提取所有) top_words = word_counts.most_common(80) # 准备用于生成词云的数据 # 将高频词和它们的词频分开 top_words_list, top_words_freq = zip(*top_words) # 将词频列表转换为字典,用于wordcloud的权重参数 word_freq_dict = dict(top_words) word_freq_dict1 = {'性能': 3351, '外观': 1086, '舒适': 806, '环保': 591, '智能': 433, '越野': 416, '坐在': 400, '前排': 389, '东西': 367, '拥挤': 360, '座椅': 338, '很大': 305, '储物': 304, '不错': 303, '车子': 277, '足够': 266, '腿部': 263, '舒服': 242, '设计': 238, '车内': 231} word_freq_dict.update(word_freq_dict1) print(word_freq_dict) # 创建词云对象,并指定字体(确保支持中文) wordcloud = WordCloud(width=1200, height=800, background_color='white', font_path=fr'fonts\xiawuxiheixinban.ttf' # 或者其他支持中文的字体文件路径 ).generate_from_frequencies(word_freq_dict) # 显示词云图 plt.figure(figsize=(8, 8), facecolor=None) plt.imshow(wordcloud, interpolation="bilinear") plt.axis("off") plt.tight_layout(pad=0) plt.show()