ML之H-Clusters:基于H-Clusters算法利用电影数据集实现对top 100电影进行文档分类

简介: ML之H-Clusters:基于H-Clusters算法利用电影数据集实现对top 100电影进行文档分类

输出结果


先看输出结果


image.png



实现代码


# -*- coding: utf-8 -*-

import numpy as np

import pandas as pd

import nltk

from bs4 import BeautifulSoup

import re

import os

import codecs

from sklearn import feature_extraction

#import three lists: titles, links and wikipedia synopses

titles = open('document_cluster_master/title_list.txt').read().split('\n')

#ensures that only the first 100 are read in

titles = titles[:100]

links = open('document_cluster_master/link_list_imdb.txt').read().split('\n')

links = links[:100]

synopses_wiki = open('document_cluster_master/synopses_list_wiki.txt').read().split('\n BREAKS HERE')

synopses_wiki = synopses_wiki[:100]

synopses_clean_wiki = []

for text in synopses_wiki:

   text = BeautifulSoup(text, 'html.parser').getText()

   #strips html formatting and converts to unicode

   synopses_clean_wiki.append(text)

synopses_wiki = synopses_clean_wiki

 

 

genres = open('document_cluster_master/genres_list.txt').read().split('\n')

genres = genres[:100]

print(str(len(titles)) + ' titles')

print(str(len(links)) + ' links')

print(str(len(synopses_wiki)) + ' synopses')

print(str(len(genres)) + ' genres')

synopses_imdb = open('document_cluster_master/synopses_list_imdb.txt').read().split('\n BREAKS HERE')

synopses_imdb = synopses_imdb[:100]

synopses_clean_imdb = []

for text in synopses_imdb:

   text = BeautifulSoup(text, 'html.parser').getText()

   #strips html formatting and converts to unicode

   synopses_clean_imdb.append(text)

synopses_imdb = synopses_clean_imdb

synopses = []

for i in range(len(synopses_wiki)):

   item = synopses_wiki[i] + synopses_imdb[i]

   synopses.append(item)

 

 

# generates index for each item in the corpora (in this case it's just rank) and I'll use this for scoring later

#为语料库中的每一个项目生成索引

ranks = []

for i in range(0,len(titles)):

   ranks.append(i)

#定义一些函数对剧情简介进行处理。首先,载入 NLTK 的英文停用词列表。停用词是类似“a”,“the”,或者“in”这些无法传达重要意义的词。我相信除此之外还有更好的解释。

# load nltk's English stopwords as variable called 'stopwords'

stopwords = nltk.corpus.stopwords.words('english')

 

print (stopwords[:10])  #可以查看一下

#接下来我导入 NLTK 中的 Snowball 词干分析器(Stemmer)。词干化(Stemming)的过程就是将词打回原形,其实就是把长得很像的英文单词关联在一起。

# load nltk's SnowballStemmer as variabled 'stemmer'

from nltk.stem.snowball import SnowballStemmer

stemmer = SnowballStemmer("english")

# tokenize_and_stem:对每个词例(token)分词(tokenizes)(将剧情简介分割成单独的词或词例列表)并词干化

# tokenize_only: 分词即可

# 这里我定义了一个分词器(tokenizer)和词干分析器(stemmer),它们会输出给定文本词干化后的词集合

def tokenize_and_stem(text):

   # 首先分句,接着分词,而标点也会作为词例存在

   tokens = [word for sent in nltk.sent_tokenize(text) for word in nltk.word_tokenize(sent)]

   filtered_tokens = []

   # 过滤所有不含字母的词例(例如:数字、纯标点)

   for token in tokens:

       if re.search('[a-zA-Z]', token):

           filtered_tokens.append(token)

   stems = [stemmer.stem(t) for t in filtered_tokens]

   return stems

def tokenize_only(text):

   # 首先分句,接着分词,而标点也会作为词例存在

   tokens = [word.lower() for sent in nltk.sent_tokenize(text) for word in nltk.word_tokenize(sent)]

   filtered_tokens = []

   # 过滤所有不含字母的词例(例如:数字、纯标点)

   for token in tokens:

       if re.search('[a-zA-Z]', token):

           filtered_tokens.append(token)

   return filtered_tokens

# 使用上述词干化/分词和分词函数遍历剧情简介列表以生成两个词汇表:经过词干化和仅仅经过分词后。

# 非常不 pythonic,一点也不!

# 扩充列表后变成了非常庞大的二维(flat)词汇表

totalvocab_stemmed = []

totalvocab_tokenized = []

for i in synopses:

   allwords_stemmed = tokenize_and_stem(i) #对每个电影的剧情简介进行分词和词干化

   totalvocab_stemmed.extend(allwords_stemmed) # 扩充“totalvocab_stemmed”列表

   allwords_tokenized = tokenize_only(i)

   totalvocab_tokenized.extend(allwords_tokenized)

 

#一个可查询的stemm词表,以下是词干化后的词变回原词例是一对多(one to many)的过程:词干化后的“run”能够关联到“ran”,“runs”,“running”等等。

vocab_frame = pd.DataFrame({'words': totalvocab_tokenized}, index = totalvocab_stemmed)

print ('there are ' + str(vocab_frame.shape[0]) + ' items in vocab_frame')

print (vocab_frame.head())

#利用Tf-idf计算文本相似度,利用 tf-idf 矩阵,你可以跑一长串聚类算法来更好地理解剧情简介集里的隐藏结构

from sklearn.feature_extraction.text import TfidfVectorizer

# 定义向量化参数

tfidf_vectorizer = TfidfVectorizer(max_df=0.8, max_features=200000,

                                min_df=0.2, stop_words='english',

                                use_idf=True, tokenizer=tokenize_and_stem, ngram_range=(1,3))

tfidf_matrix = tfidf_vectorizer.fit_transform(synopses) # 向量化剧情简介文本

print(tfidf_matrix.shape)                     #(100, 563),100个电影记录,每个电影后边有563个词

terms = tfidf_vectorizer.get_feature_names()  #terms” 这个变量只是 tf-idf 矩阵中的特征(features)表,也是一个词汇表

#dist 变量被定义为 1 – 每个文档的余弦相似度。余弦相似度用以和 tf-idf 相互参照评价。可以评价全文(剧情简介)中文档与文档间的相似度。被 1 减去是为了确保我稍后能在欧氏(euclidean)平面(二维平面)中绘制余弦距离。

# dist 可以用以评估任意两个或多个剧情简介间的相似度

from sklearn.metrics.pairwise import cosine_similarity

dist = 1 - cosine_similarity(tfidf_matrix)

#2、采用H-Clustering算法进行Hierarchical document clustering

import matplotlib.pyplot as plt

from scipy.cluster.hierarchy import ward, dendrogram

linkage_matrix = ward(dist) # 聚类算法处理之前计算得到的距离dist(之前计算的余弦距离矩阵dist),用 linkage_matrix 表示

fig, ax = plt.subplots(figsize=(15, 20)) # 设置大小

ax = dendrogram(linkage_matrix, orientation="right", labels=titles);

plt.tick_params(

       axis= 'x',          # 使用 x 坐标轴

       which='both',      # 同时使用主刻度标签(major ticks)和次刻度标签(minor ticks)

       bottom='off',      # 取消底部边缘(bottom edge)标签

       top='off',         # 取消顶部边缘(top edge)标签

   labelbottom='off')

plt.tight_layout() # 展示紧凑的绘图布局

# 注释语句用来保存图片

plt.savefig('ward_clusters.png', dpi=200) # 保存图片为 ward_clusters

 


相关文章
|
2月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
142 4
|
1月前
|
算法 搜索推荐
如何用CRDT算法颠覆文档协作模式?
在局域网环境下,高效文档协同编辑面临版本冲突等核心技术挑战,影响协作效率和成果质量。为解决此问题,可采用基于CRDT的算法,允许多用户无冲突实时编辑;或将协同操作模块化,通过任务看板优化协作流程,减少冲突,提高团队效率。未来,局域网协同编辑将更加场景化与个性化,深入探索组织协作文化。
|
4月前
|
机器学习/深度学习 人工智能 算法
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
127 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
3月前
|
存储 缓存 分布式计算
数据结构与算法学习一:学习前的准备,数据结构的分类,数据结构与算法的关系,实际编程中遇到的问题,几个经典算法问题
这篇文章是关于数据结构与算法的学习指南,涵盖了数据结构的分类、数据结构与算法的关系、实际编程中遇到的问题以及几个经典的算法面试题。
45 0
数据结构与算法学习一:学习前的准备,数据结构的分类,数据结构与算法的关系,实际编程中遇到的问题,几个经典算法问题
|
3月前
|
移动开发 算法 前端开发
前端常用算法全解:特征梳理、复杂度比较、分类解读与示例展示
前端常用算法全解:特征梳理、复杂度比较、分类解读与示例展示
41 0
|
4月前
|
机器学习/深度学习 算法 数据挖掘
决策树算法大揭秘:Python让你秒懂分支逻辑,精准分类不再难
【9月更文挑战第12天】决策树算法作为机器学习领域的一颗明珠,凭借其直观易懂和强大的解释能力,在分类与回归任务中表现出色。相比传统统计方法,决策树通过简单的分支逻辑实现了数据的精准分类。本文将借助Python和scikit-learn库,以鸢尾花数据集为例,展示如何使用决策树进行分类,并探讨其优势与局限。通过构建一系列条件判断,决策树不仅模拟了人类决策过程,还确保了结果的可追溯性和可解释性。无论您是新手还是专家,都能轻松上手,享受机器学习的乐趣。
59 9
|
5月前
|
数据采集 机器学习/深度学习 算法
【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
|
5月前
|
存储 算法 安全
密码算法的分类
【8月更文挑战第23天】
214 0
|
14天前
|
机器学习/深度学习 算法
基于改进遗传优化的BP神经网络金融序列预测算法matlab仿真
本项目基于改进遗传优化的BP神经网络进行金融序列预测,使用MATLAB2022A实现。通过对比BP神经网络、遗传优化BP神经网络及改进遗传优化BP神经网络,展示了三者的误差和预测曲线差异。核心程序结合遗传算法(GA)与BP神经网络,利用GA优化BP网络的初始权重和阈值,提高预测精度。GA通过选择、交叉、变异操作迭代优化,防止局部收敛,增强模型对金融市场复杂性和不确定性的适应能力。
146 80
|
2天前
|
机器学习/深度学习 数据采集 算法
基于GA遗传优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真
本项目基于MATLAB2022a实现时间序列预测,采用CNN-GRU-SAM网络结构。卷积层提取局部特征,GRU层处理长期依赖,自注意力机制捕捉全局特征。完整代码含中文注释和操作视频,运行效果无水印展示。算法通过数据归一化、种群初始化、适应度计算、个体更新等步骤优化网络参数,最终输出预测结果。适用于金融市场、气象预报等领域。
基于GA遗传优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真

热门文章

最新文章