Model Scope分词能力分析杰伦歌词

简介: 本文介绍了一种使用分词能力分析周杰伦歌词数据的方法,这里我们采用达摩院基于预训练语言模型构建的分词模型作为我们的分词工具

1. 简介

本文介绍了一种使用分词能力分析周杰伦歌词数据的方法,这里我们采用达摩院基于预训练语言模型构建的分词模型作为我们的分词工具

2. 操作步骤

参考快速开始,里面有一些关于ModelScope的基本介绍

2.1 环境准备

  • jupyter简易环境,python3.7.x及以上
pip3 install torch torchvision torchaudio
pip install "modelscope[nlp]" -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html

2.2 文本分词

这里, 我们采用Model scope提供的pipeline调用方式对杰伦的歌词数据进行分词, 下面是单条数据的分词示例

frommodelscope.modelsimportModelfrommodelscope.pipelinesimportpipelinefrommodelscope.utils.constantimportTasksfrommodelscope.preprocessorsimportTokenClassificationPreprocessorpipeline_ins=pipeline(task=Tasks.word_segmentation)
result=pipeline_ins(input="透明的让我感动的可爱女人")
result:  {'output': '透明 的 让 我 感动 的 可爱 女人'}



部分分词结果示例如下图所示

2.3 词频统计

通过对分词结果的进行词频统计,发现在杰伦的歌词里面最高频出现的top词汇是

('回忆', 71)
('离开', 71)
('时间', 56)
('微笑', 51)
('等待', 48)
('不用', 45)
('眼泪', 40)
('世界', 40)

2.4 词云展示

当然,我们也可以用词云的方式更加直观的展示杰伦歌词的里面词汇分布情况,这里可以采用wordcloud第三方库作为辅助,实操代码如下

fromwordcloudimportWordCloudfromPILimportImageimportnumpyasnpf3=open('result.txt','r')
text=f3.read()
jay_mask=np.array(Image.open('Jay_photo.png'))
wc=WordCloud(background_color='white',
mask=jay_mask,
font_path='msyh.ttf',
width=1960,
height=1080)
wc.generate(text)
wc.to_file('result.png')
f3.close()


  1. 其中“result.txt”存放分词结果(去除通用词)
  2. Jay_photo.png是杰伦照片,
  3. "msyh.ttf"存放的是对应的字体文件(可随意切换成自己想要的字体)


结果展示



回忆、微笑、离开、可爱, 这些高频词汇有没有让你快速想起杰伦的某一首经典呢?

相关文章
|
数据采集 人工智能
对ModelScope 中的中文竞技场进行分析测评
ModelScope 是一款功能强大的人工智能模型,它在多个领域都有着广泛的应用
|
机器学习/深度学习 自然语言处理 API
Modelscope 对中文竞技场模块分析
Modelscope 对中文竞技场模块分析
239 31
civ
|
大数据
ModelScope模型分析测评
中文竞技场大模型页面的双模型匿名对话模式可以给我很多启发,下面是针对 Modelscope 测评文章的写作创造、人类价值观和中文游戏模块进行测评总结:
civ
213 2
ModelScope模型分析测评
|
机器学习/深度学习 自然语言处理 数据可视化
modelscope对中文竞技场测评分析
modelscope对中文竞技场测评分析
259 26
|
开发者
从Modelscope模块分析测评
从Modelscope模块分析测评
|
机器学习/深度学习 自然语言处理 数据可视化
阿里云 ModelScope模块分析测评
阿里云 ModelScope 是一种用于模型评估和性能分析的开源工具。它旨在帮助用户更好地了解和评估不同的机器学习模型,并提供可视化和统计分析来支持决策制定。
|
机器学习/深度学习 自然语言处理 数据可视化
对Modelscope中文竞技场模型分析
对Modelscope中文竞技场模型分析
191 3
|
机器学习/深度学习 自然语言处理 PyTorch
关于对Modelscope模型测评分析
关于对Modelscope模型测评分析
|
人工智能 自然语言处理 搜索推荐
对ModelScope模型进行测评分析
对ModelScope模型进行测评分析
227 0
|
机器学习/深度学习 自然语言处理 云栖大会
用modelscope分析《天龙八部》,金庸大师最偏爱的是TA
用modelscope分析《天龙八部》,金庸大师最偏爱的是TA