开发者社区> megachen> 正文

Python文本数据分析与处理

简介: Python文本数据分析与处理(新闻摘要) 分词 使用jieba分词, 注意lcut只接受字符串 过滤停用词 TF-IDF得到摘要信息或者使用LDA主题模型 TF-IDF有两种 jieba.analyse.
+关注继续查看

Python文本数据分析与处理(新闻摘要)

分词
  • 使用jieba分词, 注意lcut只接受字符串
过滤停用词
TF-IDF得到摘要信息或者使用LDA主题模型
  • TF-IDF有两种
    • jieba.analyse.extract_tags(content, topK=20, withWeight=False) # content为string, topK选出20个关键字, withWeight: 每一个关键词同等重要
    • 使用gensim库
      • from gensim import corpora, models
      • dictinary = corpora.Dictionary(word_list) # 为每一个单词分配一个id, 并记录每一个单词的词频到dfs属性中
      • corpus = [dictionary.doc2bow(line) for line in word_list] # 得到词库, 形式是(token, id)
      • corpus.token2id以[token:id, ...]返回
      • # 将数据处理完之后, 才能使用models进行计算
      • lda = models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20) # corpus指定语料库, id2word指定字典, id在corpus中, num_toptics指定训练的主题数
      • lda.print_topic(1, 10) # 1为topic的id, 10为topic中关键字的个数
      • lda.print_topic(3, 10) # 3为返回的topic个数, 10为每一个topic中关键字的个数
      • 返回的形式是0.009*"文化" + 0.005*"恋情" + 0.004*"中" + 0.004*"撒" + 0.004*"节目"的列表, 数字为权重

机器学习贝叶斯(文本处理, 判断一句评论是否是侮辱性的[学会了这个, 那么垃圾邮箱, 广告的过滤也一样了, 文本处理贝叶斯的world])

与其他的泰坦尼克号遇难预测等案例不同, 文本处理需要自己在预处理时构建出数据表. 没有后者每一个提供表

不使用第三方库实现的思路

  • 获取文本数据
    • 格式: data0 = [['Hello', 'buddy'], ['You', 'silly']], labels = [1, 1]等
    • 二维list, 一个list表示合并在一起可以表示一句话
  • 过滤停用词得到去掉停用词的集合data

  • 对data进行去重(现在使用的算法不需要单词出现的数量, 如果换作其他算法则不一定), 获取data中所有的单词words, words的形式为list
    • 实现思路:
      • data = set(data): 转换为set达到去重的效果
      • data = list(data): 将data转为list, 因为需要单词的顺序
  • data0的每一个list元素的单词转为0和1, 返回一组向量, 0表示没有该单词, 1表示有该单词
  • def NBTrain函数使用贝叶斯进行训练
    • 根据labels先判断出bad言论数, 得出其概率
    • 缩小范围, 锁定到bad言论中, 计算出每一条bad言论的单词总数与所有bad言论的总数的比值
    • 锁定到not bad言论中, 计算出每一条not bad言论的单词总数与所有not bad言论的总数的比值
    • 返回三个向量
  • 根据根据贝叶斯公式, 根据输入的测试集向量, 通过贝叶斯公式与NBTrain出来的参数(该参数与贝叶斯公式非常相关)得出p0与p1, 比较大小进行分类借口

使用sklearn的native_bayes模块实现

  • 获得数据
  • 过滤掉停用词
  • 将每一个样本对应的单词以' '.jion合并, 因为之后将单词转为向量的对象需要这样的参数
  • 导入sklearn.features_extraction.text.CountVectorizier或者sklearn.features_extraction.text.TfidfVectorizier, 是两种将字符串中的单词转为向量的算法, 后者效果更好, 所以以他为例
    • tfidf = TfidVectorizier() # 有一个ngram_range可选参数, (1, 4)表示得到的feature为1个, 2个依次增加到3个, 3就是最终每一个句子的向量的长度
    • tfidf_fit = tfidf.fit_transform(texts) # texts的形式['I am myself', 'Do not say it', ...]
    • tfidf_fit.get_feature_names()返回单词list
    • tfidf_fit.toarray()返回转换后的向量
  • 现在得到了我们需要用于建模的数据表了(前面就是特征提取的操作, 是机器学习中最难的部分, 目的就是为了得到可以用于建模的数据表)
  • 将数据分成训练集和测试集
  • 导入native_bayes模块中的MultinomialNB类对象
    • clf = MultinomialNB()
    • clf.fit(X_train.values.tolist(), y_train.values.tolist()) # bayes坑的地方, 传入的必须是list, 内部不提供转换
  • 评估
    • clf.score(X_test.values.tolist(), y_test.values.tolist())

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
python多线程爬取汽车数据
python如何使用多线获取网站数据
36 0
python爬取微博热搜评论数据
如何使用pythonp爬取微博热搜上有关的评论数据
79 0
如何使用python+urllib库+代理IP爬取新闻数据
如何使用python+urllib库+代理IP爬取数据
35 0
Python机器学习从入门到高级:玩转日期型数据(含代码)
Python机器学习从入门到高级:玩转日期型数据(含代码)
19 0
Python机器学习从入门到高级:手把手教你处理分类型数据(含详细代码)
Python机器学习从入门到高级:手把手教你处理分类型数据(含详细代码)
32 0
用数据讲故事:基于分析场景的17条Python使用小结
数据科学的编程需要非常灵活的语言,以最少的代码处理复杂的数据建模场景。作为一名数科小白,我对Python的第一认知是丰富的机器学习算法,但Python有超过12万个第三方库,覆盖从数据预处理、统计分析、数据挖掘及可视化等各种日常数据科学建模。本文对基础用法不做赘述,主要分享我在分析场景中常用的部分方法,供大家参考交流。
53 0
基于python的高校服务器信息的网络空间资源分类 附完整代码数据可作为毕设课设
基于python的高校服务器信息的网络空间资源分类 附完整代码数据可作为毕设课设
23 0
轻轻松松学会Python入门九:文件和数据格式化
轻轻松松学会Python入门九:文件和数据格式化
22 0
Python:使用 mysqlsmom 模块实时同步MySQL数据到ElasticSearch
Python:使用 mysqlsmom 模块实时同步MySQL数据到ElasticSearch
21 0
+关注
megachen
Just for fun
文章
问答
文章排行榜
最热
最新
相关电子书
更多
给运维工程师的Python实战课
立即下载
Python 脚本速查手册
立即下载
ACE 区域技术发展峰会:Flink Python Table API入门及实践
立即下载