开发者社区> 问答> 正文

Python 数据挖掘中文本表示的分类有哪些呢?

已解决

Python 数据挖掘中文本表示的分类有哪些呢?

展开
收起
gxx1 2022-07-23 15:49:11 581 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    1. 离散表示(列出一些常用的方法) :

    词袋模型( Bag of Words),缩写是BOW;TF-IDF (Term Frequency - Inverse Document Frequency);One-hot编码( 独热编码 );Bi-gram和N-gram;词-文档矩阵(单元格是词的权重)   

    2. 分布式表示:

    对词-文档矩阵降维(例如使用PCA降维);神经网络语言模型(例如word2vec),语言模型是用来计算一个句子出现概率的模型。

    2022-07-23 15:55:31
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
From Python Scikit-Learn to Sc 立即下载
Data Pre-Processing in Python: 立即下载
双剑合璧-Python和大数据计算平台的结合 立即下载