二、TF-IDF:
优点:
- 容易计算
- 使用此方法容易计算两个文档的相似度
- 提取文档具有代表性的基础指标
- 高频单词影响较小
缺点:
- 不能捕捉位置关系
- 不能捕捉语义信息
三、Word2Vec:
优点:
- 捕捉位置关系
- 捕捉语义信息
缺点:
- 无法从文本中捕捉单词的意思,多义性无法支持
- 受词表限制
四、GloVe (Pre-Trained):
优点:
- 捕捉位置关系
- 捕捉语义信息
- 基于大语料训练
缺点:
- 无法从文本中捕捉单词的意思,多义性无法支持
- 内存消耗严重,需要存储近似矩阵
- 受词表限制
五、GloVe (Trained):
优点:
- 非常简单,捕捉线性关系优异(performs better than Word2vec)
- 对于高度频繁的单词对的重量较低,例如“am”,“is”等的单词将不会影响太大
缺点:
- 内存消耗严重,需要存储近似矩阵
- 需要大量的语料数据支持
- 受词表限制
- 无法从文本中捕捉单词的意思,多义性无法支持
六、FastText:
优点:
- 适用于少量的单词
- 在字符水平中用n-gram解决受词表限制的问题
缺点:
- 无法从文本中捕捉单词的意思,多义性无法支持
- 内存消耗严重
- 计算开销比GloVe 和 Word2Vec更大