M 个无序标引项 t ,(词条项,特征),词根/词/短语/其他 2.每个文档 d 可以用标引项向量来表示 V ( d )=(t1, wi ( d) :…,;tn,Wn ( d )) 3.权重计算, N 个训练文档 WM*N =( Wij ) 词频统计 TFi ,j:特征 i 在文档中出现次数,词频( Term Frequency ) DF i:所有文档集合中出现特征 i 的文档数目,文档频率( Document Frequency ) 4.词项的权重:{0,1}, tf (词频= term frequency ), tf * idf