首先需要有文本源,就是文本数据在哪里,下一步是行文本分析,文本源有了以后需要做文本分析,将非结构化的文本转成有结构化的,对文本进行分词,这对中文非常重要,然后数据处理一些特别的词,例如数字处理,日期处理,名字识别,词性标注等,进一步可以做文本的结构分析,作文本里面的主谓宾,依存关系句法分析等,在下一步是做文本的特征提取,面这些技术准备好了以后就可以做文本挖掘的应用了,例如做文本检索,文本的聚类,文本的过滤,做热门话题的检查和跟踪,然后再整合一个界面供用户使用,这就是一个一般的文本挖掘的模型。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。