Stanford_NLP_TOOLS:CRFClassifier

简介:

public class CRFClassifier<IN extends CoreMap>

extends AbstractSequenceClassifier<IN>

使用CRF模型进行层序划分的类。这个类具有处理不同格式文档的功能,但是当使用标准ColumnDocumentReaderAndWriter 类用来训练或者测试模型时,输入文件中要一行一个token(几列标志性的东西,比如单词、POSchunkanswer class)。ColumnDocumentReaderAndWriter 默认训练集是有3列输入的,分别是:单词、posgold class,但是这个可以通过map属性来指定。

当使用-textFile命令在一个文件上运行的时候,文件要是普通英文文本(或者简单的html/xml),通过PlainTextDocumentReaderAndWriter可以进行做一下简单的英文标记测试。用来读取文本的类可以通过 -plainTextDocumentReaderAndWriter来改变。-tokenizeOptions 标记提供了一些其他的标记器选项。

To read from stdin, use the flag -readStdin. The same reader/writer will be used as for -textFile.

要从标准输入读取文本的话,就是用-readStdin。至于-textFile,也可以使用同样的reader/writer

典型命令行使用:

为了将一个(含有(提供好的序列化的分类器)的训练好的模型)在文本文件上运行:

java -mx500m edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier conll.ner.gz -textFile samplesentences.txt

在一个属性文件(训练、测试、运行时)中指定全部参数:

java -mx1g edu.stanford.nlp.ie.crf.CRFClassifier -prop propFile

To train and test a simple NER model from the command line:

通过命令行训练和测试一个简单的NER(命名实体识别)模型:
java -mx1000m edu.stanford.nlp.ie.crf.CRFClassifier -trainFile trainFile -testFile testFile -macro > output

用多个文件进行训练:
java -mx1000m edu.stanford.nlp.ie.crf.CRFClassifier -trainFileList file1,file2,... -testFile testFile -macro > output

使用-testFiles选项和逗号分割的列表来进行多文件测试。

各种特征值通过FeatureFactory来定义。默认使用的是NERFeatureFactory,你可以查看特征值模版和在训练NER分类器中需要使用的特征值的属性或标记。还有一个edu.stanford.nlp.wordseg.SighanFeatureFactory,以及各种继承者,例如用来进行中文分词的ChineseSegmenterFeatureFactory。特征值可以通过Properties文件(推荐)或者命令行的标记来指定。各种标记被读入到一个SeqClassifierFlags 对象,除非用户想添加新的特征,否则用户不用关注它。

    CRFClassifier也可以在程序中使用,当新建一个实例的时候,你一定要指定Properties对象。然后你要调用训练函数来训练分类器或者加载一个分类器。另一种得到CRFClassifier的方法就是通过静态函数getClassifier(String)来返回一个反序列化的分类器。之后你可能就会标注文档,可以使用合适的classify()或者AbstractSequenceClassifier中合适的classify函数。可以通过printProbsDocument()或getCliqueTrees() 询问CRF给定的概率。



本文转自ZH奶酪博客园博客,原文链接:http://www.cnblogs.com/CheeseZH/archive/2012/11/29/2794280.html,如需转载请自行联系原作者

相关文章
【链表】算法题(二) ----- 力扣/牛客
【链表】算法题(二) ----- 力扣/牛客
|
负载均衡 网络协议 数据管理
深入解析Nacos:服务发现、配置管理与更多特性解析
深入解析Nacos:服务发现、配置管理与更多特性解析
1419 0
|
人工智能 数据可视化 Devops
|
监控 Linux 数据安全/隐私保护
技术教程:修改监控录像视频日期时间日期/删除录像片段/去掉录像视频里面的人
硬盘录像机如何删除多余陈旧录像呢?其实也不是很复杂,而且错误的监控录像时间日期也是可以修改的,人工智能时代的今天,希望大家看了我的文章能够有所启发与帮助。
|
机器学习/深度学习 传感器 人工智能
堪比科幻大片!优酷特效广告、互动视频技术大揭秘
大家都看过科幻电影吧,像《头号玩家》、《美国队长》、《银河护卫队》,这些科幻电影中都出现过AR/VR的镜头。以《头号玩家》为例,主角来到博物馆,能够实时的、多角度地去浏览资料,这里就用到了volumetric video技术,它是一种VR技术,就是在被摄物周围放一圈摄像头,采集的视频经过合成加工就可以无缝地切换观看了。与电影中的拍摄特技不同,随着5G和AI的加速落地,在视频生产和播放环节,越来越多的融入AR、VR的相关技术。可以说今天的科幻电影是明天的科学事实。
1917 0
堪比科幻大片!优酷特效广告、互动视频技术大揭秘
吉利集团子公司研发全球首款飞行车将于明年上市
浙江吉利集团旗下全资子公司美国Terrafugia所研发设计的全球首款飞行车将于2019年在美国正式上市,目前该飞行车已经开始接受私人预定。
565 0
|
Shell
3、SHELL控制语句
SHELL控制语句 If 语句 if [ expression ]; then Statements elif [ expression ]; then statements else statements Fi 应该注意,if语句中else部分可以缺省。
991 0
|
6天前
|
缓存 测试技术 API
Qwen 3.7 Plus 与 Max 实测:性价比与多模态能力差异解析(2026)
2026 年 6 月 1 日,阿里悄无声息地发布了 Qwen 3.7 Plus,距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文,同样的 35 小时自治上限。但价格才是头条:Plus 是 0.40/M输入,Max是 2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”,而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。
|
7天前
|
JavaScript 定位技术 API
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
CodeGraph 是一款爆火的本地代码智能工具,通过 tree-sitter 解析 AST 构建结构化知识图谱(存于 SQLite),为编程 Agent 提前生成“代码地图”。它显著降低 Agent 在中大型项目中的探索成本——实测工具调用减少71%、Token 降57%、速度提升46%,支持19+语言及主流框架路由识别,完全离线、无需 API Key。
713 6
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图

热门文章

最新文章