中文分词器
1.IKAnalyzer
IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。可与lucene配合使用。
IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包。它使用了全新的正向迭代最细粒度切分算法。
项目地址:http://www.oschina.net/p/ikanalyzer/下载页面:http://git.oschina.ne
通用词向量、句向量研究现状
目前,词和语句的嵌入已经成为任何基于深度训练的自然语言处理系统的重要组成部分。自然语言处理系统在固定长度的密集向量中编码单词和语句,从而通过神经网络极大地改进文本数据的处理。
从“连接”到“交互”—阿里巴巴智能对话交互实践及思考
(本文根据孙健/千诀 2017年5月18在中国云计算技术大会上的演讲整理)
从连接的时代到交互的时代
纵观传统互联网时代,如果用一个词来总结和概括的话,“连接”这词再合适不过了,传统互联网时代,我认为主要建立了三种连接:第一,人和信息的连接;第二,人和人的连接;第三,人与商品服务的连接。第一种连接成就了Google和百度这样的互联网巨头;人和人的连接成就了Faceboo
CRF++模型格式 命令 参数 说明
通过追加-t, –textmodel参数可以输出文本格式的CRF模型文件,通过该模型文本,可以加深对条件随机场的理解或为其他应用所利用。本文旨在介绍CRF++的文本模型格式,具体读取与解码将集成到HanLP中一并开源。
训练
语料
以BMES标注语料为例:
那 S
音 B
韵 E
如 S
轻 B
柔 E
的 S
夜 B
风 E
, S
惊 S
溅