scws中文分词组件

简介:

1. 根据您当前用的 PHP 版本,下载相应已编译好的 php_scws.dll 扩展库。
2. 将下载后的  php_scws.dll 放到 php 安装目录的
   extensions/ 目录中去(通常为:X:/php/extensions/或 X:/php/ext/)。

3. 建立一个本地目录放规则集文件和词典文件,建议使用:C:/program files/scws/etc

4. 从 scws 主页上下载词典文件,解压后将 *.xdb 放到上述目录中
   词典系列:http://www.ftphp.com/scws/down/scws-dict-chs-gbk.tar.bz2
             http://www.ftphp.com/scws/down/scws-dict-chs-utf8.tar.bz2
             http://www.ftphp.com/scws/down/scws-dict-cht-utf8.tar.bz2

4. 修改 php.ini 通常位于 C:/windows/php.ini 或 C:/winnt/php.ini 之类的目录,
   在 php.ini 的末尾加入以下几行:

[scws]
;
; 注意请检查 php.ini 中的 extension_dir 的设定值是否正确, 否则请将 extension_dir 设为空,
; 再把 php_scws.dll 指定为绝对路径。
;
extension = php_scws.dll
scws.default.charset = gbk
scws.default.fpath = "c:/program files/scws/etc"

5. 重开 web 服务器即可完成。

Java代码   收藏代码
  1. <?php  
  2. //使用类方法分词   
  3. $so = scws_new();  
  4.     
  5. $so->set_charset('gbk');  
  6. // 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件  
  7. $so->send_text("我是一个中国人,我会C++语言,我也有很多T恤衣服");  
  8. while ($tmp = $so->get_result()) {  
  9.     print_r($tmp);  
  10. }  
  11. $so->close();  
  12.   
  13. //使用函数提取高频词  
  14. $sh = scws_open();  
  15.    
  16. scws_set_charset($sh, 'gbk');  
  17. scws_set_dict($sh, '/path/to/dict.xdb');  
  18. scws_set_rule($sh, '/path/to/rules.ini');  
  19. $text = "我是一个中国人,我会C++语言,我也有很多T恤衣服";  
  20. scws_send_text($sh, $text);  
  21. $top = scws_get_tops($sh, 5);  
  22. print_r($top);  
  23. ?>  

  更多参考hightman论坛

Java代码   收藏代码
  1. <?php  
  2. require("splitword.php");//包含分词类文件  
  3. $SpWord =new SplitWord();//创建类对象  
  4. $str="某某字符串";  
  5. $words =$SpWord->SplitRMM($str);//调用类方法  
  6. $SpWord = iconv( "gbk""utf-8//ignore", $SpWord );  
  7. $SplitWord->Clear( );  
相关文章
|
关系型数据库 分布式数据库 数据库
阿里云PolarDB登顶2024中国数据库流行榜:技术实力与开发者影响力
近日,阿里云旗下的自研云原生数据库PolarDB在2024年中国数据库流行度排行榜中夺冠,并刷新了榜单总分纪录,这一成就引起了技术圈的广泛关注。这一成就源于PolarDB在数据库技术上的突破与创新,以及对开发者和用户的实际需求的深入了解体会。那么本文就来分享一下关于数据库流行度排行榜的影响力以及对数据库选型的影响,讨论PolarDB登顶的关键因素,以及PolarDB“三层分离”新版本对开发者使用数据库的影响。
1021 3
阿里云PolarDB登顶2024中国数据库流行榜:技术实力与开发者影响力
|
存储 搜索推荐 关系型数据库
用户画像系列——HBase 在画像标签过期策略中的应用
用户画像系列——HBase 在画像标签过期策略中的应用
347 0
|
5月前
|
监控 安全 网络协议
阿里云CDN域名怎么迁移到另一个账号?
阿里云CDN域名支持跨账号迁移,需确保原账号与目标账号均无欠费,且具备相应权限。仅支持单个迁移,需提前处理证书、回源鉴权及监控日志配置,避免业务中断。通过DNS或文件验证完成归属校验后,即可在控制台操作迁入。
|
6月前
|
资源调度 负载均衡 JavaScript
使用PM2工具部署Vue.js应用于服务器
以上步骤完成之后,你就成功利⽤ PM⼆工具将 Vuejs 应⽰程序部署至服 务 器,并且配合反向代理实现了高效稳定访问及负载均衡功能。
266 0
|
消息中间件 JSON 大数据
大数据-66 Kafka 高级特性 分区Partition 副本因子Replication Factor replicas动态修改 线上动态修改副本数
大数据-66 Kafka 高级特性 分区Partition 副本因子Replication Factor replicas动态修改 线上动态修改副本数
420 1
|
自然语言处理 搜索推荐 Python
中文文本处理高手指南:从零到高手掌握Python中jieba库
中文文本处理高手指南:从零到高手掌握Python中jieba库
774 0
|
API PHP 数据库
Laravel框架下通过DB获取数据并转为数组的方法
通过上述方法,Laravel为开发者提供了一套灵活而强大的工具,用于从数据库中检索数据并将其转换为数组。无论是使用DB Facade直接执行查询,还是利用模型的方法,Laravel都能够简化这一过程,使得代码既简洁又富有表现力。在实际开发中,选择最适合你需求的方法可以有效提高开发效率和应用性能。
445 0
|
前端开发 应用服务中间件 PHP
解决php因为输出内容太短无法流式(Stream)输出问题
本文探讨了PHP流式输出的问题,指出当每次`echo`的内容过短时,前端可能无法实时接收。通过测试发现,需达到一定长度(如1024字节)时流式输出才会生效。为解决此问题,建议在PHP代码中检查输出内容长度,不足时拼接特殊标记,前端接收到后通过正则表达式移除。示例代码提供了解决方案,文章鼓励读者留言讨论和点赞分享。关注作者微信公众号【xdub】获取更多相关内容。
274 2
|
Linux Shell 开发工具
linux】-bash:vim:未找到命令
linux】-bash:vim:未找到命令
347 0

热门文章

最新文章