网页文本分词的PHP版本操作过程

简介: 一、分词    SCWS 中文分词v1.2.2 开源免费的中文分词系统,PHP分词的上乘之选!http://www.xunsearch.com/scws/download.php#dll    首先,根据PHP的版本下载php_scws.dll文件,进行安装: 1. 根据您当前用的 PHP 版本,下载相应已编译好的 php_scws.dll 扩展库。
一、分词
    SCWS 中文分词v1.2.2 开源免费的中文分词系统,PHP分词的上乘之选!
http://www.xunsearch.com/scws/download.php#dll
    首先,根据PHP的版本下载php_scws.dll文件,进行安装:
1. 根据您当前用的 PHP 版本,下载相应已编译好的 php_scws.dll 扩展库。

2. 将下载后的  php_scws.dll 放到 php 安装目录的
   extensions/ 目录中去(通常为:X:/php/extensions/或 X:/php/ext/)。我用的XAMPP,所以



3. 建立一个本地目录放规则集文件和词典文件,建议使用:C:/program files/scws/etc

4. 从 scws 主页上下载词典文件,解压后将 *.xdb 放到上述目录中


5. 从 scws 主页上下载规则集文件,解压后将 *.ini 放到第 3 步建立的目录
   规则集文件压缩包:http://www.xunsearch.com/scws/down/rules.tgz
   解压后有三个文件分别为 rules.ini  rules.utf8.ini rules_cht.utf8.ini
   将三件文件拷到第 3 步所述的目录中


6. 修改 php.ini 通常位于 C:/windows/php.ini 或 C:/winnt/php.ini 之类的目录,
   在 php.ini 的末尾加入以下几行:
[scws]
;
; 注意请检查 php.ini 中的 extension_dir 的设定值是否正确, 否则请将 extension_dir 设为空,
; 再把 php_scws.dll 指定为绝对路径。
;
extension = php_scws.dll
scws.default.charset = gbk
scws.default.fpath = "c:/program files/scws/etc"

5. 重开 web 服务器即可完成。

   以上都是按照官方文档照办,照猫画虎即可。在phpinfo()中可以看到:

   嗯,这就是SCWS装好了。接下来就看看如何用PHP调用它。

二、PHP下分词工具SCWS的 使用

  1. ?php
  2.     header('Content-Type:text/html; charset=utf-8');

  3.     $so = scws_new();
  4.     $so->set_charset('utf8');

  5.     $so->send_text("2、我一向理解不了母亲不同意儿子找的对象是一种什么心理。嫌身高?嫌体重?嫌长相?嫌学历?嫌单亲家庭?");
  6.     $i = 0;
  7.     while ($tmp = $so->get_result())
  8.     {
  9.         foreach($tmp as $K=>$val){
  10.             echo $val['word'].'  '.$val['attr']."
    "
    ;
  11.         }
  12.     }
  13.     $so->close();

  14. ?>

    主要是用scws_new()实例化一个对象so,然后用so的send_text()方法接收字符串,并通过关键的get_result()得到返回的结果。

   关于中文词的词性缩写,请参考如下介绍:
n.名词
v.动词
adj.形容词
adv.副词
clas.量词
echo.拟声词
stru.结构助词
aux.助词
coor.并列连词
conj.连词
suffix.后缀
prefix.前缀
prep.介词
pron.代词
ques.疑问词
num.数词
idiom.成语




相关文章
|
4月前
|
存储 PHP 开发者
深入浅出PHP:构建你的首个动态网页
【9月更文挑战第24天】在数字时代的今天,掌握编程技能不再是专业技术人员的专利。PHP作为一种流行的服务端脚本语言,因其易学性和灵活性而广受欢迎。本文将引导您从零开始,通过一个简单实例—创建个人博客页面,逐步深入PHP的世界。我们将一起探索变量、循环和函数等基本概念,并最终将这些元素融合到实际的代码中。不论你是编程新手还是希望扩展知识的开发者,这篇文章都将为你提供一次愉快的学习旅程。
54 0
|
2月前
|
自然语言处理 关系型数据库 MySQL
PHP编程入门:构建你的第一个网页应用
【10月更文挑战第29天】本文旨在引导初学者步入PHP编程的世界,通过深入浅出的方式介绍PHP的基础知识,并指导读者如何动手实践,搭建一个简单的网页应用。文章不仅涉及PHP代码的编写,还包括了环境配置、项目结构设计以及前后端交互的基本概念。适合对Web开发感兴趣且希望快速入门的朋友阅读。
53 0
|
4月前
|
IDE 安全 网络安全
Xdebug 在不同版本的 PHP 中配置方法有什么不同?
Xdebug 在不同版本的 PHP 中配置方法有什么不同?
248 4
|
4月前
|
存储 关系型数据库 PHP
深入浅出PHP:构建动态网页的基石
在数字时代的浪潮中,PHP作为一门强大的服务器端脚本语言,为无数网站的建设和开发提供了动力。本文将通过浅显易懂的方式,引导初学者理解PHP的核心概念,掌握基础语法,并介绍如何利用PHP进行数据库交互和处理表单数据,最终实现一个简单动态网页的搭建。无论你是编程新手还是希望扩展技能的开发者,这篇文章都将为你开启PHP世界的大门。
|
5月前
|
编译器 PHP 开发者
PHP 7新特性深度解析与实践深入浅出PHP:构建你的第一个动态网页
【8月更文挑战第27天】本文将深入探讨PHP 7的新特性,包括性能提升、语法改进等,并通过代码示例展示如何在实际项目中应用这些新特性。同时,我们还将讨论如何优化现有项目以充分利用PHP 7的优势。让我们一起探索PHP 7的世界,提升开发效率和项目质量!
|
5月前
|
Linux PHP
Linux CentOS 宝塔 Suhosin禁用php5.6版本eval函数详细图文教程
【8月更文挑战第27天】本文介绍两种禁用PHP执行的方法:使用`PHP_diseval_extension`禁用和通过`suhosin`禁用。由于`suhosin`不支持PHP8,仅适用于PHP7及以下版本,若服务器安装了PHP5.6,则需对应安装`suhosin-0.9.38`版本。文章提供了详细的安装步骤,并强调了宝塔环境下与普通环境下的PHP路径差异。安装完成后,在`php.ini`中添加`suhosin.so`扩展并设置`executor.disable_eval = on`以禁用执行功能。最后通过测试代码验证是否成功禁用,并重启`php-fpm`服务生效。
77 2
|
5月前
|
搜索推荐 关系型数据库 MySQL
PHP编程入门与实战:构建你的第一个动态网页
【8月更文挑战第24天】本文将引导初学者进入PHP编程的世界,从基础概念到实践操作,一步步展示如何使用PHP创建一个简单的动态网页。文章不仅介绍PHP的安装、语法和常用功能,还通过一个实际案例演示如何应用这些知识。无论你是编程新手还是希望扩展技能的开发者,这篇文章都将为你打开一扇通往Web开发的大门。
|
5月前
|
存储 缓存 自然语言处理
|
5月前
|
Web App开发 关系型数据库 PHP
使用 Docker 快速搭建多版本 PHP 开发环境
使用 Docker 快速搭建多版本 PHP 开发环境
105 2
|
5月前
|
数据采集 JavaScript 数据挖掘
如何使用 PHP Simple HTML DOM Parser 轻松获取网页中的特定数据
本文介绍了使用PHP Simple HTML DOM Parser进行网页数据抓取的方法,尤其适用于从懂车帝二手车网站提取汽车品牌、价格和里程等关键信息。首先,安装并配置所需库,使用代理IP和设置cookie与useragent来模拟用户行为,避免被封。然后,通过编写PHP脚本,利用cURL获取网页内容,解析HTML并提取所需数据,最终将数据保存至CSV文件。文章强调了正确配置代理和用户代理的重要性,并提供了完整的PHP代码示例,以帮助读者理解和应用网页抓取技术。
如何使用 PHP Simple HTML DOM Parser 轻松获取网页中的特定数据