六狼论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博账号登陆

只需一步,快速开始

搜索
查看: 46|回复: 0

scws中文分词组件

[复制链接]

升级  66.8%

262

主题

262

主题

262

主题

进士

Rank: 4

积分
834
 楼主| 发表于 2013-1-26 15:55:22 | 显示全部楼层 |阅读模式
1. 根据您当前用的 PHP 版本,下载相应已编译好的 php_scws.dll 扩展库。
2. 将下载后的  php_scws.dll 放到 php 安装目录的
   extensions/ 目录中去(通常为:X:/php/extensions/或 X:/php/ext/)。

3. 建立一个本地目录放规则集文件和词典文件,建议使用:C:/program files/scws/etc

4. 从 scws 主页上下载词典文件,解压后将 *.xdb 放到上述目录中
   词典系列:http://www.ftphp.com/scws/down/scws-dict-chs-gbk.tar.bz2
             http://www.ftphp.com/scws/down/scws-dict-chs-utf8.tar.bz2
             http://www.ftphp.com/scws/down/scws-dict-cht-utf8.tar.bz2

4. 修改 php.ini 通常位于 C:/windows/php.ini 或 C:/winnt/php.ini 之类的目录,
   在 php.ini 的末尾加入以下几行:

[scws]
;
; 注意请检查 php.ini 中的 extension_dir 的设定值是否正确, 否则请将 extension_dir 设为空,
; 再把 php_scws.dll 指定为绝对路径。
;
extension = php_scws.dll
scws.default.charset = gbk
scws.default.fpath = "c:/program files/scws/etc"

5. 重开 web 服务器即可完成。
<?php//使用类方法分词 $so = scws_new();  $so->set_charset('gbk');// 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件$so->send_text("我是一个中国人,我会C++语言,我也有很多T恤衣服");while ($tmp = $so->get_result()) {    print_r($tmp);}$so->close();//使用函数提取高频词$sh = scws_open(); scws_set_charset($sh, 'gbk');scws_set_dict($sh, '/path/to/dict.xdb');scws_set_rule($sh, '/path/to/rules.ini');$text = "我是一个中国人,我会C++语言,我也有很多T恤衣服";scws_send_text($sh, $text);$top = scws_get_tops($sh, 5);print_r($top);?> 更多参考hightman论坛
<?phprequire("splitword.php");//包含分词类文件$SpWord =new SplitWord();//创建类对象$str="某某字符串";$words =$SpWord->SplitRMM($str);//调用类方法$SpWord = iconv( "gbk", "utf-8//ignore", $SpWord );$SplitWord->Clear( );
您需要登录后才可以回帖 登录 | 立即注册 新浪微博账号登陆

本版积分规则

快速回复 返回顶部 返回列表