五月 23rd, 2009scws,开源中文分词系统
此文章来源于后羿之弓,转载请注明出处
PHP分词的上乘之选,原生态支持php中文分词,提供dll库和so包下载。
SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集。 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持GBK,UTF-8,BIG5 等汉字编码。
切词效率测试(UTF-8编码,随机从天涯抓取了一个连载页面测试结果, 45Kb左右的文本切词时间是0.026秒, 换算完毕大概是 1.5MB文本/秒)
项目地址:
http://www.ftphp.com/scws/