"哑哈"中文分词,更快或更准确,由你来定义。通过简单定制,让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha
基本功能:
精确模式,将句子切成最合理的词。
全模式,所有的可能词都被切成词,不消除歧义。
搜索引擎模式,在精确的基础上再次驿长词进行切分,提高召回率,适合搜索引擎创建索引。
备选路径,可生成最好的多条切词路径,可在此
SCWS的自述文件
$ Id $
SCWS简介
是Simple Chinese Word Segmentation的首字母缩写(即:简易中文分词系统)。这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分开的词。词是中文的最小语素单位,但在书写时并不像英语会在词之间用间隔分开,所以如何准确并快速分词一直是中文分词的攻关难点。
SCWS采用纯C语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序,支持的中文编码包括GBK , UTF-8等。几乎还提供了扩展模