SCWS的自述文件
$ Id $
SCWS简介
是Simple Chinese Word Segmentation的首字母缩写(即:简易中文分词系统)。这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分开的词。词是中文的最小语素单位,但在书写时并不像英语会在词之间用间隔分开,所以如何准确并快速分词一直是中文分词的攻关难点。
SCWS采用纯C语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序,支持的中文编码包括GBK , UTF-8等。几乎还提供了扩展模
vid2cleantxt
vid2cleantxt:用于将基于语音的大量视频文件转换为音频中清晰可读的文本的管道。
Note: this is a work-in-progress, and my first 'real' repo.
As such, code isn't fully optimized or following software eng norms yet, but will continue to be improved over time.
All feedback