您好,欢迎光临本网站![请登录][注册会员]  
文件名称: Paoding中文分词包-附带实例,参考手册,Lucene实例
  所属分类: Linux
  开发工具:
  文件大小: 5mb
  下载次数: 0
  上传时间: 2010-06-08
  提 供 者: hpf***
 详细说明: 效果体验 使用者第一步最有可能的是想要体验了解庖丁的分词效果。考虑到这样的需求,庖丁提供了一个shell文件,使用者不必写任何代码就可以获得这样的信息。进入Paoding-Analysis分发包,在命令行模式下执行analyzer.bat(windows)或analyzer.sh(linux)即可。下以windows为例: u 显示帮助 E:\Paoding-Analysis>analyzer.bat ? u 分词对话 当没有在命令行参数种输入分词内容或待分词的文章时,analyzer.bat进入分词对话模式,使用者可以多次输入或粘贴不同的文字内容,查看分词效果,如: E:\Paoding-Analysis>analyzer.bat paoding> | 此时使用者可以在光标所在所在位置(|)输入或粘贴待分词的内容(以分号结束),按下Enter键换行,analyzer.bat便可以输出分词结果。比如: paoding> 中文分词; 1: 中文/分词/ 分词器net.paoding.analysis.analyzer.PaodingAnalyzer 内容长度 4字符, 分 2个词 分词耗时 0ms -------------------------------------------------- 分词完毕后,又会进入以上对话模式。 键入:e或:q退出会话 (包括:符号) 。 键入:?显示帮助(包括:符号) 。 u 对文件进行分词 analyzer.bat允许对指定的文件进行分词体验。文件以路径名给出可以使绝对地址、相对当前目录的地址,或以classpath:为前缀的类路径地址。示例如下: paoding> :-f E:/content.txt paoding> :-f E:/content.txt -c gbk paoding> :-f E:/content.txt -c gbk -m max 开始使用 庖丁中文分词需要一套词典,这些词典需要统一存储在某个目录下,这个目录称为词典安装目录。词典安装目录可以是文件系统的任何目录,它不依赖于应用程序的运行目录。将词典拷贝到词典安装目录的过程称为安装词典。增加、删除、修改词典目录下的词典的过程称为自定制词典。 在linux下,我们可以考虑将词典安装在一个专门存储数据的分区下某目录,以笔者为例,笔者将/data作为系统的一个独立分区,笔者便是将词典保存在/data/paoding/dic下。 在windows下,我们可以考虑将词典安装在非系统盘的另外分区下的某个目录,以笔者为例,笔者可能将词典保存在E:/data/paoding/dic下。 使用者安装辞典后,应该设置系统环境变量PAODING_DIC_HOME指向词典安装目录。 在linux下,通过修改/etc/profile,在文件末尾加上以下2行,然后保存该文件并退出即可。 PAODING_DIC_HOME=/data/paoding/dic export PAODING_DIC_HOME 在windows下,通过“我的电脑”属性之“高级”选项卡,然后在进入“环境变量”编辑区,新建环境变量,设置“变量名”为PAODING_DIC_HOME;“变量值”为E:/data/paoding/dic 第3步,把paoding-analysis.jar拷贝到应用运行时的类路径(classpath)下。使用集成开发环境(IDE)开发应用的使用者,需要把paoding-analysis.jar拷贝到工程中,然后使用IDE向导引入该Jar包,以便开发应用时IDE能够认识它。 至此,便可以在应用代码中使用庖丁提供的中文分析器了。 提醒:以下示例代码中的IDNEX_PATH表示索引库地址,读者运行以下代码前,应该赋与一个不重要的地址,比如/data/paoding/test_index 或E:/paoding_test_index,以免一时疏忽将重要数据丢失。 ...展开收缩
(系统自动生成,下载前可以参看下载内容)

下载文件列表

相关说明

  • 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
  • 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度
  • 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
  • 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
  • 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
  • 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.
 相关搜索: Paoding 中文分词 庖丁 lucene
 输入关键字,在本站1000多万海量源码库中尽情搜索: