您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. perl语言实现词语切分

  2. 一个用perl语言编写的文章切分程序,利用所给词库对语料进行切分……
  3. 所属分类:Perl

    • 发布日期:2010-04-16
    • 文件大小:1048576
    • 提供者:buptlian
  1. LJCorpus中文语料库分析软件

  2. LJCorpus试用版本下载地址 下载地址:http://www.lingjoin.com/download/LJCorpus.rar 介绍: LJCorpus中文语料库分析软件是一套专门针对中文生语料库的加工、抽取、统计与翻译全自动的综合语料分析系统,应用了领先的汉语词法分析技术、新词发现技术、统计挖掘技术以及词语翻译对齐技术,目前,东北师范大学中文系已经成功应用该软件对新加坡的语言进行了分析,极大提高了研究的效率。 LJCorpus中文语料库分析软件的四大功能主要包括: 1. 新词发现:
  3. 所属分类:专业指导

    • 发布日期:2010-04-17
    • 文件大小:12582912
    • 提供者:lingjoin
  1. 中文词语分析一体化系统

  2. 当前主要的中文词语分析系统 哈工大统计分词系统 自动化所三元统计模型 清华大学SEGTAG系统 词典中的每一个重要的词都加上了切分标志 无条件切出qk类词;完全切分ck类词;其他无交叉歧义的切之,否则全切分。 "动态规划"和"全切分搜索+叶子评价"
  3. 所属分类:专业指导

    • 发布日期:2010-04-20
    • 文件大小:381952
    • 提供者:hovany
  1. LJParser文本搜索与挖掘开发平台

  2. 一、简介 LJParser文本搜索与挖掘开发平台包括:全文精准搜索,新词发现,汉语分词标注,词语统计与术语翻译,自动聚类与热点发现,分类过滤,自动摘要,关键词提取,文档去重,正文提取等十余项功能。针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供
  3. 所属分类:Web开发

    • 发布日期:2010-05-11
    • 文件大小:17825792
    • 提供者:lingjoin
  1. 灵柩软件 可用于汉语分词处理

  2. LJParser文本搜索与挖掘开发平台的十大功能: 1. 全文精准检索 支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。 2. 新词发现: 从文件集合中挖掘出内涵的新词语列表,可以用于用户专业词典的编撰;还可以进一步编辑标注,导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化。 3. 分词标注: 对原始语料进行分词
  3. 所属分类:Web开发

    • 发布日期:2010-11-05
    • 文件大小:688128
    • 提供者:zhangguoqiang52
  1. freeICTCLAS中科院中文分词(拼音中文输入法设计和源代码).zip

  2. freeICTCLAS中科院中文分词(拼音中文输入法设计和源代码).zip ICTCLAS源码结构 Codes │ ICTCLAS_WIN.cpp Windows界面的程序 │ ICTCLAS_Win.dsp │ ICTCLAS_WIN.dsw │ ICTCLAS_WIN.h │ ICTCLAS_Win.exe 可执行程序 │ ICTCLAS_WinDlg.cpp │ ICTCLAS_WinDlg.h │ resource.h │ StdAfx.cpp │ StdAfx.h │ log.txt
  3. 所属分类:C++

    • 发布日期:2011-05-21
    • 文件大小:2097152
    • 提供者:duizhong
  1. 基于N最短路径方法与中国人名 识别的中文分词系统

  2. 采取基于N-最短路径方法的中文词语粗分模型对中文文本进行粗切分,采取Viterbi算法对切分结果进行角色标注,在角色序列的基础上,进行模式最大匹配,最终实现中国人名的识别
  3. 所属分类:专业指导

    • 发布日期:2012-09-25
    • 文件大小:353280
    • 提供者:danisein
  1. pscws23-20081221.tar.bz2【中文分词】

  2. php中文分词 ===== PSCWS23 - 说明文档 ===== $Id: readme.txt,v 1.3 2008/12/21 04:37:59 hightman Exp $ [ 关于 PSCWS23 ] PSCWS23 是由 hightman 于 2006 年开发的纯 PHP 代码实现的简易中文分词系统第二和第三版的简称。 PSCWS 是英文 PHP Simple Chinese Words Segmentation 的头字母缩写,它是 SCWS 项目的前身。 现 SCWS 已作为
  3. 所属分类:PHP

    • 发布日期:2013-09-08
    • 文件大小:2097152
    • 提供者:yao__shun__yu
  1. 《计算语言学》讲义-中科院 刘群教授

  2. 中国科学院研究生院信息学院 硕士生课程 刘群教授主讲。 本课程为计算机软件与理论专业研究生的专业基础课。通过本课程的学习,使同学掌握计算语言学的基本理论,了解自然语言处理的常用模型和算法,初步具备从事相关领域研究工作的能力。 内容提要: 第一章 概论 介绍计算语言学的研究对象,研究手段,学科特点,历史趋势等。 第二章 词典 词典编纂,组织,检索等。 第三章 语料库 语料库收集,整理,对齐,检索,基于语料库的知识获取。 第四章 词法分析 正则语法与有限状态自动机,HMM与词性标注,汉语词语切分,
  3. 所属分类:专业指导

    • 发布日期:2013-11-21
    • 文件大小:9437184
    • 提供者:yuhentian
  1. Lucene中文分词组件 JE-Analysis 1.5.1

  2. 发布于:http://www.jesoft.cn/posts/list/5.page 1.5.1 —— 2006-01-22 修正细粒度分词错误的问题 1.5.0 —— 2007-01-18 全面支持Lucene 2.0 增强了词典维护的API 增加了商品编码的匹配 增加了Mail地址的匹配 实现了词尾消歧算法第二层的过滤 整理优化了词库 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 200
  3. 所属分类:其它

    • 发布日期:2007-01-22
    • 文件大小:891904
    • 提供者:diystar
  1. 自然语言处理工具----切词程序源代码

  2. 自然语言处理的好工具 中科院最新切词程序分析 内含所有源代码 Java语言编写的
  3. 所属分类:Java

    • 发布日期:2008-12-29
    • 文件大小:2097152
    • 提供者:hit2007
  1. 汉语语料库加工规范

  2. 《现代汉语语料库加工规范——词语切分与词性标注》词性标记
  3. 所属分类:搜索引擎

    • 发布日期:2018-01-12
    • 文件大小:171008
    • 提供者:johnson219
  1. 北京大学常宝宝老师-计算机语言学

  2. 北京大学常宝宝老师-计算机语言学 讲义 词语切分 数据平滑 语言模型 词类自动标注 句法分析
  3. 所属分类:讲义

    • 发布日期:2018-01-30
    • 文件大小:4194304
    • 提供者:win817
  1. 复旦nlp中文分词

  2. 复旦nlp中文分词,可以对中文文本词语切分,自然语言处理
  3. 所属分类:Python

    • 发布日期:2018-09-05
    • 文件大小:1048576
    • 提供者:qq_24074771
  1. 现代汉语语料库加工规范(pku)

  2. 北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。第一步是对原始语料进行切分和词性标注。1994年制订了《现代汉语文本切分与词性标注规范V1.0》。几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。因这次加工的任务超出词语
  3. 所属分类:专业指导

    • 发布日期:2010-10-20
    • 文件大小:302080
    • 提供者:yjsmzq
  1. python实现根据文件关键字进行切分为多个文件的示例

  2. 今天小编就为大家分享一篇python实现根据文件关键字进行切分为多个文件的示例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
  3. 所属分类:其它

    • 发布日期:2020-09-19
    • 文件大小:33792
    • 提供者:weixin_38722891
  1. 汉语分词标准汇总

  2. 文章目录《PFR人民日报标注语料库》词性编码表《现代汉语语料库加工规范——词语切分与词性标注》词性标记计算所 ICTCLAS 3.0汉语词性标记集形容词(1个一类,4个二类)区别词(1个一类,2个二类)连词(1个一类,1个二类)副词(1个一类)叹词(1个一类)方位词(1个一类)前缀(1个一类)后缀(1个一类)数词(1个一类,1个二类)名词 (1个一类,7个二类,5个三类)拟声词(1个一类)介词(1个一类,2个二类)量词(1个一类,2个二类)代词(1个一类,4个二类,6个三类)处所词(1个一类)时
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:288768
    • 提供者:weixin_38530202
  1. freeICTCLAS中科院中文分词(拼音中文输入法设计和源代码)

  2. ICTCLAS源码主要模块 │ ICTCLAS_WIN.cpp Windows界面的程序│ log.txt 日志├─Utility 共用函数模块├─Unknown 未登录词识别模块├─Tag HMM标注模块├─Segment 词语切分模块├─Result 结果生成模块├─Data 概率数据文件
  3. 所属分类:其它

    • 发布日期:2021-03-15
    • 文件大小:2097152
    • 提供者:weixin_38722588
  1. 基于规则的哈萨克语句法分析算法研究

  2. 哈萨克语的理解一般分为以下步骤: 原文输入 词语切分及词语属性特征标注语法及句法分析语义及语用和语境分析生成目标形式表示句群及篇章理解等 句子分析上接篇章理解,下联词汇分析,起着承上启下的作用 由于哈萨克语句法分析结果的准确度将对后续机器翻译的研究产生影响,在掌握哈萨克语词法分析技术的基础上,结合现代哈萨克语句法结构特点,首先介绍了厄尔利算法 算法和线图算法三种基于规则的句法分析算法 通过实验对比发现,线图分析算法在哈萨克语简单句的分析中具有运算速度快和占用空间小的综合优势 针对传统线图分析算法
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:917504
    • 提供者:weixin_38747025
  1. 文本切分

  2. 您好!我是“筋斗云上”,请多关照! 第一篇 文本切分 文本切分包含 两个步骤:句子切分、词语切分 一、句子切分 句子切分是将文本语料库分解成句子的过程,句子 切分基本技术是在句子之间寻找特定的分隔符,例如句号(.)换行符(\n)或者分号(;)等。 NLTK框架常用的句子切分器有: sent_tokenize PunkSentenceTokenizer RegexpTokenizer 预先训练的句子切分模型  关于sent_tokenize,以NLTK中的古腾堡(gutenberg)语料库为
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:34816
    • 提供者:weixin_38545485
« 12 3 »